Сохранение истории

Данный пункт описывает очень удобную и простую для понимания фукнцию сохранения истории, которая работает автоматически. Данная функция пригодиться в двух случаях. Во-первых, вы можете отпарсить целый сайт, а потом хотите парсить только новые посты. Если бы не было истории, то введя в очередной раз адрес сайта и нажав отпарсить, вы бы получили более длительную работу парсера, ведь он бы парсил абсолютно все. Конечно даже без истории отпарсились бы только новые посты, но остальные (уже отпарсенные) тоже бы обрабатывались и при добавлении выдавалась бы ошибка Пост добавлен ранее. Наличие истории дает возможность парсеру “помнить”, что он парсил. Это также очень удобно, если вдруг по каким-то причинам произошел сбой работы парсера (бывает из-за остановки или перебоев сервера).

В некоторых случаях вам может понадобиться очистить историю парсинга. Например, это бывает нужно, если вы один раз отпарсили сайт, но задали неправильные настройки вырезания блока контента, ограничения и т.п. Для очистки истории парсинга определенного сайта, введите его URL в поле «Задайте URLы, с которых парсить контент (каждый с новой строки)» и нажмите «Очистить историю».

Для очистки всей истории поле «Задайте URLы, с которых парсить контент (каждый с новой строки)» необходимо оставить пустым.

ВАЖНО: для правильной работы алгоритма предусмотрено, что страницы, которые пользователь задает в поле «Задайте URLы, с которых парсить контент (каждый с новой строки)» будут обрабатываться всегда, независимо от того, есть ли они в базе обработанных страниц.

Go to Top