Установка ограничений

В разделе Суть алгоритма парсинга я описал общий алгоритм работы парсера. Сейчас я подробнее опишу возможности установки ограничений, которые влияют на то, может ли быть добавлен контент с определенной страницы в качестве поста (при определенных условиях эти настройки также влияют на возможность попадания страницы в очередь на обработку).

Речь идет о следующих настройках:

Введите строки, при нахождении которых в URL страница игнорируется (каждая с новой строки)
Введите строки, которые должны обязательно присутствовать в URL, чтобы страница обрабатывалась (каждая с новой строки)
Введите строки, при нахождении которых в коде страницы она игнорируется (каждая с новой строки)
Введите строки, которые должны обязательно присутствовать в теле страницы, чтобы страница обрабатывалась (каждая с новой строки)

Введите строки, при нахождении которых в URL страница игнорируется (каждая с новой строки) – ИЛИ логика
Если хотя бы одна из строк, перечисленных в данном поле, будет найдена в URL страницы, то на этой странице не будет производиться поиск блока контента с последующим добавлением его в качестве поста. При этом внутренние ссылки со страницы все-таки будут собраны.

Введите строки, одна из которых должна обязательно присутствовать в URL, чтобы страница обрабатывалась (каждая с новой строки) – ИЛИ логика
Если хотя бы одна из строк, перечисленных в данном поле, НЕ будет найдена в URL страницы, то на этой странице не будет производиться поиск блока контента с последующим добавлением его в качестве поста. При этом внутренние ссылки со страницы все-таки будут собраны.

ВАЖНО: Обратите внимание на действие галочки «Страницы не прошедшие URL ограничения не включать в список для парсинга» в связи с полями ограничений по URL. Если данная галочка установлена, то страницы, не прошедшие URL ограничений даже не добавляются в список на обработку (на них парсер даже не зайдет для получения с них внутренних ссылок).

ВАЖНО: страницы, заданные пользователем в поле Задайте URLы, с которых парсить контент (каждый с новой строки) всегда попадают в очередь на обработку, независимо от состояния галочки «Страницы не прошедшие URL ограничения не включать в список для парсинга» и содержимого полей ограничения по URL.

Введите строки, при нахождении которых в коде страницы она игнорируется (каждая с новой строки) – ИЛИ логика
Если одна из строк, перечисленных в данном поле, будет найдена в коде страницы (имеется в виду весь код, а не только вырезанный блок контента), то на этой странице не будет производиться поиск блока контента с последующим добавлением его в качестве поста. При этом внутренние ссылки со страницы все-таки будут собраны.

Введите строки, которые должны обязательно присутствовать в теле страницы, чтобы страница обрабатывалась (каждая с новой строки) – И логика
Если хоть одна из строк, перечисленных в данном поле, НЕ будет найдена в коде страницы (имеется в виду весь код, а не только вырезанный блок контента), то на этой странице не будет производиться поиск блока контента с последующим добавлением его в качестве поста. При этом внутренние ссылки со страницы все-таки будут собраны.

Go to Top