Получение внутренних ссылок со страницы

Перейти на главную страницу FAQ.

В разделе Суть алгоритма парсинга я описал общий алгоритм работы WP UniParser. Сейчас я подробнее остановлюсь на 2 пункте, в частности на парсинге внутренних ссылок со страницы и добавлении их в очередь на обработку.

Со страницы собираются все внутренние ссылки за исключением тех, которые уже присутствуют в очереди на обработку или в базе обработанных страниц. Кроме того, если установлена галочка «Страницы не прошедшие URL ограничения не включать в список для парсинга», то на выбираемые из тела страницы ссылки действуют ограничения полей «Введите строки, которые должны обязательно присутствовать в URL, чтобы страница обрабатывалась (каждая с новой строки)» и «Введите строки, при нахождении которых в URL страница игнорируется (каждая с новой строки)».

В результате, не прошедшие эти ограничения URL даже не добавляются в очередь на обработку (ВАЖНО: а если галочка «Страницы не прошедшие URL ограничения не включать в список для парсинга» снята, то в очередь на обработку они добавляются, но только для того, чтобы в будущем собрать с них внутренние ссылки, поскольку вышеупомянутые ограничения не разрешают парсить с этих страниц контент и добавлять его на блог).

ВАЖНО: URLы, заданные пользователем в первоначальном списке страниц для парсинга, в независимости от состояния галочки «Страницы не прошедшие URL ограничения не включать в список для парсинга», а также содержимого полей «Введите строки, которые должны обязательно присутствовать в URL, чтобы страница обрабатывалась (каждая с новой строки)» и «Введите строки, при нахождении которых в URL страница игнорируется (каждая с новой строки)», добавляются в очередь для обработки.

Go to Top