- Главная
- Связь (Feedback)
- СЕО полезности
- “Скорая помощь”
- FAQ по WP UniParser
- Требования к программному обеспечению хостинга для работы с WP UniParser
- Простой пример работы плагина
- Суть алгоритма парсинга
- Получение внутренних ссылок со страницы
- Вырезание блока контента
- Поиск заголовка будущего поста
- Обработка вырезанного блока контента
- Сохранение изображений на свой сервер
- Установка ограничений
- Сохранение истории
- Дублирование материалов
- Планирование публикации постов
- Умное распределение по категориям
- Автогенерация категорий
- Вывод логов
- Профили настроек
- Глюки: из-за чего могут возникать
Получение внутренних ссылок со страницы
Перейти на главную страницу FAQ.
В разделе Суть алгоритма парсинга я описал общий алгоритм работы WP UniParser. Сейчас я подробнее остановлюсь на 2 пункте, в частности на парсинге внутренних ссылок со страницы и добавлении их в очередь на обработку.
Со страницы собираются все внутренние ссылки за исключением тех, которые уже присутствуют в очереди на обработку или в базе обработанных страниц. Кроме того, если установлена галочка «Страницы не прошедшие URL ограничения не включать в список для парсинга», то на выбираемые из тела страницы ссылки действуют ограничения полей «Введите строки, которые должны обязательно присутствовать в URL, чтобы страница обрабатывалась (каждая с новой строки)» и «Введите строки, при нахождении которых в URL страница игнорируется (каждая с новой строки)».
В результате, не прошедшие эти ограничения URL даже не добавляются в очередь на обработку (ВАЖНО: а если галочка «Страницы не прошедшие URL ограничения не включать в список для парсинга» снята, то в очередь на обработку они добавляются, но только для того, чтобы в будущем собрать с них внутренние ссылки, поскольку вышеупомянутые ограничения не разрешают парсить с этих страниц контент и добавлять его на блог).
ВАЖНО: URLы, заданные пользователем в первоначальном списке страниц для парсинга, в независимости от состояния галочки «Страницы не прошедшие URL ограничения не включать в список для парсинга», а также содержимого полей «Введите строки, которые должны обязательно присутствовать в URL, чтобы страница обрабатывалась (каждая с новой строки)» и «Введите строки, при нахождении которых в URL страница игнорируется (каждая с новой строки)», добавляются в очередь для обработки.


