- Главная
- Связь (Feedback)
- СЕО полезности
- “Скорая помощь”
- FAQ по WP UniParser
- Требования к программному обеспечению хостинга для работы с WP UniParser
- Простой пример работы плагина
- Суть алгоритма парсинга
- Получение внутренних ссылок со страницы
- Вырезание блока контента
- Поиск заголовка будущего поста
- Обработка вырезанного блока контента
- Сохранение изображений на свой сервер
- Установка ограничений
- Сохранение истории
- Дублирование материалов
- Планирование публикации постов
- Умное распределение по категориям
- Автогенерация категорий
- Вывод логов
- Профили настроек
- Глюки: из-за чего могут возникать
Дублирование материалов
Перед добавление поста парсер проверяет нет ли его полного аналога в базе данных. Только в случае отсутствия полного аналога происходит добавление.
Но здесь нужно учитывать один момент. Выше я подчеркнул, что проверка ведется на предмет наличия ПОЛНОГО аналога. Ниже я приведу 2 простых примера и все станет понятно.
1. Допустим, первый раз вы отпарсили определенную русскоязычную страницу и перед добавлением перевели ее на английский язык. Если вы отпарсите ее еще раз, но в настройках укажите перевод с русского на французский, то в итоге у вас получится новый пост, который коренным образом отличается от первого, и, соответственно, будет также добавлен на блог.
2. Допустим на странице есть теги рисунков. Первый раз вы ее отпарсили с установленной галочкой «Вырезать рисунки», второй раз – со снятой галочкой «Вырезать рисунки», а третий раз – со снятой галочкой «Вырезать рисунки» и с установленной галочкой «Сохранять рисунки на свой сервер (замедляет работу парсера)». В итоге у вас получится 3 добавленных поста, так как в первом случае теги <img…> полностью вырезаны, во втором случае они присутствуют (а параметр src указывает загружать картинки с сайта оригинала), а в третьем – теги <img…> также присутствуют, но адрес в параметре src указывает на ваш сервер. Таким образом все 3 варианта имеют незначительные отличия, но эти отличия делают их уже НЕполными копиями друг друга.

