Дублирование материалов

Перед добавление поста парсер проверяет нет ли его полного аналога в базе данных. Только в случае отсутствия полного аналога происходит добавление.

Но здесь нужно учитывать один момент. Выше я подчеркнул, что проверка ведется на предмет наличия ПОЛНОГО аналога. Ниже я приведу 2 простых примера и все станет понятно.

1. Допустим, первый раз вы отпарсили определенную русскоязычную страницу и перед добавлением перевели ее на английский язык. Если вы отпарсите ее еще раз, но в настройках укажите перевод с русского на французский, то в итоге у вас получится новый пост, который коренным образом отличается от первого, и, соответственно, будет также добавлен на блог.
2. Допустим на странице есть теги рисунков. Первый раз вы ее отпарсили с установленной галочкой «Вырезать рисунки», второй раз – со снятой галочкой «Вырезать рисунки», а третий раз – со снятой галочкой «Вырезать рисунки» и с установленной галочкой «Сохранять рисунки на свой сервер (замедляет работу парсера)». В итоге у вас получится 3 добавленных поста, так как в первом случае теги <img…> полностью вырезаны, во втором случае они присутствуют (а параметр src указывает загружать картинки с сайта оригинала), а в третьем – теги <img…> также присутствуют, но адрес в параметре src указывает на ваш сервер. Таким образом все 3 варианта имеют незначительные отличия, но эти отличия делают их уже НЕполными копиями друг друга.

Go to Top