Простой пример работы плагина

Сейчас я покажу простой пример работы плагина WP UniParser. Итак, заходим в админку своего блога, далее Параметры (Settings), далее WPUniParser.

Устанавливаем все настройки в соответствии с нижеприведенными:

Задайте URLы, с которых парсить контент (каждый с новой строки)
//kolchaka.net/

Выбор категории для сохранения
Выбирайте любую (в данном примере будет использована автогенерация категорий)

Выбор автора
Выбирайте любого

Выбор языка с которого переводить
Русский

Выбор языка на который переводить
English

Задавать вопрос о продолжении парсинга
ОТМЕЧЕНА

Вырезать скрипты
ОТМЕЧЕНА
Вырезать формы
ОТМЕЧЕНА
Вырезать комментарии
ОТМЕЧЕНА
Вырезать ссылки
ОТМЕЧЕНА
Вырезать рисунки
СНЯТА
Вырезать спаны
ОТМЕЧЕНА
Вырезать объекты
ОТМЕЧЕНА
Вырезать все теги
СНЯТА

Сохранять рисунки на свой сервер (замедляет работу парсера)
СНЯТА

Максимальный размер папки uploads (Кб)
Любое число (если рисунки на свой сервер не сохраняются, данный параметр не актуален)

Сколько постов публиковать сразу
5
Интервал в минутах между публикацией новых постов
15
Интервал в минутах до публикации первых постов (для публикации сразу)
0
Сколько максимум постов граббить за этот проход
20

Выводить логи всех ошибок (критические выводятся всегда) и обработки (не рекомендуется для больших сайтов)
ОТМЕЧЕНА
Страницы не прошедшие URL ограничения не включать в список для парсинга
СНЯТА

Введите регулярное выражение для поиска начальной позиции обрезки
/<div class="post-content clear-block">/i

Введите строки, по которым будет снизу обрезаться статья (каждая с новой строки)
<table class="post-meta">

Введите строки, при нахождении которых в URL страница игнорируется (каждая с новой строки) – ИЛИ логика
/feed
/uploads/
/category/
/sitemap
/contact
/author/
/print/
/search/
/label/

Введите строки, при нахождении которых в коде страницы она игнорируется (каждая с новой строки) – ИЛИ логика
ПУСТОЕ ПОЛЕ

Введите строки, одна из которых должна обязательно присутствовать в URL, чтобы страница обрабатывалась (каждая с новой строки) – ИЛИ логика

ПУСТОЕ ПОЛЕ

Введите строки, которые должны обязательно присутствовать в теле страницы, чтобы страница обрабатывалась (каждая с новой строки) – И логика
<div class="shareThis clear-block">

Введите теги, ограничивающие заголовок
<h1|</h1>

Введите ограничения участков для вырезания
ПУСТОЕ ПОЛЕ

SEO (вставка ключевиков в посты)
ПУСТОЕ ПОЛЕ

Минимальное количество вхождений ключевика
Любое число (если поле SEO пустое, эта настройка не актуальна)

Максимальное количество вхождений ключевика
Любое число (если поле SEO пустое, эта настройка не актуальна)

Введите метки для автогенерации категорий (NEW!!!)
rel="category tag">|</a>

Вот как выглядит админка с данными настройками:

Жмем Отпарсить.

Ожидаем окна с вопросом «Продолжить обработку необработанных страниц?».

Жмем OK. Начинается следующий проход. Парсинг продолжается. Количество страниц, обрабатываемых парсером за проход, устанавливается в соответствующем поле:

ВАЖНО: обратите внимание, что количество страниц, обработанных за проход, может не совпадать с количеством постов, добавленных на наш блог, поскольку некоторые страницы могут не пройти установленных пользователем ограничений (о них ниже).

Таким образом, парсер будет работать до тех пор, пока не обработает все страницы, попавшие в очередь на обработку. Если Вы не хотите, чтобы между проходами вам задавался вопрос о продолжении парсинга, снимите галочку «Задавать вопрос о продолжении парсинга».

Но вот, парсинг наконец-то закончился. Это видно по ставшим активными полям настроек. Теперь потянем полосу прокрутки вниз, чтобы добраться до логов работы парсера.

Лог (по умолчанию) имеет 4 раздела:
Лог сообщений (лог сообщений парсера, выданных за последний проход);
Информация о процессе обработки (общее количество обработанных страниц, а также страниц, которые еще предстоит обработать);
Обработанные страницы (в логе максимум 200) (URLы обработанных страниц. В логе выдается максимум 200).
Страницы, которые предстоит обработать (в логе максимум 200) URLы страниц, которые стоят в очереди на обработку. В логе выдается максимум 200).

В текущем примере мы видим, что блок «Страницы, которые предстоит обработать» не содержит ни одной записи. Так произошло, потому что WP UniParser спарсил все страницы сайта, которые прошли по заданным пользователем ограничениям, и на данный момент очередь страниц для обработки пуста.

Теперь можно оценить результаты работы плагина. Заходим на наш блог (на главную страницу) и видим, что у нас появилось 5 новых постов (согласно настройке «Сколько постов публиковать сразу»).

Далее заходим в админку (в меню Записи->Изменить) и видим, что на самом деле на блог добавилось 19 новых постов, из которых 5 опубликовано, а 14 запланировано (запланировано может быть и больше, если блог с момента написания FAQ будет расти). Далее, смотрим в свойства запланированных постов и видим, что каждый из них планируется на 15 минут позже предудыщего (согласно настройке «Интервал в минутах между публикацией новых постов»). Запланированные посты будут автоматически публиковаться во время, на которое они запланированы.

Go to Top