Суть алгоритма парсинга

Для лучшего понимания настроек парсинга я опишу суть работы его алгоритма.

1. Пользователь задает URL сайта, который необходимо парсить (это может быть как главная, так и внутренняя страница сайта). Можно также задавать сразу несколько URLов. Таким образом, они все сразу будут помещены в очередь на обработку.

2. Начинается первый проход, парсер загружает первый заданный URL и собирает с него все внутренние ссылки (в общем случае), помещая их в конец очереди на обработку.

3. Далее парсер находит в теле страницы блок контента, согласно ограничениям, заданным в полях «Введите регулярное выражение для поиска начальной позиции обрезки» и «Введите строки, по которым будет снизу обрезаться статья».

ВАЖНО: Поиск блока контента и последующее добавление поста в блог производится только в случае, если страница проходит по заданным пользователем ограничениям. В противном случае, страница просто добавляется в базу обработанных страниц и происходит переход к шагу 8.

4. Далее парсер находит в теле страницы заголовок будущего поста.

5. Далее блок контента проходит обработку (о ней я расскажу позже).

6. Далее вырезанный и обработанный блок контента, а также заголовок, посылаются в сервис Google Translate для перевода с языка, выбранного в списке «Выбор языка с которого переводить», на язык, выбранный в списке «Выбор языка на который переводить». (ВАЖНО: если выбран один и тот же язык в обоих списках, шаг 6 пропускается, и вы получаете на выходе текст оригинала).

7. Далее блок контента с ранее определенным заголовком добавляется в виде поста в блог пользователя, а текущая страница добавляется в базу обработанных страниц.

8. Если очередь страниц для обработки не пуста, то все шаги с шага 2 до шага 8 повторяются до тех пор, пока не будет обработано количество страниц, указанное в настройке «Сколько максимум постов граббить за этот проход» или пока очередь страниц для обработки не будет пуста.

9. Когда обработано максимальное количество страниц за проход, но очередь страниц для обработки не пуста, пользователю задается вопрос «Продолжить обработку необработанных страниц?».

ВАЖНО: Если Вы не хотите, чтобы между проходами вам задавался вопрос о продолжении парсинга, снимите галочку Задавать вопрос о продолжении парсинга. В таком случае новый проход будет начинаться автоматически.

10.Если пользователь нажимает OK, то начинается следующий проход (с шага 2), и так до тех пор, пока очередь страниц для обработки не будет пуста или пользователь не установит галочку «Остановить парсинг как можно скорее».

Go to Top