Обработка вырезанного блока контента

В разделе Суть алгоритма парсинга я описал общий алгоритм работы парсера. Сейчас я подробнее остановлюсь на 5 пункте, в частности на обработке вырезанного парсером блока контента.

Для начала обратите внимание на следующие настройки:
Вырезать скрипты
Вырезать формы
Вырезать комментарии
Вырезать ссылки
Вырезать рисунки
Вырезать спаны
Вырезать объекты
Вырезать все теги

Введите ограничения участков для вырезания

Названия настроек говорят сами за себя.

При установке галочки Вырезать скрипты, из кода страницы будут вырезаны все участки следующего вида:

<script>…</script>

При установке галочки Вырезать формы, из кода страницы будут вырезаны все участки следующего вида:

<form…</form>

При установке галочки Вырезать комментарии, из кода страницы будут вырезаны все участки следующего вида:

<!-- … -->

При установке галочки Вырезать ссылки, из кода страницы будут вырезаны все участки следующего вида:
<em><a …></em>
И
<em></a></em>

ВАЖНО: обратите внимание, что вырезается только код ссылки. При этом анкор (то есть текст ссылки) остается.

При установке галочки Вырезать рисунки, из кода страницы будут вырезаны все участки следующего вида:

<img …>

При установке галочки Вырезать спаны, из кода страницы будут вырезаны все участки следующего вида:

<span…>
И
</span>

При установке галочки Вырезать объекты, из кода страницы будут вырезаны все участки следующего вида:
<object…</object>

При установке галочки Вырезать все теги, из кода страницы будут вырезаны все HTML теги.

Настройка Введите границы участков для вырезания поможет вырезать лишний код из найденного блока контента. Это может пригодиться в случаях, когда посреди текста вебмастера вставляют какие либо блоки рекламы. Границы задаются в следующем виде

НАЧАЛО_КОДА_ДЛЯ_ВЫРЕЗАНИЯ|КОНЕЦ_КОДА_ДЛЯ_ВЫРЕЗАНИЯ

Например, если на сайте, который вы парсите, прямо в контенте есть блок рекламы, который расположены в тегах div с классом “reclama”. Тогда вам нужно ввести следующую строку в данное поле:

<div class=“reclama”>|</div>

Данное поле позволяет задать несколько вариантов участков для вырезания.

ВАЖНО: обратите внимание на то, что из блока контента вырезаются все строки, заданные в поле ввода ограничений участков для вырезания.

Go to Top