Вырезание блока контента

В разделе Суть алгоритма парсинга я описал общий алгоритм работы WP UniParser. Сейчас я подробнее остановлюсь на 3 пункте, когда парсер ищет в теле страницы блок контента, согласно строкам, заданным в полях «Введите регулярное выражение для поиска начальной позиции обрезки» и «Введите строки, по которым будет снизу обрезаться статья».

Здесь все очень просто – в первом поле нужно задать верхнюю границу необходимого вам блока, во втором нижнюю. Верхняя – задается с помощью регулярного выражения. Подробнее о регулярных выражения можно почитать здесь. В самом простом случае вы можете просто ввести участок кода, ограничивающий начало блока контента, в поле «Введите регулярное выражение для поиска начальной позиции обрезки», затем ограничить его двумя косыми чертами и установить в конце строки селектор i. То есть получится следующее выражение:

/КОД_НАЧАЛА_БЛОКА_КОНТЕНТА/i

Ниже приведены пример составления регулярного выражения в простом примере работы плагина:

Для вырезания блока контента составляем следующее регулярное выражение:
/<div class="post-content clear-block">/i

Вы, конечно же, можете пользоваться только самым простым способом установки границы начала блока контента, но если вы освоите регулярные выражения, то легко сможете задавать сразу несколько вариантов строк для обрезки.

С заданием нижней границы блока контента все проще. Здесь, в отличие от регулярного выражения, нужно просто задать несколько вариантов строк, по которым может снизу обрезается тело отпарсенной страницы. Приоритет обрезки – в порядке расположения строк в поле. То есть блок контента будет обрезан снизу по первой найденной строке, заданной в поле «Введите строки, по которым будет снизу обрезаться статья».

В результате обрезки тела отпарсенной страницы, согласно вышеприведенным настройкам, блок контента будет иметь следующий вид:

КОД_НАЧАЛА_БЛОКА_КОНТЕНТА
………………….
………………….
………………….
КОД_КОНЦА_БЛОКА_КОНТЕНТА

Go to Top