- Главная
- Связь (Feedback)
- СЕО полезности
- “Скорая помощь”
- FAQ по WP UniParser
- Требования к программному обеспечению хостинга для работы с WP UniParser
- Простой пример работы плагина
- Суть алгоритма парсинга
- Получение внутренних ссылок со страницы
- Вырезание блока контента
- Поиск заголовка будущего поста
- Обработка вырезанного блока контента
- Сохранение изображений на свой сервер
- Установка ограничений
- Сохранение истории
- Дублирование материалов
- Планирование публикации постов
- Умное распределение по категориям
- Автогенерация категорий
- Вывод логов
- Профили настроек
- Глюки: из-за чего могут возникать
Вырезание блока контента
В разделе Суть алгоритма парсинга я описал общий алгоритм работы WP UniParser. Сейчас я подробнее остановлюсь на 3 пункте, когда парсер ищет в теле страницы блок контента, согласно строкам, заданным в полях «Введите регулярное выражение для поиска начальной позиции обрезки» и «Введите строки, по которым будет снизу обрезаться статья».
Здесь все очень просто – в первом поле нужно задать верхнюю границу необходимого вам блока, во втором нижнюю. Верхняя – задается с помощью регулярного выражения. Подробнее о регулярных выражения можно почитать здесь. В самом простом случае вы можете просто ввести участок кода, ограничивающий начало блока контента, в поле «Введите регулярное выражение для поиска начальной позиции обрезки», затем ограничить его двумя косыми чертами и установить в конце строки селектор i. То есть получится следующее выражение:
/КОД_НАЧАЛА_БЛОКА_КОНТЕНТА/i
Ниже приведены пример составления регулярного выражения в простом примере работы плагина:
Для вырезания блока контента составляем следующее регулярное выражение:
/<div class="post-content clear-block">/i
Вы, конечно же, можете пользоваться только самым простым способом установки границы начала блока контента, но если вы освоите регулярные выражения, то легко сможете задавать сразу несколько вариантов строк для обрезки.
С заданием нижней границы блока контента все проще. Здесь, в отличие от регулярного выражения, нужно просто задать несколько вариантов строк, по которым может снизу обрезается тело отпарсенной страницы. Приоритет обрезки – в порядке расположения строк в поле. То есть блок контента будет обрезан снизу по первой найденной строке, заданной в поле «Введите строки, по которым будет снизу обрезаться статья».
В результате обрезки тела отпарсенной страницы, согласно вышеприведенным настройкам, блок контента будет иметь следующий вид:
КОД_НАЧАЛА_БЛОКА_КОНТЕНТА
………………….
………………….
………………….
КОД_КОНЦА_БЛОКА_КОНТЕНТА




