Поиск заголовка будущего поста

В разделе Суть алгоритма парсинга я описал общий алгоритм работы парсера. Сейчас я подробнее остановлюсь на 4 пункте, в частности на поиске заголовка будущего поста.

Поиск производится согласно настроек соответствующего поля:

Формат поля подразумевает, что заголовком будет считаться первая строка имеющая следующий вид:
ОТКРЫВАЮЩИЙ_ТЕГ | ЗАКРЫВАЮЩИЙ_ТЕГ

В примере выше это любая строка вида:
<h1......</h1>

В поле может присутствовать несколько шаблонов строк. Заголовком будет считаться первая найденная.

После нахождения строки заголовка из нее удаляются все html теги.

ВАЖНО: поиск происходит не только в пределах полученного в предыдущем шаге блока контента. Заголовок ищется во всем теле страницы.

ВАЖНО: если заголовок является частью блока контента, то его (в большинстве случаев) в последствии придется вырезать из блока контента. Как это сделать, вы узнаете из раздела Обработка вырезанного блока контента.

ВАЖНО: если заголовок, определенный пользователем не будет найден, парсер попытается найти его самостоятельно. Если этого сделать не получится, то заголовок будущего поста будет составлен из нескольких первых слов тела поста.

ВАЖНО: символ | является служебным. Его можно вводить только один раз в одной строке для поиска заголовка.

Поиск заголовка будущего поста

Archives

Meta