В разделе Суть алгоритма парсинга я описал общий алгоритм работы парсера. Сейчас я подробнее остановлюсь на 4 пункте, в частности на поиске заголовка будущего поста.
Поиск производится согласно настроек соответствующего поля:
Формат поля подразумевает, что заголовком будет считаться первая строка имеющая следующий вид:
ОТКРЫВАЮЩИЙ_ТЕГ | ЗАКРЫВАЮЩИЙ_ТЕГ
В примере выше это любая строка вида:
<h1......</h1>
В поле может присутствовать несколько шаблонов строк. Заголовком будет считаться первая найденная.
После нахождения строки заголовка из нее удаляются все html теги.
ВАЖНО: поиск происходит не только в пределах полученного в предыдущем шаге блока контента. Заголовок ищется во всем теле страницы.
ВАЖНО: если заголовок является частью блока контента, то его (в большинстве случаев) в последствии придется вырезать из блока контента. Как это сделать, вы узнаете из раздела Обработка вырезанного блока контента.
ВАЖНО: если заголовок, определенный пользователем не будет найден, парсер попытается найти его самостоятельно. Если этого сделать не получится, то заголовок будущего поста будет составлен из нескольких первых слов тела поста.
ВАЖНО: символ | является служебным. Его можно вводить только один раз в одной строке для поиска заголовка.