Внимание!!! Вышла новая десктопная версия X-Parser Light – парсер контента по ключевикам. Подробности здесь
Сегодня хочу вам представить самый быстрый из известных мне PHP парсеров – парсер контента X-Parser (кстати вот отзыв Курского бомжа и Апокалиптика).
ВАЖНО!!! Если вас интересует десктопный парсер, который значительно более функционален, чем X-Parser, то советую обратить свое внимание на Datacol.
Теперь обо всем по порядку.
Что это вообще такое
Многофункциональный модульный многопоточный универсальный парсер, который в полной сборке позволяет делать следующее:
1. Парсить выдачу любых поисковых систем по ключевым фразам сохраняя сниппеты и ссылки.
2. Парсить контент (текстовый) с любого сайта по заданному домену.
3. Парсить контент (текстовый) по ключевым фразам из выдачи любой ПС.
4. Парсить контент (текстовый) по заданному списку URLов.
5. Парсить внутренние ссылки с любого URLа в частности или сайта в целом.
6. Парсить внешние ссылки с любого URLа в частности или сайта в целом.
Демо интерфейса парсера смотрим здесь!
Прокси чекер в комплекте
Чтобы можно было парсить неограниченное количество контента, парсер комплектуется таким же быстрым прокси чекером. Он позволяет:
1. Проверять прокси по заданному списку проксилистов.
2. Проверять прокси по списку проксей.
3. Проверять индивидуально любой прокси.
4. Отбирать из списка качественные проксилисты.
5. Парсить списки прокси из выдачи Google и отбирать качественные.
Проверка прокси происходит с привязкой к цели использования! Например, если Вы хотите использовать прокси для парсинга Google, то его можно легко настроить, чтобы сразу отбирать только прокси сервера, незабаненные Google.
Производительность парсера
Ну а теперь самое интересное. Парсер контента X-Parser использует многопоточность. Количество потоков настраивается. Скорость парсинга на мегабитном канале составляет примерно 160 секунд на 1 мегабайт чистого текста, т.е. 500 мегабайт в сутки!!!
Скорость проверки прокси составляет около 100 прокси за 100 секунд, то есть за 100 секунд будет найдено примерно 100 рабочих прокси.
Модульность и интеграция в сторонние приложения
Исходный код выполнен модульно. Каждый модуль имеет свои параметры и функции. Без проблем встраивается в любой другой код, например в доргены. Изначально парсер писался для интеграции в сторонний код, поэтому в безинтерфейсном варианте он очень гибок и удобен в использовании (абсолютно все можно настраивать под свои нужды). В интерфейсном варианте вынесены только базовые настройки для удобства использования парсера без наличия знаний в области PHP.
Цена
На данный момент стоимость парсера составляеть 40$.
Скидки за рекламу
На данный момент действует система скидок на весь комплекс скриптов. Если у вас есть СЕО блог с посещаемостью от 200 уников в сутки, то за обзор продукта – весь комплекс вам будет предоставлен абсолютно бесплатно. Если посещаемость блога ниже 200 уников в сутки, величина скидки будет прямо пропорциональной посещаемости.
Отдельно обсуждаются скидки, предоставляемые за рекламу в форумных подписях, на тематических ресурсах и т.д.
Контакты
Автор парсера почти круглосуточно присутствует в своей асе 564234413. Если по каким-то причинам не можете до него достучаться, то обращайтесь ко мне.
Ну, вроде как, все сказал. Жду отзывов в комментариях)))
p.s. Также не забываем про универсальный настраиваемый парсер под WordPress.
Вопрпос По парсеру контента по урлу:
1. Можно ли для урлов задавать регулярки, например задача выдернуть весь контент с урлов вида домен.ру/001 – домен.ру/zzz
2. В каком виде сохраняется контент и куда?
3. Какой максимальный объем урлов для загрузки, например мульон урлов он обработает? Если да то за какое примерн время?
4. Можно ли со странички дергать блоки контенты по определенному правилу и сохранять их отдельно?
5. Можно ли дописывать программный код под свои нужды?
1. Можно выпарсить все урлы без каких-либо проблем, они будут сохранены в файл, а файл Вы уже обрабатываете как хотите.
2. В текстовых файлах.
3. Максимальный объем урлов неограничен, но в сутки возможно обработать примерно 300-500Mb контента. Многое зависит от отклика сайтов. Максимальный отклик – 10 сек. Примерная скорость – 1 урл в секунду.
4. Парсер сделан универсально с целью собирать исключительно полноценный текст с любой страницы. То что Вы хотите можно заказать дополнительно, мы сделаем.
5. Исходный код продается по договорной цене. Переписывать его нет нужды, так как он выполняет строго определенные функции, которые предельно финализированы, т.е. Вы можете встроить этот парсер в любой код, это делается просто, а результаты работы кода обрабатывать на свое усмотрение.
Куда парсится контент? В базу? В xml? Структура базы настраивается?
контент парсится в текстовые файлы, но если необходимо то автор может докрутить вариант, который вам нужен
Вопрос по поводу парсинга выдачи. Мне необходим такой функционал: я задаю список ключевиков, они ищутся в поисковике, в выдаче парсер заходит на сами сайты, выдирает оттуда полный текст с картинками, но без элементов оформления и все это складывает куда-нибудь. Из описания не очень понятно присутствует у вас такой функционал или нет?
X-Parser парсит как раз так, как вам надо, только без картинок. Но за небольшую доплату, автор докрутит и эту функцию. Пишите в асю – решим вопрос.
Добрый день. Интересен ваш парсер.
Как я понял: я ему даю, к примеру, список из 100 запросов, а он в свою очередь берет каждый запрос, заходит в ПС и выдирает от туда текст, ну и ложит его в какой файл (тхт?). И так по каждому запросу.
Работает только с русскими запросами? Или можно использоваться Енгл?
Да, вы все правильно поняли. Он парсит по списку запросов и складывает отпарсенный контент в текстовые файлы с форматированием удобным для любых преобразований. Парсит как русский, так и английский текст. На заказ можем настроить под любые языки.
Парсер контента – где постотреть результ работы? В вордпресс и дле размещается результат работы?
С каких сайтов можно брать материалы?
спасибо, помоги Господи!
Здравствуйте. Парсер может парсить абсолютно любые сайты и ПС, может парсить как по URL, так по кейвордам или сайты целиком, и это далеко не все. На выходе контент структурирован и его очень легко можно преобразовать к любому формату. В частности имеется встроенный вывод в формат TextKit. Zebrum так же превосходно справляется с нашим контентом. Если обратитесь в аську ко мне, то я Вам дам как примеры контента, так и возможность самостоятельно поюзать демоверсию.
Не собираетесь ли вы прикручивать синонимайзер к парсеру? Очень помогло бы. Даже если бы он создавал блоки типа {хорошо|отлично|превосходно}
Здравствуйте. Подскажите а можно сделать так, чтобы в конце каждой спарсеной статьи стояла ссылка на источник в тегах noindex ?
На данный момент мы уже практически подготовили к выпуску новую версию X-Parser PRO. В ней добавлен очень большой функционал. По поводу доработок (вроде синонимайзера и ссылки на источник) – это конечно возможно, но уже в следующей версии, поскольку мы пытаемся добавлять такие функции, которые нужны широкому кругу пользователей.
А по низкочастотным, многословным ключам будут парситься статьи или только однословные ключи можно использовать ?
Естественно, парсер работает и для низкочастотников (вообще ему до частоты запроса дела нет в принципе)))
Я бы мог сделать обзор парсера, но какие требования и как сделать обзор продукта если его даже не пощупал.
я прошу прощения. как я понял этот парсер, что-то вроде для поисковика?т.е. я парсю урлы и в поиске там сайта по запросу он выдает ссылки.
Как установить и настроить парсер..демо скачал но иструкций нет…?? Как его установить есть инструкция??
По описанию оч. можный парсер, заинтерисовался
Лично у меня этого парсера нет, но мой друг и коллега приобрел. Самолично видел его работу. Впечатляет, просто изумительно, хотя для железа чуток тяжеловат.
P.S. Если не ошибаюсь этот парсер на серче необоснованного загнобили и очень зря!
Ну фиг с ним с сёрчем-забудьте вы по этот заспамленный и наполненный кидалами форум.
есть много доверенных и популярных, более адекватных сайтов где нужно рассказывать о парсере.
есть поговорка – не иди на серч, кинут.
Рулит там не здравый смысл, а кучка “приподнятых” в самомнении тупил, смысла не вижу на серче хорошие продукты засвечивать.
я там продаю только самое ГГ
а больше не хожу вообще.
Автору за парсер спасибо.