FM(feedmaster) — статический парсер и портатор, в чём разница ?*

Цитирую слова создателя FM (http://wpdot.com www.feedmaster.org)

по поводу статического парсинга
хочу заметить что статический парсер и портатор это две разные подсистемы которые
работают немного по разному принципу

для того чтобы настроить статический парсер необходимо в меню указать
урл на подобие карты сайта например http://www.sviaz.spb.ru/index.php?price=select
здесь прайс лист мобильных телефонов
если в поле Static page pattern: указать сигнатуру <td class=»price_m»>{get}</td>
то парсер будет выкусывать ссылки на оригиналы описаний мобильных
телефонов
в поле Get content: нужно добавить сигнатуру <table border=»0″ width=»100%» id=»table6″ cellspacing=»0″ cellpadding=»8″>{get}<td><font color=»#000080″><i><b>
чтобы парсить сам контент.
а поле Get title можно указать например <h1>{get}</h1> тогда заголовок
будет формироваться из того что находится между <h1> и </h1> на html
странице.

Если активировать чекбокс «Get all links from page.» и
заполнить depth: и max links то активируется система Протатор.
Портатор парсит весь сайт целиком проходя по нему как паук по всем
доступным страницам.
в таком случае стартовой страницей для парсинга всего сайта будет
страница указанная в поле «RSS or Atom URL:». далее алгоритм работ
такой — портатор загружает стартовую, потом ищет все ссылки на этой
странице, отбрасывает внешние ссылки, далее идет по всем внутренним, и
опять ищет ссылки и так до тех пор пока не сработает ограничение либо
depth: либо max links.
Теперь об ограничителях подробно
depth это глубина обхода страниц —
0 — будут портироваться стартовая и все страницы ссылки на которые
найдены на стартовой
1 это стартовая, все страницы найденные на стартовой а также ссылки
найденные на всех страницах нулевого уровня.
и так далее… так что указывать большие значения этого параметра
не рекомендуется так как до парсинга может просто не дойти, даи чтобы
все сайта обойти хватит уровня 1 — в крайнем случае 2.

max links — так как портатор сначала собирает ссылки, как только но
соберет количество указанное в max links он остановится и начнет их
парсить и пытаться добавлять в блог.

повторюсь — чтобы работал статический парсер чекбокс Get all links
from page. должен быть выключен.

также хочузаметить что портатор требует времени в своей работе. если у
Вас на хостинге установлен лимит на исполнение пхп скриптов, например
30 или 60 секунд, для работы портатора этого времени будет
недостаточно, потому либо нужно использовать VDS либо хостинг где
нет такого лимита по времени.

также если в настройках ленты включена сортировака по ключевикам «To
Category:» то сам сортировщик вменю # Sort Keywords должен быть
заполнен ключевиками, иначе парсер ничего не добавит в блог. или нужно
явно выбрать категорию куда будут добавляться публикации из этого
источника.

Добавить комментарий

Ваш e-mail не будет опубликован.