2010年9月21日火曜日

phpでHTMLをパースする

前まではtidyを使ってたのだけど少々めんどかった印象があるので他のパーサライブラリを使ってみる。

かるく調べたところこのあたりが有名なのかな。
- Snoopy
- htmlSQL
- PHP Simple HTML DOM Parser
- Zend_Dom_Query

ひととおり全部使ってみた印象では(どれも一長一短あるけど)PHP Simple HTML DOM Parserが楽そう。

「タイトルだけ抜き出す」、「リンクだけ抜き出す」とかは大体どれも使い勝手は変わらないけど、もうちょっと凝ったことをやろうとするとどれもなかなか難しい部分がある。

というわけでもうちょっと使ってみる。

参考
- PHP×Snoopy×スクレイピング - 生涯未熟
- Webスクレイピングを可能にするPHPライブラリ・htmlSQL - かちびと.net
- ITキヲスク | htmlSQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」
- PHPアプリからCSSセレクタでHTML/XML文書を解析する - Zend_Dom -(1/4):CodeZine
- Zend_Dom_Query - noopな日々