インターネットから情報を取得する場合にはほとんどにおいてHTML解析を行う必要があります。ということでRubyだと基本的にnokogiriライブラリを扱うことになります。
しかし、nokogiriではタグを指定するのにXPathを使います *1。これがいまひとつ分かりづらい。
ということで情報源を並べておきます。
ネットのなかの情報源
- XPathチートシート
- XPathを扱う場合に最も役立つと思われる。とても便利。
- XPath (XML Path Language)
- XPath学習の導入として最適。しかし誤記があるのが痛い。
- xpath cover page - W3C
- 大本山の公式文書。例示も多いので意外に分かりやすい。邦訳はXMLパス言語 (XPath)
- スクレイピングのためのNokogiri利用メモ - それはそれ。これはこれ。
書籍情報源
XML自身がピークを過ぎた(一般に広まった)ため、関連書籍の出版もピークを過ぎているように感じます。
そして、XPathだけを知りたい立場としては、XML全体を解説した本は不要です。
- 作者: 西村めぐみ
- 出版社/メーカー: 日本実業出版社
- 発売日: 2003/08
- メディア: 単行本
- この商品を含むブログ (3件) を見る
- 少し古い本ですが、XML全体もXPathに関しても簡潔にまとめられている良本。さすが西村めぐみさんの著作です。
シェルの基本テクニック <ホップ・ステップ・ジャンプ> Linux world favorite series
- 作者: 西村めぐみ
- 出版社/メーカー: IDGジャパン
- 発売日: 2004/11
- メディア: ムック
- クリック: 23回
- この商品を含むブログ (14件) を見る
- 作者: 西村めぐみ
- 出版社/メーカー: 日本実業出版社
- 発売日: 2004/11/30
- メディア: 単行本
- 購入: 8人 クリック: 282回
- この商品を含むブログ (23件) を見る