origami
非常に高性能なpdfパーサ。
なのですが、日本語テキストを取ろうとするとかなりむずかしい。
Ruby で PDF と戯れるの巻 - Qiita
あたりを参照。
pdf-reader
これも高性能なのですが、やはり日本語テキストの切り出しが難しい。
poppler
できることは限定されていますが、日本語テキストの取得だけならこれで十二分。
もう一つのエントリに書きましたのでそちらを見てください。
Rubyでpdfのテキストを取得(poppler gem編) - 別館 子子子子子子(ねこのここねこ)
その他リファレンス
連載(?)もの
- PDFってどういう構造よ?|テン*シー*シー
- PDFってどういう構造よ?その(2)|テン*シー*シー
- PDFってどういう構造よ?その(3)|テン*シー*シー
- PDFってどういう構造よ?その(4)|テン*シー*シー
- PDFってどういう構造よ?その(5)|テン*シー*シー
- PDFってどういう構造よ?その(6)|テン*シー*シー
- PDFってどういう構造よ?その(7)|テン*シー*シー
- PDFってどういう構造よ?その(最終回)|テン*シー*シー
- 実践! iPhoneアプリ開発 (35) PDFビューワの作り方 (3) - PDFフォーマットの概観 | マイナビニュース
- 実践! iPhoneアプリ開発 (36) PDFビューワの作り方 (4) - テキストの抽出 | マイナビニュース
- 実践! iPhoneアプリ開発 (37) PDFビューワの作り方 (5) - 日本語テキストのエンコーディング | マイナビニュース
- 実践! iPhoneアプリ開発 (38) PDFビューワの作り方 (6) - フォント情報の取得 | マイナビニュース
- 実践! iPhoneアプリ開発 (39) PDFビューワの作り方(7) - エンコーディングを考慮した変換 | マイナビニュース