別館子子子子子子（ねこのここねこ）はてブロ部

Rubyでpdfのテキストを取得（その他メモ）

Ruby tips

origami

非常に高性能なpdfパーサ。
なのですが、日本語テキストを取ろうとするとかなりむずかしい。
Ruby で PDF と戯れるの巻 - Qiita
あたりを参照。

pdf-reader

これも高性能なのですが、やはり日本語テキストの切り出しが難しい。

GitHub - yob/pdf-reader: The PDF::Reader library implements a PDF parser conforming as much as possible to the PDF specification from Adobe.
File: README — Documentation for pdf-reader (2.0.0)

poppler

できることは限定されていますが、日本語テキストの取得だけならこれで十二分。
もう一つのエントリに書きましたのでそちらを見てください。
Rubyでpdfのテキストを取得（poppler gem編） - 別館子子子子子子（ねこのここねこ）

その他リファレンス

連載（？）もの