2008-10-02から1日間の記事一覧

cmap-adobe-japan1を入れて解決

Debian -- Error は依存ファイルが多い。フォントも入っている。しかし、エラーはcmapというのが関係しているようだ。(参考:pdftotextで PDFからのテキスト抜き出し - reservoirのブログ) ということは、やはりxpdf-japaneseが依存していて、いかにもそれ…

xpdf-japaneseを入れようとする

同じくpdftotext関係でWindowsでは http://homepage3.nifty.com/iranoan/essay/pc/200809210.htm に「xpdf-japaneseを入れてみて」と言う情報があったのだが、 degas@debian:~$ sudo apt-get install xpdf-japanese Password: パッケージリストを読み込んで…

pdfの日本語がインデックスに入ってない…。

ひとまずpdftotextが上手く働いていないことは分かった。直接pdftotextでpdfファイルを変換すると Error: Unknown character collection 'Adobe-Japan1' と出てしまうのですよね…。 まぁこのetchサーバはホントにサーバなのでXも何も入れてないから、なので…