日別アーカイブ: 3月 22, 2009

「PDFMiner」を使ってテキストを抽出

[pukiwiki]
”日本語”のPDFファイル300個ほどからデータを抜き出すことになりました。
で、プロテクトもかかってないし、手作業で行おうかと思ったのですが、以前から興味のあった、Pure Python なライブラリPDFMinerを使い、テキストデータを抽出してみました。
[/pukiwiki]

続きを読む 「PDFMiner」を使ってテキストを抽出