日別アーカイブ: 3月 22, 2009

「PDFMiner」を使ってテキストを抽出

3月 22, 2009PCPythonboxheadroom

[pukiwiki]
”日本語”のPDFファイル300個ほどからデータを抜き出すことになりました。
で、プロテクトもかかってないし、手作業で行おうかと思ったのですが、以前から興味のあった、Pure Python なライブラリPDFMinerを使い、テキストデータを抽出してみました。
[/pukiwiki]

続きを読む「PDFMiner」を使ってテキストを抽出 →

日	月	火	水	木	金	土
« 2月				4月 »
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

BoxHeadRoom

蝸牛の一歩

日別アーカイブ: 3月 22, 2009

「PDFMiner」を使ってテキストを抽出