PDFからTextを作成する方法
1.概要
PDFからTextを切出したい事があります。不思議なことにPDFのテキスト部分をドラッグ&ドロップでテキストに取れることもあります。しかし、何も操作できないこともあります。少しネットで調べて、PDFからTextの作成方法を実施したのでその内容を記述します。
2.詳細
(1) PDF内部にText文書がある場合
PDFには種類がありますが、PDF内部にText文書があるものと、そうではないものがあります。PDF内部にText文書があるものは、比較的かんたんにPDFからTextを作成できます。
ubuntuでは、pdftotextコマンドを利用できます。
(2) PDF内部にText文書がなく、イメージファイルの場合
pdftotextを実行しても何も出力されない場合が該当します。
この場合はPDFをイメージファイル(png)に変換して、OCRソフトでTextにします。
PDFをPNGに変更するためには、pdftoppmを利用します
pdftoppm -png xxxxxx.pdf yyyyyy
yyyyyy.zzzzz.pngが作成されます。
pngをOCRソフトでTextを切り出すには、tesseractを利用します
sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-jpn
tesseract yyyyyy.zzzzz.png output -l jpn
output.txtが作成されます。
参考
[外部サイト参照]
・pdftotext - PDFからテキストを抽出
・pdftoppm - PDFの画像変換(ppm)
・画像から文字を瞬時に読み取る!Tesseractとpytesseractの驚異の力【Python】
コメント
コメントを投稿