PDFからTextを作成する方法
1.概要
PDFからTextを切出したい事があります。不思議なことにPDFのテキスト部分をドラッグ&ドロップでテキストに取れることもあります。しかし、何も操作できないこともあります。少しネットで調べて、PDFからTextの作成方法を実施したのでその内容を記述します。
2.詳細
(1) PDF内部にText文書がある場合
PDFには種類がありますが、PDF内部にText文書があるものと、そうではないものがあります。PDF内部にText文書があるものは、比較的かんたんにPDFからTextを作成できます。
ubuntuでは、pdftotextコマンドを利用できます。
(2) PDF内部にText文書がなく、イメージファイルの場合
pdftotextを実行しても何も出力されない場合が該当します。
この場合はPDFをイメージファイル(png)に変換して、OCRソフトでTextにします。
PDFをPNGに変更するためには、pdftoppmを利用します
pdftoppm -png xxxxxx.pdf yyyyyy
yyyyyy.zzzzz.pngが作成されます。
pngをOCRソフトでTextを切り出すには、tesseractを利用します
sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-jpn
tesseract yyyyyy.zzzzz.png output -l jpn
output.txtが作成されます。
参考
pdftotext - PDFからテキストを抽出
https://note.cman.jp/pdf/poppler/pdftotext/
pdftoppm - PDFの画像変換(ppm)
https://note.cman.jp/pdf/poppler/pdftoppm/
画像から文字を瞬時に読み取る!Tesseractとpytesseractの驚異の力【Python】
https://qiita.com/ryome/items/16fc42854fe93de78a23
コメント
コメントを投稿