PDFからTextを作成する方法

 1.概要

PDFからTextを切出したい事があります。不思議なことにPDFのテキスト部分をドラッグ&ドロップでテキストに取れることもあります。しかし、何も操作できないこともあります。少しネットで調べて、PDFからTextの作成方法を実施したのでその内容を記述します。

2.詳細

(1) PDF内部にText文書がある場合

PDFには種類がありますが、PDF内部にText文書があるものと、そうではないものがあります。PDF内部にText文書があるものは、比較的かんたんにPDFからTextを作成できます。

ubuntuでは、pdftotextコマンドを利用できます。

(2) PDF内部にText文書がなく、イメージファイルの場合

pdftotextを実行しても何も出力されない場合が該当します。
この場合はPDFをイメージファイル(png)に変換して、OCRソフトでTextにします。

PDFをPNGに変更するためには、pdftoppmを利用します
pdftoppm -png xxxxxx.pdf yyyyyy
yyyyyy.zzzzz.pngが作成されます。

pngをOCRソフトでTextを切り出すには、tesseractを利用します

sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-jpn

tesseract yyyyyy.zzzzz.png output -l jpn
output.txtが作成されます。

参考

pdftotext - PDFからテキストを抽出
https://note.cman.jp/pdf/poppler/pdftotext/

pdftoppm - PDFの画像変換(ppm)
https://note.cman.jp/pdf/poppler/pdftoppm/

画像から文字を瞬時に読み取る!Tesseractとpytesseractの驚異の力【Python】
https://qiita.com/ryome/items/16fc42854fe93de78a23

コメント

このブログの人気の投稿

LinuxMint 22.3にdosbox-xを導入してWindows95/98のGameを動かしました

ubuntu 26.04 LTSのリリース発表があり、Daily Build版を導入しました

ubuntu desktop 26.04 LTSをKVM環境にDaily Build版を導入しました