PDFからTextを作成する方法

 1.概要

PDFからTextを切出したい事があります。不思議なことにPDFのテキスト部分をドラッグ&ドロップでテキストに取れることもあります。しかし、何も操作できないこともあります。少しネットで調べて、PDFからTextの作成方法を実施したのでその内容を記述します。

2.詳細

(1) PDF内部にText文書がある場合

PDFには種類がありますが、PDF内部にText文書があるものと、そうではないものがあります。PDF内部にText文書があるものは、比較的かんたんにPDFからTextを作成できます。

ubuntuでは、pdftotextコマンドを利用できます。

(2) PDF内部にText文書がなく、イメージファイルの場合

pdftotextを実行しても何も出力されない場合が該当します。
この場合はPDFをイメージファイル(png)に変換して、OCRソフトでTextにします。

PDFをPNGに変更するためには、pdftoppmを利用します
pdftoppm -png xxxxxx.pdf yyyyyy
yyyyyy.zzzzz.pngが作成されます。

pngをOCRソフトでTextを切り出すには、tesseractを利用します

sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-jpn

tesseract yyyyyy.zzzzz.png output -l jpn
output.txtが作成されます。

参考
[外部サイト参照]
・pdftotext - PDFからテキストを抽出
・pdftoppm - PDFの画像変換(ppm)
・画像から文字を瞬時に読み取る!Tesseractとpytesseractの驚異の力【Python】

コメント

このブログの人気の投稿

miniPCのBMAXでWindows11のsecure boot設定漏れでトラブル発生

LinuxMint 21.3にWinBoat導入を試してみました

Ubuntu 22.04へWinBoat導入をチャレンジしました