PDFからTextを作成する方法
1.概要 PDFからTextを切出したい事があります。不思議なことにPDFのテキスト部分をドラッグ&ドロップでテキストに取れることもあります。しかし、何も操作できないこともあります。少しネットで調べて、PDFからTextの作成方法を実施したのでその内容を記述します。 2.詳細 (1) PDF内部にText文書がある場合 PDFには種類がありますが、PDF内部にText文書があるものと、そうではないものがあります。PDF内部にText文書があるものは、比較的かんたんにPDFからTextを作成できます。 ubuntuでは、pdftotextコマンドを利用できます。 (2) PDF内部にText文書がなく、イメージファイルの場合 pdftotextを実行しても何も出力されない場合が該当します。 この場合はPDFをイメージファイル(png)に変換して、OCRソフトでTextにします。 PDFをPNGに変更するためには、pdftoppmを利用します pdftoppm -png xxxxxx.pdf yyyyyy yyyyyy.zzzzz.pngが作成されます。 pngをOCRソフトでTextを切り出すには、tesseractを利用します sudo apt install tesseract-ocr sudo apt install tesseract-ocr-jpn tesseract yyyyyy.zzzzz.png output -l jpn output.txtが作成されます。 参考 pdftotext - PDFからテキストを抽出 https://note.cman.jp/pdf/poppler/pdftotext/ pdftoppm - PDFの画像変換(ppm) https://note.cman.jp/pdf/poppler/pdftoppm/ 画像から文字を瞬時に読み取る!Tesseractとpytesseractの驚異の力【Python】 https://qiita.com/ryome/items/16fc42854fe93de78a23