python 日本語のPDF内のテキストを取得する

python 日本語のPDF内のテキストを取得する

pythonで、日本語のPDF内のテキストを取得するサンプルコードを記述してます。pythonのバージョンは3.8.12を使用してます。

環境

  • OS windows 10 pro
  • python 3.8.12

PyPDF2インストール

まずはライブラリ「pdfminer」を、pipでインストールしておきます。

pip install pdfminer.six

サンプルコード

適当な日本語のPDFをダウンロードします。自分はここのサイトからダウンロードしてます。

pdfminerを使用して、日本語のテキストデータを取得して出力します。
※ここでは「pdf.py」というプログラム名にしてます。

from pdfminer.high_level import extract_text

# プログラムと同じ階層に、ダウンロードしたファイル移動させてファイル名を指定
txt = extract_text("7a79c35f7ce0704dec63be82440c8182.pdf")
print(txt)

実行してみます。

python pdf.py

実行結果

日本語のテキストデータが取得されていることが確認できます。