python 日本語のPDF内のテキストを取得する

pythonで、日本語のPDF内のテキストを取得するサンプルコードを記述してます。pythonのバージョンは3.8.12を使用してます。
環境
- OS windows 10 pro
- python 3.8.12
PyPDF2インストール
まずはライブラリ「pdfminer」を、pipでインストールしておきます。
pip install pdfminer.six
サンプルコード
適当な日本語のPDFをダウンロードします。自分はここのサイトからダウンロードしてます。

pdfminerを使用して、日本語のテキストデータを取得して出力します。
※ここでは「pdf.py」というプログラム名にしてます。
from pdfminer.high_level import extract_text
# プログラムと同じ階層に、ダウンロードしたファイル移動させてファイル名を指定
txt = extract_text("7a79c35f7ce0704dec63be82440c8182.pdf")
print(txt)
実行してみます。
python pdf.py
実行結果

日本語のテキストデータが取得されていることが確認できます。
-
前の記事
jquery 画面のサイズ変更時にサイズを取得する 2022.03.05
-
次の記事
コマンドプロンプトでCドライブの容量を確認する 2022.03.05
コメントを書く