python 日本語のPDF内のテキストを取得する

作成日 2022.03.05
python
python

pythonで、日本語のPDF内のテキストを取得するサンプルコードを記述してます。pythonのバージョンは3.8.12を使用してます。

1. 環境
2. PyPDF2インストール
3. サンプルコード

環境

OS windows 10 pro
python 3.8.12

PyPDF2インストール

まずはライブラリ「pdfminer」を、pipでインストールしておきます。

pip install pdfminer.six

サンプルコード

適当な日本語のPDFをダウンロードします。自分はここのサイトからダウンロードしてます。

pdfminerを使用して、日本語のテキストデータを取得して出力します。
※ここでは「pdf.py」というプログラム名にしてます。

from pdfminer.high_level import extract_text

# プログラムと同じ階層に、ダウンロードしたファイル移動させてファイル名を指定
txt = extract_text("7a79c35f7ce0704dec63be82440c8182.pdf")
print(txt)

実行してみます。

python pdf.py

実行結果

日本語のテキストデータが取得されていることが確認できます。

python 日本語のPDF内のテキストを取得する

環境

PyPDF2インストール

サンプルコード

jquery 画面のサイズ変更時にサイズを取得する 2022.03.05

コマンドプロンプトでCドライブの容量を確認する 2022.03.05