python 英数字のPDF内のテキストを取得する

python 英数字のPDF内のテキストを取得する

pythonで、英数字のPDF内のテキストを取得するサンプルコードを記述してます。pythonのバージョンは3.9.7を使用してます。

環境

  • OS Ubuntu 21.10
  • python 3.9.7

PyPDF2インストール

まずはライブラリ「PyPDF2」を、pipでインストールしておきます。

サンプルコード

適当なPDFをダウンロードします。自分はここのサイトからダウンロードしてます。

PyPDF2を使用して、テキストデータを取得して出力します。
※ここでは「pdf.py」というファイル名にしてます。

実行してみます。

実行結果

テキストデータが取得されていることが確認できます。