python python-docxを使ってWordファイルのテキストを取得する

pythonで、ライブラリpython-docxのparagraphsを使用して、Wordファイルのテキストを取得するサンプルコードを記述してます。pythonのバージョンは3.8.5を使用してます。
環境
- OS windows10 pro 64bit
- python 3.8.5
python-docxインストール
python-docxをインストールされていない方は、pipでインストールしておきます。
pip install python-docx
<出力結果>
Successfully installed lxml-4.6.1 python-docx-0.8.10
paragraphs使い方
paragraphsを使用すると、Wordファイルのテキストを取得することが可能です。
import docx
# リストを用意
arr = []
# テキストを取得 paragraphsはリストなのでfor inを使用
for n in doc.paragraphs:
arr.append(n.text)
以下は、「sample.docx」内にあるテキストデータを全て取得して表示するサンプルコードとなります。
sample.docx

ソースコード
import docx
# ワード読み込み
doc = docx.Document('sample.docx')
# リストを用意
arr = []
# テキストを取得 paragraphsはリスト
for n in doc.paragraphs:
arr.append(n.text)
print(arr)
# ['本日は、', '晴天なり。', '', 'Hello world']
-
前の記事
javascript 送信ボタンの二度押しを防ぐ 2021.05.05
-
次の記事
rails6 Controllerで使用する共通処理を作成する 2021.05.05
コメントを書く