python python-docxを使ってWordファイルのテキストを取得する

python python-docxを使ってWordファイルのテキストを取得する

pythonで、ライブラリpython-docxのparagraphsを使用して、Wordファイルのテキストを取得するサンプルコードを記述してます。pythonのバージョンは3.8.5を使用してます。

環境

  • OS windows10 pro 64bit
  • python 3.8.5

python-docxインストール

python-docxをインストールされていない方は、pipでインストールしておきます。

pip install python-docx

<出力結果>
Successfully installed lxml-4.6.1 python-docx-0.8.10

paragraphs使い方

paragraphsを使用すると、Wordファイルのテキストを取得することが可能です。

import docx

# リストを用意
arr = []

# テキストを取得 paragraphsはリストなのでfor inを使用
for n in doc.paragraphs:
    arr.append(n.text)

以下は、「sample.docx」内にあるテキストデータを全て取得して表示するサンプルコードとなります。

sample.docx

ソースコード

import docx

# ワード読み込み
doc = docx.Document('sample.docx')

# リストを用意
arr = []

# テキストを取得 paragraphsはリスト
for n in doc.paragraphs:
    arr.append(n.text)

print(arr)
# ['本日は、', '晴天なり。', '', 'Hello world']