python python-docxを使ってWordファイルのテキストを取得する

作成日 2021.05.05
更新日 2022.05.27
python
python

pythonで、ライブラリpython-docxのparagraphsを使用して、Wordファイルのテキストを取得するサンプルコードを記述してます。pythonのバージョンは3.8.5を使用してます。

1. 環境
2. python-docxインストール
3. paragraphs使い方

環境

OS windows10 pro 64bit
python 3.8.5

python-docxインストール

python-docxをインストールされていない方は、pipでインストールしておきます。

pip install python-docx

<出力結果>
Successfully installed lxml-4.6.1 python-docx-0.8.10

paragraphs使い方

paragraphsを使用すると、Wordファイルのテキストを取得することが可能です。

import docx

# リストを用意
arr = []

# テキストを取得　paragraphsはリストなのでfor inを使用
for n in doc.paragraphs:
    arr.append(n.text)

以下は、「sample.docx」内にあるテキストデータを全て取得して表示するサンプルコードとなります。

sample.docx

ソースコード

import docx

# ワード読み込み
doc = docx.Document('sample.docx')

# リストを用意
arr = []

# テキストを取得　paragraphsはリスト
for n in doc.paragraphs:
    arr.append(n.text)

print(arr)
# ['本日は、', '晴天なり。', '', 'Hello world']

python python-docxを使ってWordファイルのテキストを取得する

環境

python-docxインストール

paragraphs使い方

javascript 送信ボタンの二度押しを防ぐ 2021.05.05

rails6 Controllerで使用する共通処理を作成する 2021.05.05