Word模块安装与介绍 Python读取Word文档内容

python-docx模块

python-docx模块可以创建、修改Wrod(.docx)文件,需要单独安装,不属于Python的标准模块。官方网站:https://python-docx.readthedocs.io/en/latest/

安装方式为pip命令安装:pip install python-docx或者在pycharm的setting里面安装!

Word文档结构

Document:文档,Paragraph:段落,Run:文字块。一段内容用Paragraph表示,在Paragraph段落中,Run文字块通过逗号分割。

python-docx提取文字

doc.paragraphs得到一个列表,包含了每个段落实例,使用paragraph.text获取该段落的文字内容:

from docx import Document
doc=Document('文档.docx')
print(doc.paragraphs)
for paragraph in doc.paragraphs:
    print(paragraph.text)

paragraph.runs可以得到一个列表,包含了每个文字块

from docx import Document
doc=Document('文档.docx')
paragraph=doc.paragraphs[1]
runs=paragraph.runs
print(runs)
for run in paragraph.runs:
    print(run.text)

发表评论