使用 python 从 MS Word 文件中提取文本

2024-10-09 09:10:00
admin
原创
104
摘要:问题描述:对于使用 Python 处理 MS Word 文件,有 Python Win32 扩展,可在 Windows 中使用。如何在 Linux 上执行相同操作?有库吗?解决方案 1:使用原生 Python docx 模块。以下是如何从文档中提取所有文本:document = docx.Document(f...

问题描述:

对于使用 Python 处理 MS Word 文件,有 Python Win32 扩展,可在 Windows 中使用。如何在 Linux 上执行相同操作?有库吗?


解决方案 1:

使用原生 Python docx 模块。以下是如何从文档中提取所有文本:

document = docx.Document(filename)
docText = '

'.join(
    paragraph.text for paragraph in document.paragraphs
)
print(docText)

请参阅Python DocX 网站

还请检查一下提取表格等的Textract 。

使用正则表达式解析 XML 会调用 cthulu。不要这样做!

解决方案 2:

您可以对antiword进行子进程调用。Antiword 是一个 Linux 命令行实用程序,用于从 Word 文档中转储文本。对于简单文档来说,它工作得很好(显然它会丢失格式)。它可以通过 apt 获得,也可能是 RPM,或者您可以自己编译它。

解决方案 3:

本杰明的回答非常好。我刚刚整合了...

import zipfile, re

docx = zipfile.ZipFile('/path/to/file/mydocument.docx')
content = docx.read('word/document.xml').decode('utf-8')
cleaned = re.sub('<(.|
)*?>','',content)
print(cleaned)

解决方案 4:

OpenOffice.org 可以用 Python 编写脚本:参见此处。

由于 OOo 可以完美地加载大多数 MS Word 文件,因此我认为这是您最好的选择。

解决方案 5:

我知道这是一个老问题,但我最近试图找到一种从 MS Word 文件中提取文本的方法,迄今为止我发现的最佳解决方案是使用 wvLib:

http://wvware.sourceforge.net/

安装该库后,在 Python 中使用它非常容易:

import commands

exe = 'wvText ' + word_file + ' ' + output_txt_file
out = commands.getoutput(exe)
exe = 'cat ' + output_txt_file
out = commands.getoutput(exe)

就是这样。基本上,我们所做的就是使用commands.getouput函数来运行几个shell脚本,即wvText(从Word文档中提取文本,cat读取文件输出)。之后,Word文档中的全部文本将保存在out变量中,可供使用。

希望这可以帮助将来遇到类似问题的任何人。

解决方案 6:

了解doc 格式的工作原理,并在 linux 中使用 PHP 创建 word 文档。前者特别有用。我推荐使用Abiword工具。不过也有局限性:

但是,如果文档中有复杂的表格、文本框、嵌入的电子表格等,那么它可能无法按预期工作。开发良好的 MS Word 过滤器是一个非常困难的过程,因此请耐心等待,我们会努力让 Word 文档正确打开。如果您的 Word 文档无法加载,请打开 Bug 并包含该文档,以便我们改进导入器。

解决方案 7:

(注意:我也在这个问题上发布了这篇文章,但它似乎与此相关,所以请原谅重新发布。)

现在,这很丑陋,也很不方便,但它似乎对我进行基本的文本提取有用。显然,要在 Qt 程序中使用它,您必须为其生成一个进程等,但我编写的命令行是:

unzip -p file.docx | grep '<w:t' | sed 's/<[^<]*>//g' | grep -v '^[[:space:]]*$'

这就是:

unzip -p file.docx : -p == “解压到标准输出”

grep '<w:t':仅抓取包含“<w:t'”的行(据我所知,<w:t> 是 Word 2007 中“文本”的 XML 元素)

sed 's/<1 >//g'*:删除标签内的所有内容

grep -v '^[[:space:]] $'*: 删除空行

可能有更有效的方法来做到这一点,但它似乎对我测试过的几个文档有用。

据我所知,unzip、grep 和 sed 都有适用于 Windows 和任何 Unix 的端口,因此它应该是相当跨平台的。尽管有点丑陋 ;)

解决方案 8:

如果您打算使用纯 python 模块而不调用子进程,则可以使用 zipfile python 模块。

content = &quot;&quot;
# Load DocX into zipfile
docx = zipfile.ZipFile(&#039;/home/whateverdocument.docx&#039;)
# Unpack zipfile
unpacked = docx.infolist()
# Find the /word/document.xml file in the package and assign it to variable
for item in unpacked:
    if item.orig_filename == &#039;word/document.xml&#039;:
        content = docx.read(item.orig_filename)

    else:
        pass

但是,您的内容字符串需要清理,其中一种方法是:

# Clean the content string from xml tags for better search
fullyclean = []
halfclean = content.split(&#039;&lt;&#039;)
for item in halfclean:
    if &#039;>&#039; in item:
        bad_good = item.split(&#039;>&#039;)
        if bad_good[-1] != &#039;&#039;:
            fullyclean.append(bad_good[-1])
        else:
            pass
    else:
        pass

# Assemble a new string with all pure content
content = &quot; &quot;.join(fullyclean)

但肯定有更优雅的方式来清理字符串,可能是使用 re 模块。希望这能有所帮助。

解决方案 9:

Unoconv 也可能是一个不错的选择:http://linux.die.net/man/1/unoconv

解决方案 10:

要读取 Word 2007 及更高版本的文件(包括 .docx 文件),可以使用python-docx包:

from docx import Document
document = Document(&#039;existing-document-file.docx&#039;)
document.save(&#039;new-file-name.docx&#039;)

要从 Word 2003 及更早版本读取 .doc 文件,请对antiword进行子进程调用。您需要先安装 antiword:

sudo apt-get install antiword

然后只需从你的 Python 脚本中调用它:

import os
input_word_file = &quot;input_file.doc&quot;
output_text_file = &quot;output_file.txt&quot;
os.system(&#039;antiword %s > %s&#039; % (input_word_file, output_text_file))

解决方案 11:

如果您安装了 LibreOffice,您可以简单地从命令行调用它将文件转换为文本,然后将文本加载到 Python 中。

解决方案 12:

这是一个老问题吗?我相信这样的事情不存在。只有已回答和未回答的问题。这个问题几乎没有答案,或者说只回答了一半。好吧,不使用 COM 互操作读取 .docx(MS Word 2007 及更高版本)文档的方法都涵盖了。但仅使用 Python 从 .doc(MS Word 97-2000)中提取文本的方法却不够完善。这很复杂吗?要做:其实并不复杂,要理解:嗯,那是另一回事。

当我没有找到任何完成的代码时,我阅读了一些格式规范并挖掘出其他语言中提出的一些算法。

MS Word (.doc) 文件是 OLE2 复合文件。为了不让您为许多不必要的细节所困扰,请将其视为存储在文件中的文件系统。它实际上使用 FAT 结构,因此定义成立。(嗯,也许您可​​以在 Linux 中循环安装它???)这样,您可以在一个文件中存储更多文件,例如图片等。在 .docx 中也可以使用 ZIP 存档来完成相同的操作。PyPI 上有可以读取 OLE 文件的软件包。例如(olefile、compoundfiles 等)我使用 compoundfiles 软件包打开 *.doc 文件。但是,在 MS Word 97-2000 中,内部子文件不是 XML 或 HTML,而是二进制文件。这还不够,每个子文件都包含有关其他子文件的信息,因此您必须至少阅读其中两个并相应地解开存储的信息。要完全理解,请阅读我从中获取算法的 PDF 文档。

下面的代码非常匆忙地编写,并在少量文件上进行了测试。据我所知,它按预期工作。有时在开头会出现一些乱码,而且几乎总是在文本结尾出现。中间也可能会出现一些奇怪的字符。

对于那些只想搜索文本的人来说,这将会很开心。不过,我还是敦促任何能帮助改进此代码的人都这样做。


doc2text module:
&quot;&quot;&quot;
This is Python implementation of C# algorithm proposed in:
http://b2xtranslator.sourceforge.net/howtos/How_to_retrieve_text_from_a_binary_doc_file.pdf

Python implementation author is Dalen Bernaca.
Code needs refining and probably bug fixing!
As I am not a C# expert I would like some code rechecks by one.
Parts of which I am uncertain are:
    * Did the author of original algorithm used uint32 and int32 when unpacking correctly?
      I copied each occurence as in original algo.
    * Is the FIB length for MS Word 97 1472 bytes as in MS Word 2000, and would it make any difference if it is not?
    * Did I interpret each C# command correctly?
      I think I did!
&quot;&quot;&quot;

from compoundfiles import CompoundFileReader, CompoundFileError
from struct import unpack

__all__ = [&quot;doc2text&quot;]

def doc2text (path):
    text = u&quot;&quot;
    cr = CompoundFileReader(path)
    # Load WordDocument stream:
    try:
        f = cr.open(&quot;WordDocument&quot;)
        doc = f.read()
        f.close()
    except: cr.close(); raise CompoundFileError, &quot;The file is corrupted or it is not a Word document at all.&quot;
    # Extract file information block and piece table stream informations from it:
    fib = doc[:1472]
    fcClx  = unpack(&quot;L&quot;, fib[0x01a2l:0x01a6l])[0]
    lcbClx = unpack(&quot;L&quot;, fib[0x01a6l:0x01a6+4l])[0]
    tableFlag = unpack(&quot;L&quot;, fib[0x000al:0x000al+4l])[0] &amp; 0x0200l == 0x0200l
    tableName = (&quot;0Table&quot;, &quot;1Table&quot;)[tableFlag]
    # Load piece table stream:
    try:
        f = cr.open(tableName)
        table = f.read()
        f.close()
    except: cr.close(); raise CompoundFileError, &quot;The file is corrupt. &#039;%s&#039; piece table stream is missing.&quot; % tableName
    cr.close()
    # Find piece table inside a table stream:
    clx = table[fcClx:fcClx+lcbClx]
    pos = 0
    pieceTable = &quot;&quot;
    lcbPieceTable = 0
    while True:
        if clx[pos]==&quot;&quot;:
            # This is piece table, we store it:
            lcbPieceTable = unpack(&quot;l&quot;, clx[pos+1:pos+5])[0]
            pieceTable = clx[pos+5:pos+5+lcbPieceTable]
            break
        elif clx[pos]==&quot;&quot;:
            # This is beggining of some other substructure, we skip it:
            pos = pos+1+1+ord(clx[pos+1])
        else: break
    if not pieceTable: raise CompoundFileError, &quot;The file is corrupt. Cannot locate a piece table.&quot;
    # Read info from pieceTable, about each piece and extract it from WordDocument stream:
    pieceCount = (lcbPieceTable-4)/12
    for x in xrange(pieceCount):
        cpStart = unpack(&quot;l&quot;, pieceTable[x*4:x*4+4])[0]
        cpEnd   = unpack(&quot;l&quot;, pieceTable[(x+1)*4:(x+1)*4+4])[0]
        ofsetDescriptor = ((pieceCount+1)*4)+(x*8)
        pieceDescriptor = pieceTable[ofsetDescriptor:ofsetDescriptor+8]
        fcValue = unpack(&quot;L&quot;, pieceDescriptor[2:6])[0]
        isANSII = (fcValue &amp; 0x40000000) == 0x40000000
        fc      = fcValue &amp; 0xbfffffff
        cb = cpEnd-cpStart
        enc = (&quot;utf-16&quot;, &quot;cp1252&quot;)[isANSII]
        cb = (cb*2, cb)[isANSII]
        text += doc[fc:fc+cb].decode(enc, &quot;ignore&quot;)
    return &quot;
&quot;.join(text.splitlines())

解决方案 13:

我不知道如果不使用 COM,您的运气会不会好到哪里去。.doc 格式非常复杂,保存时通常被称为 Word 的“内存转储”!

在 Swati,这是用 HTML 编写的,这很好,但是大多数 Word 文档都不太好!

解决方案 14:

这只是不使用 COM 读取“doc”文件的一个选项:miette。应该适用于任何平台。

解决方案 15:

Aspose.Words Cloud SDK for Python是一款独立于平台的解决方案,用于将 MS Word/Open Office 文件转换为文本。它是一款商业产品,但免费试用计划每月提供 150 次 API 调用。

PS:我是 Aspose 的开发者推广者。

# For complete examples and data files, please go to https://github.com/aspose-words-cloud/aspose-words-cloud-python
# Import module
import asposewordscloud
import asposewordscloud.models.requests
from shutil import copyfile

# Please get your Client ID and Secret from https://dashboard.aspose.cloud.
client_id=&#039;xxxxxxx-xxxx-xxxx-xxxxx-xxxxxxxxxx&#039;
client_secret=&#039;xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx&#039;

words_api = asposewordscloud.WordsApi(client_id,client_secret)
words_api.api_client.configuration.host=&#039;https://api.aspose.cloud&#039;

filename = &#039;C:/Temp/02_pages.docx&#039;
dest_name = &#039;C:/Temp/02_pages.txt&#039;
#Convert RTF to text
request = asposewordscloud.models.requests.ConvertDocumentRequest(document=open(filename, &#039;rb&#039;), format=&#039;txt&#039;)
result = words_api.convert_document(request)
copyfile(result, dest_name)

  1. <
相关推荐
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   601  
  华为IPD与传统研发模式的8大差异在快速变化的商业环境中,产品研发模式的选择直接决定了企业的市场响应速度和竞争力。华为作为全球领先的通信技术解决方案供应商,其成功在很大程度上得益于对产品研发模式的持续创新。华为引入并深度定制的集成产品开发(IPD)体系,相较于传统的研发模式,展现出了显著的差异和优势。本文将详细探讨华为...
IPD流程是谁发明的   7  
  如何通过IPD流程缩短产品上市时间?在快速变化的市场环境中,产品上市时间成为企业竞争力的关键因素之一。集成产品开发(IPD, Integrated Product Development)作为一种先进的产品研发管理方法,通过其结构化的流程设计和跨部门协作机制,显著缩短了产品上市时间,提高了市场响应速度。本文将深入探讨如...
华为IPD流程   9  
  在项目管理领域,IPD(Integrated Product Development,集成产品开发)流程图是连接创意、设计与市场成功的桥梁。它不仅是一个视觉工具,更是一种战略思维方式的体现,帮助团队高效协同,确保产品按时、按质、按量推向市场。尽管IPD流程图可能初看之下显得错综复杂,但只需掌握几个关键点,你便能轻松驾驭...
IPD开发流程管理   8  
  在项目管理领域,集成产品开发(IPD)流程被视为提升产品上市速度、增强团队协作与创新能力的重要工具。然而,尽管IPD流程拥有诸多优势,其实施过程中仍可能遭遇多种挑战,导致项目失败。本文旨在深入探讨八个常见的IPD流程失败原因,并提出相应的解决方法,以帮助项目管理者规避风险,确保项目成功。缺乏明确的项目目标与战略对齐IP...
IPD流程图   8  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用