如何用PythonDocx修复分解的文本以获得电子书的免费文本？

1条回答

网友

1楼 · 发布于 2024-05-03 22:12:48

我使用了默认情况下未安装的docx库，您可以使用pip或conda：

pip install python-docx
conda install python-docx  channel conda-forge

安装后：

from docx import Document
doc = Document(r'path\to\file\pride_and_prejudice.docx')
all_text=[]
all_text_str=''

for para in doc.paragraphs:
    all_text.append(para.text)

all_text_str=all_text_str.join(all_text)

clean_text=all_text_str.replace('\n', '')   # Remove linebreaks
clean_text=clean_text.replace('  ', '')    # Remove even number of spaces (e.g. This usually eliminates non-spaces nicely, but you can tweak accordingly.

document = Document()
p = document.add_paragraph(clean_text)
document.save(r'path\to\file\pride_and_prejudice_clean.docx')

编程相关推荐

swing如何在Java中从文本字段中删除逗号
java事务未激活异常EJB事务状态
在不打印新行的情况下更新java控制台
spring boot使用Java通过HTTP流式传输数据
java Right XPath语法，用于通过ID获取两种类型元素的节点列表
使用非明文密码的安全Java LDAP身份验证
java如何删除字符串中的字符，并将其用于另一个字符串
java使用Sikuli导出应用程序
java查找字符串以动态寻址串行端口
我对Java Mysql 8.0中的prepared语句有一个问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用PythonDocx修复分解的文本以获得电子书的免费文本？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >