我想把所有的东西都放在一个HTML文档中,并将句子大写(在段落标记中)。输入文件包含所有大写字母。你知道吗
我的尝试有两个缺陷-第一,它删除了段落标记本身,第二,它只是降低了匹配组中所有内容的大小写。我不太清楚capitalize()是如何工作的,但我认为它会留下句子的第一个字母。。。资本化。你知道吗
可能还有比regex更简单的方法。以下是我所拥有的:
import re
def replace(match):
return match.group(1).capitalize()
with open('explanation.html', 'rbU') as inf:
with open('out.html', 'wb') as outf:
cont = inf.read()
par = re.compile(r'(?s)\<p(.*?)\<\/p')
s = re.sub(par, replace, cont)
outf.write(s)
以beautifulsoup和nltk为例:
相关问题 更多 >
编程相关推荐