在多行标记之间读取正则表达式？

for line in f.read().split('</doc>\n'): tag = re.findall(r'<id1>\s*(.+)\s*</id1>',line) print tag[0] texttag = re.findall(r'<text>\s*(.+)\s*</text>',line,re.MULTILINE) print texttag

2条回答

网友

1楼 · 编辑于 2024-09-19 23:30:31

您可以通过beauthulsoup解析器实现这一点。在

>>> from bs4 import BeautifulSoup
>>> s = '''<doc>
<id1>123</id1>
<text>
abc
def
</text>
</doc>
<doc> <id1>1234</id1>
<text>
abcdd
defdd
</text>
</doc> '''
>>> soup = BeautifulSoup(s)
>>> [i.text.strip() for i in soup.findAll('text')]
['abc\ndef', 'abcdd\ndefdd']

网友

2楼 · 编辑于 2024-09-19 23:30:31

x="""<text>
some text efdg
some text abcd
</text> """

print [i for i in re.findall(r"<text>([\s\S]*?)<\/text>",x)[0].split("\n") if i]

您可以在markers之间获取text，然后split来获得结果。在

编程相关推荐

java Mac OS无法运行。Jar文件
Eclipse中java不可引发的POM错误
java指定用于bean的验证组
并发性如何确保Java方法中2条语句的顺序和完整执行
java为什么在抽象类中需要构造函数？
java使用链接打开我的Android应用程序
java允许在用户使用代码时选择一个或另一个名称
在Java中插入日期以访问数据库
将GWT RequestFactory与Grails一起使用时出现java类加载器问题
java JPA开始事务瓶颈

相关问题更多 >

编程相关推荐

热门问题

热门文章

在多行标记之间读取正则表达式？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >