基本上,我想从文本文件中提取字符串“AAA”、“BBB”、“CCC”、“DDD”。。。在
...... (other text goes here).....
<TD align="left" class=texttd><font class='textfont'>AAA</font></TD>
..... (useless text here).....
<TD align="left" class=texttd><font class='textfont'>BBB</font></TD>
....(more text).....
<TD align="left" class=texttd><font class='textfont'>CCC</font></TD>
<TD align="left" class=texttd><font class='textfont'>DDD</font></TD>
......(more text).....
我想要的是这样的:
data = foo("file.txt")
我获取:-在
data = ['AAA','BBB','CCC','DDD']
最好的办法是什么?我的档案不大。。。在
你可以写一个REGEX,但它在某种程度上是在“解析”HTML。为HTML编写正则表达式的问题是HTML一团糟。它很少是完美的,当您依赖它获取数据时,这会导致问题。在
我个人会用美容素。它确实做了比你要求的更多的事情,但也超出了你的努力。在
您想要BeautifulSoup:
相关问题 更多 >
编程相关推荐