在python中提取字符串

2024-09-30 06:33:26 发布

您现在位置:Python中文网/ 问答频道 /正文

基本上,我想从文本文件中提取字符串“AAA”、“BBB”、“CCC”、“DDD”。。。在

...... (other text goes here).....
<TD align="left" class=texttd><font class='textfont'>AAA</font></TD>
..... (useless text here).....
<TD align="left" class=texttd><font class='textfont'>BBB</font></TD>
....(more text).....
<TD align="left" class=texttd><font class='textfont'>CCC</font></TD>
<TD align="left" class=texttd><font class='textfont'>DDD</font></TD>
......(more text).....

我想要的是这样的:

data = foo("file.txt")

我获取:-在

data = ['AAA','BBB','CCC','DDD']

最好的办法是什么?我的档案不大。。。在

基本上,我想从this file中提取“剩余上传数据传输”,在HTML中看起来像THIS


Tags: textdataheremoreleftclasstdfont
3条回答

你可以写一个REGEX,但它在某种程度上是在“解析”HTML。为HTML编写正则表达式的问题是HTML一团糟。它很少是完美的,当您依赖它获取数据时,这会导致问题。在

我个人会用美容素。它确实做了比你要求的更多的事情,但也超出了你的努力。在

您想要BeautifulSoup

from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(your_file)

soup.find("font", "textfont")
def foo():
    input_file = open("myfile.txt", 'r')
    input = ''.join(input_file.readlines())

    looking_for = ['AAA', 'BBB', 'CCC', 'DDD']
    have = []

    for thing in looking_for:
        if thing in input:
            have.append(thing)
    return have

相关问题 更多 >

    热门问题