如何跨行从html抓取文本

<tr style="height:21pt"> <td style="width:366pt"> Deposits to Cash account </td> <td style="width:150pt"> $12.32 </td> </tr> <tr style="height:21pt"> <td style="width:366pt"> Asset transfers in </td> <td style="width:150pt"> $5.34 </td> </tr>

for line in htmlfile: if ('Deposits to Cash account' in line): lineClass = re.findall(r"<p (.*) style",line) #grab "class="s14" print("inside for loop: ",lineClass) if (lineClass[0] in line) and ('$' in line) number = re.findall(r"\$(.*)",line) print("outside for loop: ",lineClass)

1条回答

网友

1楼 · 发布于 2024-09-27 21:28:45

如果您不能使用第三方模块，例如beautifulsoup，那么可以使用Python的内置html.parser（doc）生成“穷人”HTML解析器：

data = '''<tr style="height:21pt">
<td style="width:366pt">
<p class="s14" style="padding-top: 7pt;padding-left: 19pt;text-indent: 0pt;text-align: left;">Deposits to Cash account</p>
</td>
<td style="width:150pt">
<p class="s14" style="padding-top: 7pt;padding-right: 2pt;text-indent: 0pt;text-align: right;">$12.32</p>
</td>
</tr>
<tr style="height:21pt">
<td style="width:366pt">
<p class="s14" style="padding-top: 2pt;padding-left: 19pt;text-indent: 0pt;text-align: left;">Asset transfers in</p>
</td>
<td style="width:150pt">
<p class="s14" style="padding-top: 2pt;padding-right: 2pt;text-indent: 0pt;text-align: right;">$5.34</p>
</td>
</tr>'''

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    grab_data_fn = lambda data: None
    parsed_data = []

    def handle_starttag(self, tag, attrs):
        attrs = dict(attrs)
        if tag=='p' and 'class' in attrs and 's14' in attrs['class']:
            MyHTMLParser.grab_data_fn = lambda data: MyHTMLParser.parsed_data.append(data.strip())

    def handle_endtag(self, tag):
        MyHTMLParser.grab_data_fn = lambda data: None

    def handle_data(self, data):
        MyHTMLParser.grab_data_fn(data)


parser = MyHTMLParser()
parser.feed(data)
parsed_data = parser.parsed_data

deposits = parsed_data[parsed_data.index('Deposits to Cash account') + 1]
transfers = parsed_data[parsed_data.index('Asset transfers in') + 1]

print('Deposits =',deposits)
print('Transfers =',transfers)

打印：

Deposits = $12.32
Transfers = $5.34

然而，最好使用成熟的库，如beautifulsoup、selenium、scrapy或lxml。有了它们，您可以使用XPath、CSS选择器等丰富的api轻松地获取数据。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章