如果html表格中包含某些单词，则提取该表格中的文本

2条回答

网友

1楼 · 编辑于 2024-05-20 21:37:03

使用lxml解析器来解决这个问题。你知道吗

from lxml import html

text = '''<table>This is Table 1</table>

<table>This is Table 2</table>

<table>This is Table 3</table>'''

parser = html.fromstring(text)
parser.xpath("//table[contains(text(), 'Table 2')]/text()")

输出将如下所示

['This is Table 2']

网友

2楼 · 编辑于 2024-05-20 21:37:03

所以一个想法是通过BeautifulSoup获取html。然后您可以简单地访问如下标记：

row = soup.find('tr') # Extract and return first occurrence of tr
print(row)            # Print row with HTML formatting
print("=========Text Result==========")
print(row.get_text()) # Print row as text

然后您可以得到innerHtml并将其与字符串进行比较。这将假定您可以使用BeautifulSoup访问html。从https://www.pluralsight.com/guides/web-scraping-with-beautiful-soup得到这个

编程相关推荐

JavaEclipseMars没有保存首选项
java梯度同步失败：原因：启动失败：
java如何从嵌套的JSON获取数据？
java如何判断可观察对象中的任何对象满足一个条件？
java将字符串转换为保持相同值的byte[]数组
java有没有办法绕过AuditingEntityListener为测试设置数据？
从/usr/share/java中解析linux JAR依赖关系
安卓 My java函数抛出nullpointerexception？
java Gradle使用正确版本的依赖项
JBoss和Java6中带注释的WebService中的web服务ClassCastException

相关问题更多 >

编程相关推荐

热门问题

热门文章

如果html表格中包含某些单词，则提取该表格中的文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >