我有一个满是html文件的文件夹。我正在尝试选择正确的html标记,以便正确打印引文,我需要的输出只是出版物编号和标题。到目前为止,我是在这么多年来的各种帖子的帮助下完成这项工作的
with open(filename, 'r',encoding='utf-8') as f:# start loop to read HTML files in folder
patent = f.read()
#print(filename)
soup = BeautifulSoup(patent, 'html.parser')
x=soup.select('tr[itemprop="backwardReferencesOrig"]')
backorigdf= pd.read_html(str(x))
print(backorigdf.loc[: , ['Publication number', 'Title']
但我收到一条错误消息ValueError:找不到表。我希望以熊猫数据帧格式输出多个HTML文件引用,以便更容易分析数据。有人能告诉我我做错了什么吗?这是指向HTML文件https://patents.google.com/patent/US4458945?oq=US4458945A的链接。此文件保存在我的计算机上的HTML文件中,我不想从URL读取。我想从HTML文档中提取代码
您可以使用
pd.read_html()
函数进行以下操作:您可以显示以下表格:
结果集中的一个示例表:
注意:您可以更具体地使用
match
参数来查找所需的内容。如果您不添加匹配参数,它将从页面中带出所有表表2和表3的结果:
了解预期结果的总数将有所帮助。在下面,我通过使用:contains以引文h2元素为目标,然后移动到相邻的表来检索25个独特的结果
相关问题 更多 >
编程相关推荐