我需要从html解析一个表,该表在较大的表中嵌套了其他表。正如下面用pd.read_html
调用的,这些嵌套表中的每一个都被解析,然后“插入”/“连接”为行。在
我希望将这些嵌套表分别解析为它们自己的pd.DataFrames
,并将inserted as objects作为相应列的值。在
如果这是不可能的,那么将嵌套表的原始html作为字符串放在相应的位置就可以了。在
测试代码:
import pandas as pd
df_up = pd.read_html("up_pf00344.test.html", attrs = {'id': 'results'})
链接到文件:https://gist.github.com/smsaladi/6adb30efbe70f9fed0306b226e8ad0d8#file-up_pf00344-test-html-L62
不能使用^{} 读取嵌套表,但可以滚动自己的html阅读器,并对表单元格使用
read_html
:
^{pr2}$df.iloc[0].map(type)
的结果:好处:由于表行有一个
id
,因此可以将其用作数据帧df.loc[row.get('id')] = df_row
的索引,而不是df.loc[len(df)] = df_row
。在相关问题 更多 >
编程相关推荐