我想读一个网站上的表和解析值。为此,我做了以下工作:
url = 'http://www.astro.keele.ac.uk/jkt/debcat/'
df = pd.read_html(url, header=0)
即使header=0,我仍然保留一个带有is df[0]的头,因此我执行以下操作:
^{pr2}$
但是,我不能
df1.Period
“DataFrame”对象没有“period”属性
我也做不到
df1.to_csv('junk.csv')
那么,如何访问列并清理表呢?谢谢!在
Tags:
列名称被解析为
u' Period (days) '
,因此要访问该列:也就是说,您需要为这种类型的作业使用html解析库;例如,
^{pr2}$BeautifulSoup
可以非常灵活地完成这项工作末尾的
tbl
是一个列表列表的目标表;也就是说,每一行都是该行中单元格值的列表;例如,tbl[0]
只是标题:我觉得它已经在一个公平的格式:
既然您知道如何查看列:
^{pr2}$df.Period
不起作用并不奇怪,毕竟没有一个列被称为Period
。熊猫不会随机猜测哪个看起来最接近。如果要处理列名,可以执行以下操作之后}(快捷方式)将工作:
df1["Period"]
(首选)和{“我也不能做
df1.to_csv('junk.csv')
”不是一个错误报告,因为你没有解释为什么不能做,或者当你这样做时会发生什么。我假设你得到了一个编码错误:如果指定适当的编码,则可以避免:
相关问题 更多 >
编程相关推荐