我有这样一个xml:
<author ="twitter" lang="english" type="xx" age_misc="xx" url="https://twitter.com/Carmen_RRHH">
<documents count="436">
<document id="106259332342342348513" url="https://twitter.com/Carmen_RRHH/status/106259338234048513"> </document>
<document id="232342342342323423" url="https://twitter.com/Carmen_RRHH/status/106260629999992832"> </document>
<document id="107084815504908291" url="https://twitter.com/Carmen_RRHH/status/107084815504908291"> </document>
<document id="108611036164276224" url="https://twitter.com/Carmen_RRHH/status/108611036164276224"> </document>
<document id="23423423423423" url="https://twitter.com/Carmen_RRHH/status/108611275851956224"> </document>
<document id="109283650823423480806912" url="https://twitter.com/Carmen_RRHH/status/109283650880806912"> </document>
<document id="10951489623423290488320" url="https://twitter.com/Carmen_RRHH/status/109514896290488320"> </document>
<document id="1095159513234234355080704" url="https://twitter.com/Carmen_RRHH/status/109515951355080704"> </document>
<document id="96252622234239511966720" url="https://twitter.com/Carmen_RRHH/status/96252629511966720"> </document>
</documents>
</author>
有没有可能获取这些链接的内容并将其放入熊猫数据框中?,你知道如何完成这个任务吗?。提前谢谢。在
您可以访问python,requests是一个不错的选择:
但是,要将它们放入pandas数据帧中,这些内容需要结构化(像表一样),这通常不会是。。。在
我建议您研究一下twitter api,或者一个现有的twitter客户机(用于python)例如https://github.com/bear/python-twitter,这样您就可以清晰地(对列)提取所需的特性,而不是从html中获取它们。在
相关问题 更多 >
编程相关推荐