import pandas as pdf
import xml.etree.ElementTree as et
treefl = et.parse('429411newsML.xml')
treeroot = treefl.getroot()
news_title = treefl.find("title").text
itemids = treef1.find("newsitem")
if itemids is not None:
item_id = itemids.get['itemid']
else:
item_id = None
在上面的代码中,我试图获取xml文件中的属性值,其中标记名为“newsitem”,属性名为“itemid”
当我尝试使用下面提到的代码在pandas数据框中插入item_id时,数据框中只显示None,如果我没有放入else语句,则会显示'item_id'未定义。如果我尝试使用attrib[]而不是get,那也不行
rows.append({"title" : news_title, "text" : node.text, "bip:topics" : news_codes_class, "dc.date.published" : news_date_published, "item_id" : item_id})
我从xml文件中提取其他字段没有问题,但只有这个字段似乎有这个问题。下面是xml文件的一个片段
<?xml version="1.0" encoding="iso-8859-1" ?>
<newsitem itemid="429411" id="root" date="1997-03-10" xml:lang="en">
<title>EU: OFFICIAL JOURNAL CONTENTS - OJ L 66 OF MARCH 6, 1997.</title>
目前没有回答
相关问题 更多 >
编程相关推荐