未在python数据帧输出中显示Xml属性值

2024-06-16 12:49:12 发布

您现在位置:Python中文网/ 问答频道 /正文

import pandas as pdf
import xml.etree.ElementTree as et


treefl = et.parse('429411newsML.xml')
treeroot = treefl.getroot()
news_title = treefl.find("title").text

itemids = treef1.find("newsitem")
if itemids is not None:
  item_id = itemids.get['itemid']
else:
  item_id = None

在上面的代码中,我试图获取xml文件中的属性值,其中标记名为“newsitem”,属性名为“itemid”

当我尝试使用下面提到的代码在pandas数据框中插入item_id时,数据框中只显示None,如果我没有放入else语句,则会显示'item_id'未定义。如果我尝试使用attrib[]而不是get,那也不行

    rows.append({"title" : news_title, "text" : node.text, "bip:topics" : news_codes_class, "dc.date.published" : news_date_published, "item_id" : item_id})

我从xml文件中提取其他字段没有问题,但只有这个字段似乎有这个问题。下面是xml文件的一个片段

<?xml version="1.0" encoding="iso-8859-1" ?>
<newsitem itemid="429411" id="root" date="1997-03-10" xml:lang="en">
<title>EU:  OFFICIAL JOURNAL CONTENTS - OJ L 66 OF MARCH 6, 1997.</title>

Tags: 文件textimportnoneidpandasdatetitle