我将调查结果存储在xml中,不幸的是,xml并不是统一构建的。 请参见下面的xml。你知道吗
我想迭代div,然后把所有的<b>
元素都拉出来作为问题,但我不知道如何处理答案,因为它们有时包含在sub <div>
中,有时不包含。你知道吗
我在考虑使用elementtree的互文或美丽的汤。但是如果我执行soup.find_all('div')
,BeautifulSoup返回所有div,包括内部div。tree.itertext()
有点不错,但如果可能的话,我不想有太多嵌套循环。你知道吗
如何最好地处理这种情况有什么建议吗?你知道吗
<html>
<body>
<div>
<b>Question 1: What is your name?</b>
My name is Peter.
</div>
<div>
<b>Question 2: What is your native language?</b>
<div>Esperanto</div>
</div>
</body>
</html>
迭代顶级div,从
b
标记中提取问题文本,从下一个同级或下一个同级的下一个同级的文本中提取答案:印刷品:
相关问题 更多 >
编程相关推荐