如何使用mediawikiapi从（德语）Wikipedia中提取Infobox？ - 问答 - Python中文网

如何使用mediawikiapi从（德语）Wikipedia中提取Infobox？

2024-10-05 14:31:24 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我想从特定的维基百科页面（主要是国家）中提取信息框中的信息。具体地说，我希望在不使用Python+BeautifulSoup4或任何其他语言+库（如果可能的话）来抓取页面。我宁愿使用官方API，因为我注意到不同Wikipedia子域的CSS标记是不同的（就像在其他语言中一样）。在

In How to get Infobox from a Wikipedia article by Mediawiki API?声明使用下面的方法可以工作，对于给定的标题（Scary Monsters and Nice Sprites），这确实是正确的，但不幸的是，在我尝试过的页面上不起作用（下面进一步）。在

https://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xmlfm&titles=Scary%20Monsters%20and%20Nice%20Sprites&rvsection=0

但是，我假设Wikimedia更改了它们的infobox模板，因为当我运行上面的查询时，我得到的只是内容，而不是{}。E、 g.在Europäische_Union（欧盟）上运行查询会得到以下片段中的结果（以及其他结果）

^{pr2}$

不过，对于英文版的维基百科来说，它很好用。在

所以我想从中提取infobox的页面是：http://de.wikipedia.org/wiki/Europäische_Union

这是我使用的代码：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

import lxml.etree
import urllib

title = "Europäische_Union"

params = { "format":"xml", "action":"query", "prop":"revisions", "rvprop":"content", "rvsection":0 }
params["titles"] = "API|%s" % urllib.quote(title.encode("utf8"))
qs = "&".join("%s=%s" % (k, v)  for k, v in params.items())
url = "http://de.wikipedia.org/w/api.php?%s" % qs
tree = lxml.etree.parse(urllib.urlopen(url))
revs = tree.xpath('//rev')

print revs[-1].text

我错过了什么重要的东西吗？在

Tags： org import api 语言信息 sys 页面 params

1条回答

网友

1楼 · 发布于 2024-10-05 14:31:24

数据不能取自维基百科，而应取自维基百科的结构化数据。（另外，这不是一个标准的infobox：它没有参数，并且填充在the template itself上）

使用Wikidata API模块wbgetclaims获取欧盟的所有数据：

https://www.wikidata.org/w/api.php?action=wbgetclaims&entity=Q458

整洁多了，是吗？更多信息请参见https://www.wikidata.org/wiki/Wikidata:Data_access。在

相关问题更多 >

编程相关推荐

热门问题

热门文章