在Python中实现Wiki：“API:获取页面内容”

PARAMS = { "action": "query", "prop": "revisions", "titles": "User:Catrope|Bob", "rvprop": "timestamp|user|comment|content", "rvslots": "main", "formatversion": "2", "format": "json" }

1条回答

网友
1楼 · 发布于 2024-10-03 21:30:37

您不必了解PHP就可以使用来自API: Get the contents of a page的信息。只有扩展名为.php的URL—仅此而已—您可以将这些URL与任何语言（例如python）一起使用。即使是get_users.py中的代码也使用扩展名为.php的URL，并且它不为此使用PHP代码
只需添加&format=json即可将数据作为JSON而不是HTML获取
我不知道您需要哪个URL来获取数据，但您可以将其用作字符串
import requests r = requests.get("https://en.wikipedia.org/w/api.php?action=parse&page=Pet_door&prop=text&formatversion=2&format=json") data = r.json() print(data['parse']['text'])
或者，您可以像在get_users.py中那样将参数作为字典编写，这样对用户来说更可读，并且更容易更改参数
import requests params = { 'action': 'parse', # 'page': 'Pet_door', 'page': 'USER:Catrope', # 'prop': 'text', 'prop': 'wikitext', 'formatversion': 2, 'format': 'json' } r = requests.get("https://en.wikipedia.org/w/api.php", params=params) data = r.json() #print(data.keys()) #print(data) #print(' -') #print(data['parse'].keys()) #print(data['parse']) #print(' -') #print(data['parse']['text']) # if you use param `'prop': 'text' #print(' -') print(data['parse']['wikitext']) # if you use param `'prop': 'wikitext' print(' -') # print all not empty lines for line in data['parse']['wikitext'].split('\n'): line = line.strip() # remove spaces if line: # skip empty lines print(' - line -') print(line) print(' -') # get first line of text (with "I'm not usually active on English Wikipedia. Please refer...") print(data['parse']['wikitext'].split('\n')[0])
因为'prop': 'text'返回HTML，所以需要lxml或BeautifulSoup在HTML中搜索信息。对于'prop': 'wikitext'来说，它给出的文本没有HTML标记，并且使用split('\n')[0]更容易获得第一行
I'm not usually active on English Wikipedia. Please refer to my [[mw:User:Catrope|user page]] at [[mw:|MediaWiki.org]].
编辑：它没有在一个请求中获取所有页面的方法。必须将for-loop与'page': 'USER:{}'.format(name)一起使用
import requests for name in ['Catrope', 'Barek']: print('name:', name) params = { 'action': 'parse', 'page': 'USER:{}'.format(name), # create page name # 'prop': 'text', 'prop': 'wikitext', 'formatversion': 2, 'format': 'json' } r = requests.get("https://en.wikipedia.org/w/api.php", params=params) data = r.json() #print(data['parse']['text']) print(data['parse']['wikitext']) print(' -')
编辑：对于query{}您必须使用完整的标题
"titles": "User:Catrope|User:Bob|User:Barek",
但不是标题给出结果，所以您必须检查数据中是否有revisions
import requests S = requests.Session() URL = "https://www.mediawiki.org/w/api.php" PARAMS = { "action": "query", "prop": "revisions", "titles": "User:Catrope|User:Bob|User:Barek", "rvprop": "timestamp|user|comment|content", "rvslots": "main", "formatversion": "2", "format": "json" } R = S.get(url=URL, params=PARAMS) DATA = R.json() PAGES = DATA["query"]["pages"] for page in PAGES: if "revisions" in page: for rev in page["revisions"]: print(rev['slots']['main']['content']) else: print(page)

相关问题更多 >

编程相关推荐

热门问题

热门文章