获取大量(但不是全部)维基百科页面对于我的一个NLP项目,我想从Wikipedia随机下载大量页面(比如10000个)。在不下载整个XML转储文件的情况下,我可以这样想: 打开维基百科页面 以广度优先的搜索方式解析HTML中的链接并 ...2024-10-01 已阅读: n次