关于this问题,我正在编写一个程序来提取wikipedia实体的介绍。正如您在上面的链接中所看到的,我已经成功地查询了api,现在主要关注api调用返回的xml的处理。我使用nltk来处理xml,在这里我使用
wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
wikiword = lemmatizer.lemmatize(wikiword.lower())
...
但是这样我就可以记录下像</
,/p
,<
,<
。因为我没有使用xml的结构,所以我想只要忽略所有的xml就可以了。是否有nltk工具或停止字列表可用。我只想知道,什么是最佳实践?在
您没有指定要使用的确切查询,但是现在您所拥有的似乎是HTML,而不是从XML响应中提取的XML。在
如果您想从HTML代码中去掉所有的HTML标记,只保留文本,那么应该使用HTML库,比如BeautifulSoup。在
相关问题 更多 >
编程相关推荐