用n解析wikipedia stopwords html

2024-10-02 04:37:04 发布

男 | 程序猿一只，喜欢编程写python代码。

关于this问题，我正在编写一个程序来提取wikipedia实体的介绍。正如您在上面的链接中所看到的，我已经成功地查询了api，现在主要关注api调用返回的xml的处理。我使用nltk来处理xml，在这里我使用

wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
    wikiword = lemmatizer.lemmatize(wikiword.lower())
    ...

但是这样我就可以记录下像</，/p，<，<。因为我没有使用xml的结构，所以我想只要忽略所有的xml就可以了。是否有nltk工具或停止字列表可用。我只想知道，什么是最佳实践？在

Tags： in 程序实体 api for 链接 xml wikipedia

1条回答

网友

1楼 · 发布于 2024-10-02 04:37:04

您没有指定要使用的确切查询，但是现在您所拥有的似乎是HTML，而不是从XML响应中提取的XML。在

如果您想从HTML代码中去掉所有的HTML标记，只保留文本，那么应该使用HTML库，比如BeautifulSoup。在