用n解析wikipedia stopwords html

2024-10-02 04:37:04 发布

您现在位置:Python中文网/ 问答频道 /正文

关于this问题,我正在编写一个程序来提取wikipedia实体的介绍。正如您在上面的链接中所看到的,我已经成功地查询了api,现在主要关注api调用返回的xml的处理。我使用nltk来处理xml,在这里我使用

wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
    wikiword = lemmatizer.lemmatize(wikiword.lower())
    ...

但是这样我就可以记录下像<//p<<。因为我没有使用xml的结构,所以我想只要忽略所有的xml就可以了。是否有nltk工具或停止字列表可用。我只想知道,什么是最佳实践?在


Tags: in程序实体apifor链接xmlwikipedia
1条回答
网友
1楼 · 发布于 2024-10-02 04:37:04

您没有指定要使用的确切查询,但是现在您所拥有的似乎是HTML,而不是从XML响应中提取的XML。在

如果您想从HTML代码中去掉所有的HTML标记,只保留文本,那么应该使用HTML库,比如BeautifulSoup。在

相关问题 更多 >

    热门问题