我正在编写一个Python程序来读取多个url并生成一个单词(一个单词只包含字母a-Za-z0-9)频率表。输出可以存储在名为url1.txt、url2.txt的文件中
到目前为止,我的情况是:
import urllib2
import obo
url = 'sample url'
response = urllib2.urlopen(url)
html = response.read()
text = obo.stripTags(html).lower()
wordlist = obo.stripNonAlphaNum(text)
for s in sorteddict:
print str(s)
您可以使用boilerpipe轻松地提取文本:https://github.com/misja/python-boilerpipe。你知道吗
代码可能如下所示:
相关问题 更多 >
编程相关推荐