from sklearn.feature_extraction.text import TfidfVectorizer
documents = [open(f) for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
# no need to normalize, since Vectorizer will return normalized tf-idf
pairwise_similarity = tfidf * tfidf.T
最后,我使用了受@larsmans answer启发的Tf-idf算法得到它:
或者,如果文档是纯字符串
^{pr2}$几个有用的链接:
可以在python中使用urllib2。其方法urlopen返回一个响应对象。可以使用read()方法检查响应的内容。如果两个相同的回答有相同的内容,那么它们是相同的。在
编辑:也许我误解了你的帖子,但我认为这意味着你需要检查两个url是否链接到同一个页面,即它们有相同的内容。如果不是这样,我道歉。在
Python
使用urlparse库。在
相关问题 更多 >
编程相关推荐