擅长:python、mysql、java
<p>因此,从您的示例中很难判断,但看起来您在循环的每个迭代中都在创建一个新的spaCy文档,这会很慢。您应该这样做:</p>
<pre><code>import spacy
nlp = spacy.load('en')
query = nlp('tall building')
for token in mytokens:
query.similarity(nlp(token))
</code></pre>
<p>这样spaCy只需创建一次查询单据</p>
<p>如果要进行重复查询,应将每个文档的向量放入<a href="https://github.com/spotify/annoy" rel="nofollow noreferrer">annoy</a>或类似项中,以快速获得最相似的文档</p>
<p>另外,我一般不会把这个发现称为“同义词”,因为你给出的每个例子都有多个词。你真的在寻找类似的短语。“同义词”通常意味着单个单词,就像你在同义词词典中找到的那样,但这对你没有帮助</p>