<p>我有一个url列表(<code>unicode</code>),有很多重复。
例如,url <code>http://www.myurlnumber1.com</code>和<code>http://www.myurlnumber1.com/foo+%bar%baz%qux</code>指向同一个地方。你知道吗</p>
<p>所以我需要剔除所有的重复。你知道吗</p>
<p>我的第一个想法是检查元素的子字符串是否在列表中,如下所示:</p>
<pre><code>for url in list:
if url[:30] not in list:
print(url)
</code></pre>
<p>但是,它试图将文本<code>url[:30]</code>转换为一个列表元素,并且显然返回所有元素,因为没有与<code>url[:30]</code>完全匹配的元素。你知道吗</p>
<p>有没有简单的方法来解决这个问题?你知道吗</p>
<p>编辑:</p>
<p>通常,URL中的主机和路径保持不变,但参数不同。出于我的目的,一个具有相同主机名和路径,但不同参数的url仍然是相同的url,并构成一个重复的url。你知道吗</p>
<p>您可以尝试添加另一个for循环,如果您不介意的话。
比如:</p>
<pre><code>for url in list:
for i in range(len(list)):
if url[:30] not in list[i]:
print(url)
</code></pre>
<p>将每个单词与其他单词进行比较,以检查是否相同。这只是一个例子,我相信你可以让它更强大。你知道吗</p>