<p>我试图从网站上获取数据,但我想选择第一个1000链接打开一个接一个,从那里获取数据。你知道吗</p>
<p>我试过:</p>
<pre><code>list_links = driver.find_elements_by_tag_name('a')
for i in list_links:
print (i.get_attribute('href'))
</code></pre>
<p>通过这个获得不需要的额外链接。你知道吗</p>
<p>例如:<code>https://www.magicbricks.com/property-for-sale/residential-real-estate?bedroom=1,2,3,4,5,%3E5&proptype=Multistorey-Apartment,Builder-Floor-Apartment,Penthouse,Studio-Apartment,Residential-House,Villa,Residential-Plot&cityName=Mumbai</code></p>
<p>我们将获得超过5万个链接。如何打开只有前1000个链接有在下面与属性的照片。你知道吗</p>
<p><strong>编辑</p>
<p>我也试过:</p>
<pre><code>driver.find_elements_by_xpath("//div[@class='.l-srp__results.flex__item']")
driver.find_element_by_css_selector('a').get_attribute('href')
for matches in driver:
print('Liking')
print (matches)
#matches.click()
time.sleep(5)
</code></pre>
<p>但是获取错误:<code>TypeError: 'WebDriver' object is not iterable</code></p>
<p>为什么我不能用这行链接:<code>driver.find_element_by_css_selector('a').get_attribute('href')</code></p>
<p><strong>编辑1</strong></p>
<p>我试图排序链接如下,但得到错误</p>
<pre><code> result = re.findall(r'https://www.magicbricks.com/propertyDetails/', my_list)
print (result)
</code></pre>
<p>错误:TypeError:应为类似字符串或字节的对象</p>
<p>或者尝试过</p>
<pre><code> a = ['https://www.magicbricks.com/propertyDetails/']
output_names = [name for name in a if (name[:45] in my_list)]
print (output_names)
</code></pre>
<p>什么也得不到。你知道吗</p>
<p>所有链接都在列表中。请建议</p>
<p>先谢谢你。请建议</p>