我在https://towardsdatascience.com/网站上找到了一个非常好的网页抓取代码,我正在尝试实现它以供我自己使用
https://ingatlan.com/lista/elado+lakas+ii-ker?page=1这是一个匈牙利房地产网站。首先,我只想获取房地产的价格,但是如果我运行代码,我没有得到任何结果,找到的项目数是0
import urllib.request,sys,time
from bs4 import BeautifulSoup
import requests
import pandas as pd
pagesToGet= 1
upperframe=[]
for page in range(1,pagesToGet+1):
print('processing page :', page)
url = 'https://ingatlan.com/lista/elado+lakas+ii-ker?page='+str(page)
print(url)
try:
page=requests.get(url)
except Exception as e:
error_type, error_obj, error_info = sys.exc_info()
print ('ERROR FOR LINK:',url)
print (error_type, 'Line:', error_info.tb_lineno)
continue
time.sleep(2)
soup=BeautifulSoup(page.text,'html.parser')
frame=[]
links=soup.find_all('div',attrs={'class':'listing js-listing '})
print(len(links))
filename="NEWS.csv"
f=open(filename,"w", encoding = 'utf-8')
headers="Price\n"
f.write(headers)
for j in links:
Price = j.find("div",attrs={'class':'price'})
frame.append((Price))
upperframe.extend(frame)
f.close()
data=pd.DataFrame(upperframe, columns=['Price'])
data.head()
我能毁了什么?有一些网站是它的工作场所,比如Myprotein,但也有一些地方不是
这里只有你要求的价格
如果没有用户代理,它将给出403错误禁止
数据帧的输出
相关问题 更多 >
编程相关推荐