使用beauthoulsoup后在pandas df中添加新行链接

url = "http://www.reed.co.uk/jobs datecreatedoffset=Today&isnewjobssearch=True&pagesize=100" r = ur.urlopen(url).read() soup = BShtml(r, "html.parser") adcount = soup.find_all("div", class_="pages") print(adcount)

1条回答

网友

1楼 · 发布于 2024-10-04 05:19:59

你的链接给出了一个404，但逻辑应该与下面相同。您只需使用page类提取锚定标记，并将它们连接到基url：

import  pandas as pd
from urlparse import urljoin
import requests 

base = "http://www.reed.co.uk/jobs"

url = "http://www.reed.co.uk/jobs?keywords=&location=&jobtitleonly=false"
r = requests.get(url).content
soup = BeautifulSoup(r, "html.parser")

df = pd.DataFrame(columns=["links"], data=[urljoin(base, a["href"]) for a in  soup.select("div.pages a.page")])

print(df)

这给了你：

^{pr2}$

编程相关推荐

java通过EventListener更新Hibernate实体
java将每个组合按字母顺序排列
java找不到媒体类型为application/xml+fhir的JAXBContextFinder
java ReactiveCrudePository与R2DBCrudePository
java如何在对arraylist执行某些操作后更新它而不重新启动活动
在NetBeans中，如何更改默认的JDK？
web服务轴心：获取java。RuntimeException:java。lang.UnsupportedClassVersionError:中的版本号不正确。类文件
为一个Atribut java设置多个值以筛选附加列表
如何将参数从jsp传递到java类？
opencv_contrib对java Maven的依赖

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用beauthoulsoup后在pandas df中添加新行链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >