Python中文
首页
教程
问答
标签
搜索
登录
注册
从beauthulsoup中的CSS选择器获取“hrefs”的最佳方法?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>编写一个脚本,该脚本最初将为给定的人口普查块组中的所有人口普查块收集数据。不过,为了做到这一点,我首先需要能够获得一个给定区域内所有区块组的链接。tracts由一个包含其url的列表定义,该列表返回一个页面,其中列出css选择器“div#rList3 a”中的块组。运行此代码时:</p> <pre><code>from bs4 import BeautifulSoup from urllib.request import urlopen tracts = ['http://www.usa.com/NY023970800.html','http://www.usa.com/NY023970900.html', 'http://www.usa.com/NY023970600.html','http://www.usa.com/NY023970700.html', 'http://www.usa.com/NY023970500.html'] class Scrape: def scrapeTracts(self): for i in tracts: html = urlopen(i) soup = BeautifulSoup(html.read(), 'lxml') bgs = soup.select("div#rList3 a") print(bgs) s = Scrape() s.scrapeTracts() </code></pre> <p>这给了我一个如下的输出:<code>[<a href="/NY0239708001.html">NY0239708001</a>]</code>(为了这篇文章的长度,实际的链接被切掉了。)我的问题是,我如何才能得到'href'后面的字符串,在这个例子中是<code>/NY0239708001.html</code>?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>每个节点都有一个attrs字典,其中包含该节点的属性…包括CSS类,或者在本例中是href。在</p> <pre><code>hrefs = [] for bg in bgs: hrefs.append(bg.attrs['href']) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何合并多个PDF文件?
2 回答
如何合并多个xarray数据变量及其坐标?
7 回答
如何合并多个列中具有重复值的行
9 回答
如何合并多个唯一id
2 回答
如何合并多个图纸并使用图纸名称的名称重命名列名?
9 回答
如何合并多个字典并添加同一个键的值?(Python)
2 回答
如何合并多个搜索结果文件(pkl)以将它们全部打印在一起?
1 回答
如何合并多个数据帧
2 回答
如何合并多个数据帧并使用Pandas为假人添加列?
10 回答
如何合并多个数据帧并按时间戳排序
8 回答
如何合并多个数据帧的列表并用另一个lis标记每列
3 回答
如何合并多个数据框中的列
10 回答
如何合并多个文件?
9 回答
如何合并多个查询集?
7 回答
如何合并多个绘图?
1 回答
如何合并多个词典
3 回答
如何合并多个输入数据集(数据帧)?
10 回答
如何合并多条记录中拆分的文本行
7 回答
如何合并多索引列datafram
3 回答
如何合并多级(即多索引)数据帧?
8 回答