Python中文
首页
教程
问答
标签
搜索
登录
注册
用BeautifulSoup提取网页ti中的部分文本
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我想提取这个页面上的标题文本<a href="http://www.arizona.edu/colleges/college-agriculture-life-sciences" rel="nofollow noreferrer">http://www.arizona.edu/colleges/college-agriculture-life-sciences</a>。在</p> <p>以下是我目前掌握的代码:</p> <pre><code>from bs4 import BeautifulSoup import re import urllib2 url = "http://www.arizona.edu/colleges/college-agriculture-life-sciences" page = urllib2.urlopen(url) soup = BeautifulSoup(page.read()) uni_name=soup.title print uni_name </code></pre> <p>但结果是:</p> ^{pr2}$ <p>但我的理想结果是:</p> <pre><code>College of Agriculture & Life Sciences </code></pre> <p>我怎么能做到呢?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>你可以试试这个库(<a href="https://github.com/grangier/python-goose" rel="nofollow">Goose</a>)。在</p> <p>我试图用beauthulsoup为一些网站创建自己的提取器,但后来我意识到Goose正是我需要的。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
无法使用Django/mongoengine连接到MongoDB(身份验证失败)
7 回答
无法使用Django\u mssql\u后端迁移到外部hos
1 回答
无法使用Django&Python3.4连接到MySql
1 回答
无法使用Django+nginx上载媒体文件
1 回答
无法使用Django1.6导入名称模式
6 回答
无法使用Django1.7和mongodb登录管理站点
8 回答
无法使用Djangoadmin创建项目,进程使用了错误的路径,因为我事先安装了错误的Python
7 回答
无法使用Djangockedi验证CBV中的字段
10 回答
无法使用Djangocketditor上载图像(错误400)
1 回答
无法使用Djangocron进行函数调用
8 回答
无法使用Djangofiler djang上载文件
4 回答
无法使用Djangokronos
1 回答
无法使用Djangomssql provid
9 回答
无法使用Djangomssql连接到带有Django 1.11的MS SQL Server 2016
6 回答
无法使用Djangomssq迁移Django数据库
8 回答
无法使用Djangonox创建用户
6 回答
无法使用Djangopyodb从Django查询SQL Server
1 回答
无法使用Djangopython3ldap连接到ldap
7 回答
无法使用Djangoredis连接到redis
7 回答
无法使用Django中的FK创建新表
1 回答