我想提取这个页面上的标题文本http://www.arizona.edu/colleges/college-agriculture-life-sciences。在
以下是我目前掌握的代码:
from bs4 import BeautifulSoup
import re
import urllib2
url = "http://www.arizona.edu/colleges/college-agriculture-life-sciences"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
uni_name=soup.title
print uni_name
但结果是:
^{pr2}$但我的理想结果是:
College of Agriculture & Life Sciences
我怎么能做到呢?在
你可以试试这个库(Goose)。在
我试图用beauthulsoup为一些网站创建自己的提取器,但后来我意识到Goose正是我需要的。在
.string
属性只提供标记文本:如果只想使用第一部分,请在
^{pr2}$|
管道上拆分:它使用^{} 只分割一次(为了提高效率),获取结果的第一部分,并删除结果周围的任何额外空白。在
演示:
相关问题 更多 >
编程相关推荐