从多个网页提取文本(文本文件中的URL)

2024-10-04 05:21:01 发布

您现在位置:Python中文网/ 问答频道 /正文

(环境:Python 2.7+beauthulsoup 4.3.2)

我使用Python和BeautifulSoup来获取这个网页及其后续页面上的新闻标题。我不知道如何让它自动跟踪后续/下一页,所以我把所有的网址放在一个文本文件,web中列表.txt. 在

http://www.legaldaily.com.cn/locality/node_32245.htm
http://www.legaldaily.com.cn/locality/node_32245_2.htm
http://www.legaldaily.com.cn/locality/node_32245_3.htm

一。 . . 在

以下是我目前为止的解决方案:

^{pr2}$

它会弹出一条错误消息,说明语法无效。在

出什么问题了?在


Tags: comnodehttp网页环境www页面cn
1条回答
网友
1楼 · 发布于 2024-10-04 05:21:01
i + = 1

这是无效语法。在

如果要使用增广赋值运算符+=,则加号和等号之间不能有空格。在

^{pr2}$

下一个错误是:

NameError: name 'url' is not defined

因为在soup =行中使用url之前从未定义过它。您可以通过直接迭代url列表来解决这个问题,而不是递增i。在

for url in line_in_list:
    soup = BeautifulSoup(urllib2.urlopen(url).read(), 'html')
    news_list = soup.find_all(attrs={'class': "f14 blue001"})
    for news in news_list:
        print news.getText()

相关问题 更多 >