从多个网页提取文本（文本文件中的URL） - 问答 - Python中文网

从多个网页提取文本（文本文件中的URL）

2024-10-04 05:21:01 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

（环境：Python 2.7+beauthulsoup 4.3.2）

我使用Python和BeautifulSoup来获取这个网页及其后续页面上的新闻标题。我不知道如何让它自动跟踪后续/下一页，所以我把所有的网址放在一个文本文件，web中列表.txt. 在

http://www.legaldaily.com.cn/locality/node_32245.htm
http://www.legaldaily.com.cn/locality/node_32245_2.htm
http://www.legaldaily.com.cn/locality/node_32245_3.htm

一。 . . 在

以下是我目前为止的解决方案：

^{pr2}$

它会弹出一条错误消息，说明语法无效。在

出什么问题了？在

Tags： com node http 网页环境 www 页面 cn

1条回答

网友

1楼 · 发布于 2024-10-04 05:21:01

i + = 1

这是无效语法。在

如果要使用增广赋值运算符+=，则加号和等号之间不能有空格。在

^{pr2}$

下一个错误是：

NameError: name 'url' is not defined

因为在soup =行中使用url之前从未定义过它。您可以通过直接迭代url列表来解决这个问题，而不是递增i。在

for url in line_in_list:
    soup = BeautifulSoup(urllib2.urlopen(url).read(), 'html')
    news_list = soup.find_all(attrs={'class': "f14 blue001"})
    for news in news_list:
        print news.getText()

相关问题更多 >

编程相关推荐

热门问题

热门文章