Python中文
首页
教程
问答
标签
搜索
登录
注册
Python网络爬虫,只打印在它的路径中包含某些单词的链接,漂亮的汤
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>所以我有一个网络爬虫,它打印出所有来自给定站点的链接,而不重复相同的链接。我的代码(带有已导入但尚未使用的库)如下所示:</p> <pre><code>import urllib import re import mechanize from bs4 import BeautifulSoup import urlparse import cookielib from urlparse import urlsplit from publicsuffix import PublicSuffixList url = "http://www.zahnarztpraxis-uwe-krause.de" br = mechanize.Browser() cj = cookielib.LWPCookieJar() br.set_cookiejar(cj) br.set_handle_robots(False) br.set_handle_equiv(False) br.set_handle_redirect(True) br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1) br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] page = br.open(url, timeout=5) htmlcontent = page.read() soup = BeautifulSoup(htmlcontent) newurlArray = [] for link in br.links(text_regex=re.compile('^((?!IMG).)*$')): newurl = urlparse.urljoin(link.base_url, link.url) if newurl not in newurlArray: newurlArray.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(newurl) print newurl </code></pre> <p>结果是这样的:</p> ^{pr2}$ <p>现在我的问题是如何告诉我的程序,它只打印出包含单词<code>kontakt</code>的链接。在</p> <p>我应该使用正则表达式还是其他什么?在</p> <p>我从来没有这样做过,所以我不知道用什么来获得唯一的结果:</p> <pre><code>http://www.zahnarztpraxis-uwe-krause.de/pages/kontakt.html </code></pre> <p>有什么建议吗?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>为什么不干脆这么做呢</p> <pre><code>if 'kontakt' in url: print url else: continue </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
10 回答
如何添加表示整数的擦边字符串?
2 回答
如何添加要在Bokeh中使用的新font.ttf文件?
2 回答
如何添加要显示的矩阵XY轴编号和XY轴
2 回答
如何添加计数?
7 回答
如何添加计数器函数?
4 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
6 回答
如何添加计数器来跟踪while循环中的月份和年份?
8 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
10 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
4 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
1 回答
如何添加评论拉梅尔亚姆
9 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
7 回答
如何添加谷歌地点自动完成到Flask?
10 回答
如何添加超时、python discord bot
9 回答
如何添加超过1dp的检查
2 回答
如何添加距离方法
10 回答
如何添加跟随游戏的敌人精灵
2 回答
如何添加路径以便python可以找到程序?
2 回答
如何添加身份验证/安全性以使用happybase访问HBase?
6 回答