Python网络爬虫，只打印在它的路径中包含某些单词的链接，漂亮的汤

import urllib import re import mechanize from bs4 import BeautifulSoup import urlparse import cookielib from urlparse import urlsplit from publicsuffix import PublicSuffixList url = "http://www.zahnarztpraxis-uwe-krause.de" br = mechanize.Browser() cj = cookielib.LWPCookieJar() br.set_cookiejar(cj) br.set_handle_robots(False) br.set_handle_equiv(False) br.set_handle_redirect(True) br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1) br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] page = br.open(url, timeout=5) htmlcontent = page.read() soup = BeautifulSoup(htmlcontent) newurlArray = [] for link in br.links(text_regex=re.compile('^((?!IMG).)*$')): newurl = urlparse.urljoin(link.base_url, link.url) if newurl not in newurlArray: newurlArray.append(newurl) print newurl

2条回答

网友

1楼 · 编辑于 2024-10-01 09:24:55

是的，这就像在上面使用regex或普通的旧Python字符串find()一样简单链接.url. （编辑：您也可以像shshank那样使用'kontakt' in link.url）

for link in br.links(text_regex=re.compile('^((?!IMG).)*$')):

    if link.url.find('kontakt')>=0: ...do stuff on urls containing contact
    # or:
    if link.url.find('kontakt')<0: continue # skip urls without

显然这两种方法（stringfind()方法或in运算符）都可以匹配字符串中的任何位置，这有点草率。你想在这里做的只是在url尾部进行匹配。您可以使用find()在link.url.split('/')[-1]上检查尾部

否则link.url.rsplit('/',2)[1]

网友

2楼 · 编辑于 2024-10-01 09:24:55

为什么不干脆这么做呢

if 'kontakt' in url:
    print url
else:
    continue

相关问题更多 >

编程相关推荐

热门问题

热门文章