使用re或beatifulsoup的python代码问题的回答

使用re或beatifulsoup的python代码

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

<pre><code><a href="http://goldfilmesonline.com/inferno-dublado-online/" class="tip_trigger" style="float: left;"> <span class="tip" style="left: 597px; width: 400px; margin-top: 3px; display: none;"><div class="bg-tooltips"><img width="100%" src="https://image.tmdb.org/t/p/w780/anmLLbDx9d98NMZRyVUtxwJR6ab.jpg"></div></span> <span class="tip" style="left: 597px; width: 400px; margin-top: 3px; display: none;"> <div style="height:210px;" <div class="tooltips-info-box-bg-topo"> <div class="tooltips-info-box-title">Inferno Dublado Online<br><span>Inferno ( 2016 ) </span> </div> <div class="tooltips-info-box-imdbRating">6.4</div> </div> <div class="tooltips-info-box-bg-meio"> <div class="tooltips-info-box-sinopse"><b>Sinopse: </b>O renomado professor de simbologia de Harvard, Robert Langdon (Tom Hanks) visita a Itália e se envolve em mais uma aventura envolvendo símbolos ocultos e corporações secretas. Ele se vê em uma jornada em que procura desvendar os mistérios do clássico da literatura “A Divina Comédia”, de Dante Alighieri.</div> </div> <div class="tooltips-info-box-bg-rodape"> <div class="tooltips-info-box-genero"><b>Genero:</b> Ação, Aventura, Dublado, Lançamentos, Policial, </div> </div> </div></span> <div class="box-filme"> <div class="capa-miniatura"><div class="capa-miniatura-hover"></div> <img width="185" height="272" src="http://goldfilmesonline.com/wp-content/uploads/2016/12/Inferno-Dublado-Online.jpg" class="attachment-inicio-thumbnails size-inicio-thumbnails wp-post-image" alt="inferno-dublado-online" srcset="http://goldfilmesonline.com/wp-content/uploads/2016/12/Inferno-Dublado-Online.jpg 185w, http://goldfilmesonline.com/wp-content/uploads/2016/12/Inferno-Dublado-Online-160x235.jpg 160w" sizes="(max-width: 185px) 100vw, 185px"><div class="quali">HDRip</div> <div class="dub">Dublado</div> </div> </div> </a> </code></pre> <p>检索（href=，title和src=）的最佳方式是什么</p> <p>我想用：请求，美化，重新</p> <p>这是网站<a href="http://goldfilmesonline.com/category/lancamentos/" rel="nofollow noreferrer">http://goldfilmesonline.com/category/lancamentos/</a></p> <p>这就是我想到的：</p> <pre><code>import urllib2 import urllib import re def open(url): req = urllib2.Request(url) req.add_header('User-agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:19.0) Gecko/20100101 Firefox/19.0') response = urllib2.urlopen(req) link = response.read() response.close() return link#.replace('\n', '').replace('\t','').replace('\r','') url = 'http://goldfilmesonline.com/category/lancamentos/' content = open(url) q = re.compile('<img width=".+?" height=".+?" src="(.+?)" class=".+?" alt="(.+?)"').findall(content) for valor in q: a = valor[0] b = valor[1] x = re.compile('<a href="(.+?)" class=".+?" style=".+?">').findall(content) for c in x: print a, b, c </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

使用re或beatifulsoup的python代码

1 个回答

相关Python问题