<div class="tioTrivia lightblue bottomRight show sticky" data-login-url="http://www.ntvspor.net/uyelik/giris?returnUrl=/haber/futbol/131009/uniteda-yeni-arjantinli?utm_source=ntvspor%26utm_medium=oyun%26utm_campaign=iste_oyun" data-article-url="/haber/futbol/131009/uniteda-yeni-arjantinli?utm_source=ntvspor&utm_medium=oyun&utm_campaign=iste_oyun&ref=isteoyun" data-profile-url="http://www.ntvspor.net/uyelik/profil" data-content-class="trivia-widget-position" data-start-place="bottom-right" data-show-points="true" data-article-id="Tivibu,Manşet,Futbol,Futbol,Spor Toto Süper Lig,Beşiktaş,Gençlerbirliği" style="transition: opacity 0.5s ease-in-out 0s, right 0.5s ease 0s; top: 832px;">
这个HTML是我的目标。我想爬这条线
^{pr2}$我特别需要这条线
"Tivibu,Manşet,Futbol,Futbol,Spor Toto Süper Lig,Beşiktaş,Gençlerbirliği"
我编写了这个函数,但没有返回任何函数
def read_tags(self, news_url):
try:
self.checkRequests(news_url)
tag = self.soup.find("div", {'class':'tioTrivia lightblue bottomRight show sticky'})
if tag:
tag = tag.get_text().encode(encoding='utf-8')
return tag.lower()
return
except Exception, e:
self.insertErrorLog('ntvspor.read_title', news_url, e)
简单到:
在代码和示例HTML中,
tag.get_text()
返回一个空字符串,因为div
标记中没有内部文本。在为什么不直接从匹配的标记中获取
data-article-id
属性的值呢?在另外,您不需要为
class
属性指定所有值。在这种情况下,tioTrivia
应该足够了,因为其他(lightblue bottomRight show sticky
)是表示性的,而不是{a1}。在相关问题 更多 >
编程相关推荐