Python需要动态HTML、div和span内容

2024-10-01 22:25:42 发布

您现在位置:Python中文网/ 问答频道 /正文

所以,我是新来的刮痧,并期待着做一些被证明有点过于雄心勃勃的事情。我希望有人能在那里帮助我如何收集和分析我从这个网站的信息。在

我需要获得以下信息: 标签1 4810(动态生成) 企业名称 姓名 地址1 地址2 地址3 地址4 邮编 0800 111111 me@domain.com在

这是不是可以用刮痧?在

提前致谢。在

<div class="mbg"> <a href="http://www.domain.com" aria-label="label1"> <span class="nw1">Label13345</span> </a> <span class="mbg-l"> <a href="http://www.domain.com/1" title="FBS">4810</a> <img alt="4810" title="4810" src="http://www.domain.com/image1"></span> </div> <div id="bsi-c" class=" bsi-c-uk-bislr"> <div class="bsi-cnt"> <div class="bsi-ttl section-ttl"> <h2>Info</h2> <div class="rd-sep"></div> </div> <div class="bsi-bn">Business name</div> <div class="bsi-cic"> <div id="bsi-ec" class="u-flL"> <span class="bsi-arw"><a href="javascript:;"></a></span> <span class="bsi-cdt"><a href="javascript:;">Contact details</a></span> </div> <div id="e8" class="u-flL bsi-ci"> <div class="bsi-c1"> <div>Name</div> <div>Address1</div> <div>Address2</div> <div>Address3</div> <div>Address4</div> <div>Postcode</div> </div> <div class="bsi-c2"> <br></br> <div> <span class="bsi-lbl">Phone:</span> <span>0800 111111</span> </div> <div> <span class="bsi-lbl">Email:</span> <span>me@domain.com</span> </div> </div> </div> </div>


Tags: divcom信息idhttptitledomain地址
1条回答
网友
1楼 · 发布于 2024-10-01 22:25:42

解析已接收页面的示例可能如下所示:

import lxml.html

page="""<div><span> . . .</span></div> """
doc = lxml.html.document_fromstring(page)

# get label1 4810
label = doc.cssselect('.mbg .mbg-l a')[0].text_content()
# get address
addres = doc.cssselect('.u-flL .bsi-c1')[0].text_content()
# get phone
phone = doc.cssselect('.bsi-c2 .bsi-lbl')[0].text_content()
# get mail      
mail = doc.cssselect('.bsi-c2 .bsi-lbl')[1].text_content()

如果必须从网络检索页面,请执行以下操作:

^{pr2}$

相关问题 更多 >

    热门问题