我写了一个Python程序来查找给定号码的手机运营商。它下载http://www.whitepages.com/carrier_lookup?carrier=other&number_0=1112223333&response=1的源代码(其中111222333是要查找的电话号码),并将其另存为承运人.html. 在源代码中,载波在[div^{cl1}之后的行中$
我的程序当前搜索该文件并找到包含div标记的行,但现在我需要一种方法将该行之后的下一行存储为字符串。我当前的代码是:http://pastebin.com/MSDN0vbC
你真正想做的是正确地解析HTML。使用beauthoulsoup库-这是很好的。在
样本代码:
您应该使用诸如^{} 或^{} 之类的HTML解析器。在
你可以使用下一行
一个“更好”的方法是在
^{pr2}$</div>
上拆分,然后得到你想要的东西,因为有时候你想要的东西可以在一行中出现。所以如果给错了就用next()结果.eg在顺便说一下,如果可能的话,试着使用Python自己的web模块,比如
urllib
,urllib2
,而不是调用externalwget
。在相关问题 更多 >
编程相关推荐