如何用beauthulsoup和Regex解析这个HTML表？

<table cellspacing="0" cellpadding="2" rules="all" border="1" id="branchTable" width="100%"> <tr class="TitleTable"> <th scope="col" width="250"><b>Branch Name</b></th><th scope="col" width="35%"><b>Branch Date</b></th><th scope="col" width="35%"><b>Branch Origin</b></th> </tr><tr class="RowSet"> <td><a class="blue" href="javascript: OpenWindow('/home/data/files/fetchRecord.php?fileID=342')">SFO Branch</a></td><td class="red">03/16/2012</td><td class="red"> </td> </tr><tr class="RowSet"> <td><a class="blue" href="javascript: OpenWindow('/home/data/files/fetchRecord.php?fileID=884')">LAX Branch</a></td><td class="red">03/16/2012</td><td class="red">06/16/1985</td> </tr><tr class="RowSet"> <td><a class="blue" href="javascript: OpenWindow('/home/data/files/fetchRecord.php?fileID=83')">DC Branch</a></td><td class="red">03/16/2012</td><td class="red"> </td> </tr> </table>

2条回答

网友

1楼 · 编辑于 2024-09-29 18:45:23

您可以使用regex来解析href，但我太懒了，没法写。请参阅下面的href_parse，以了解在检索URI后解析查询字符串的正确方法：

from urlparse import urlparse
from urlparse import parse_qs

def href_parse(value):
    if (value.startswith('javascript: OpenWindow(&#39;') and 
        value.endswith('&#39;)'):
        begin_length = len('javascript: OpenWindow(&#39;')
        end_length = len('&#39;)')
        file_location = value[begin_length:-end_length]

        query_string = urlparse(file_location).query
        query_dict = parse_qs(query_string)
        return query_dict.get('fileId', None)


href_data = [[href_parse(td.find('a', attrs={'class': 'blue'})['href']) 
              for td in tr.findAll("td")] 
              for tr in rows]
print href_data

网友

2楼 · 编辑于 2024-09-29 18:45:23

这个怎么样

import re
urlRE = re.compile('javascript: OpenWindow\(\&#39;(.*)#39;\)')
...
urlMat = urlRE.match(value)
if urlMat:
   url = urlMat.groups()[0]

相关问题更多 >

编程相关推荐

热门问题

热门文章