Python获取包含javascripts的web页面内容

<div class="js-container"> <table class="zebra" style="width: 100%;"> <tbody><tr> <th>A</th> <th>B</th> <th>C</th> </tr> <tr> <td>A1</td> <td>A2</td> <td> <a href="http://X" style="color: black">T1</a> </td> </tr> <tr> .... </tr> ....

2条回答

网友

1楼 · 编辑于 2024-10-04 11:36:24

也许你需要给它喂奶driver.page\u源. 它是一个python工具，可以基于web页面构建树。 BeautifulSoup document

网友

2楼 · 编辑于 2024-10-04 11:36:24

硒可以做得很好。你知道吗

tableDescendants = myDriver.find_elements_by_css_selector("table.zebra *")
for tableDescendant in tableDescendants
    outer = tableDescendant.get_attribute("outerHTML")
    inner = tableDescendant.get_attribute("innerHTML")
    print outer[:outer.find(inner)]

此代码获取TABLE标记的所有子体，删除innerHTML字符串开头之后的所有内容并打印结果。outerHTML包含元素本身和所有子元素，innerHTML只包含子元素。因此，为了只获取元素本身的HTML，我们需要从outerHTML中删除innerHTML。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章