下面是HTML源表,对于selenium来说,读取其内容似乎非常复杂。。有人能帮我用selenium把这些数据读入python吗?
<div class="general_table">
<div class="general_s">
<div class="general_text1">Name</div>
<div class="general_text2">Abhishek</div>
</div>
<div class="general_m">
<div class="general_text1">Last Name</div>
<div class="general_text2">Kulkarni</div>
</div>
<div class="general_s">
<div class="general_text1">Phone</div>
<div class="general_text2"> 13613123</div>
</div>
<div class="general_m">
<div class="general_text1">Cell Phone</div>
<div class="general_text2">82928091</div>
</div>
<div class="general_s">
<div class="general_text1">City</div>
<div class="general_text2"></div>
</div>
<div class="general_m">
<div class="general_text1">Model</div>
<div class="general_text2"> DELL PERC H700</div>
</div>
</div>
要使用selenium webdriver读取此表,xpath似乎是一种简单的方法-
我不太了解python,所以代码可能是错误的,但这个想法似乎是正确的-
为了找出
general_table
中div标记的数量,我们使用xpath-driver.find_elements_by_xpath(("//*[@class='general_table']/div")
将返回一个大小为-6的列表。然后可以使用循环遍历每个元素-
您可以用这种方法读取表中的所有标记。
使用selenium来获取页面源代码(这样就可以获得js/ajax的真正内容)和BeautifulSoup之类的东西来解析它。
结果:
相关问题 更多 >
编程相关推荐