如何使用selenium python读取表数据？

<div class="general_table"> <div class="general_s"> <div class="general_text1">Name</div> <div class="general_text2">Abhishek</div> </div> <div class="general_m"> <div class="general_text1">Last Name</div> <div class="general_text2">Kulkarni</div> </div> <div class="general_s"> <div class="general_text1">Phone</div> <div class="general_text2"> 13613123</div> </div> <div class="general_m"> <div class="general_text1">Cell Phone</div> <div class="general_text2">82928091</div> </div> <div class="general_s"> <div class="general_text1">City</div> <div class="general_text2"></div> </div> <div class="general_m"> <div class="general_text1">Model</div> <div class="general_text2"> DELL PERC H700</div> </div> </div>

2条回答

网友

1楼 · 编辑于 2024-09-28 01:31:36

要使用selenium webdriver读取此表，xpath似乎是一种简单的方法-

我不太了解python，所以代码可能是错误的，但这个想法似乎是正确的-

为了找出general_table中div标记的数量，我们使用xpath-

driver.find_elements_by_xpath(("//*[@class='general_table']/div")将返回一个大小为-6的列表。

然后可以使用循环遍历每个元素-

for(int i=1;i<=list.length;i++){
    String text1 = driver.find_element_by_xpath("//*[@class='general_table']/div["+i+"]/div[1]").text;
    String text2 = driver.find_element_by_xpath("//*[@class='general_table']/div["+i+"]/div[2]").text;
}

您可以用这种方法读取表中的所有标记。

网友

2楼 · 编辑于 2024-09-28 01:31:36

使用selenium来获取页面源代码（这样就可以获得js/ajax的真正内容）和BeautifulSoup之类的东西来解析它。

from bs4 import BeautifulSoup

soup = BeautifulSoup("""<div class="general_table">
    <div class="general_s">
        <div class="general_text1">Name</div>
        <div class="general_text2">Abhishek</div>
    </div>
    <div class="general_m">
        <div class="general_text1">Last Name</div>
        <div class="general_text2">Kulkarni</div>
    </div>
    <div class="general_s">
        <div class="general_text1">Phone</div>
        <div class="general_text2"> 13613123</div>
    </div>
    <div class="general_m">
        <div class="general_text1">Cell Phone</div>
        <div class="general_text2">82928091</div>
    </div>         
    <div class="general_s">
        <div class="general_text1">City</div>
        <div class="general_text2"></div>
    </div>
    <div class="general_m">
        <div class="general_text1">Model</div>
        <div class="general_text2"> DELL PERC H700</div>
    </div>
</div>""")

def tags(iterable):
    return filter(lambda x: not isinstance(x, basestring), iterable)

for table in soup.find_all('div', {'class': 'general_table'}):
    for line in tags(table.contents):
        for i, column in enumerate(tags(line.contents)):
            if column.string:
                print column.string.strip(),
            if i:
                print ',',
            else:
                print ':',
        print ''

结果：

Name : Abhishek , 
Last Name : Kulkarni , 
Phone : 13613123 , 
Cell Phone : 82928091 , 
City : 
Model : DELL PERC H700 ,

相关问题更多 >

编程相关推荐

热门问题

热门文章