从具有相同类名的div中获取内容到数组中[Python]

2024-09-28 22:42:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我开发JavaScript已经有一段时间了,但是Python对我来说还是有点新鲜。我试着用Python从一个简单的网页上获取内容(基本上是一个包含不同部分的产品列表)。内容是动态生成的,因此使用selenium模块来实现这一点。在

内容结构如下所示,包含几个产品部分:

<div class="product-section">
    <div class="section-title">
        Product section name
    </div>
    <ul class="products">
        <li class="product">
            <div class="name">Wooden Table</div>
            <div class="price">99 USD</div>
            <div class="color">White</div>
        </li>
    </ul>
</div>

用于抓取产品的Python代码:

^{pr2}$

现在我得到了所有产品的属性(见下文),但我无法将它们与不同的部分分开。在

当前结果
木制桌子,99美元,白色
草坪椅,39美元,黑色
帐篷-4人,299美元,迷彩 等等

预期结果:
室外家具
木制桌子,99美元,白色
草坪椅,39美元,黑色

野营装备
帐篷-4人,299美元,迷彩 保温瓶,19美元,金属

最终目标是将内容输出到一个excel产品列表中,因此我需要将这些部分分开(与它们匹配的部分标题)。有没有办法让它们分开,即使它们有相同的类名?在


Tags: namediv内容列表产品sectionliproduct
1条回答
网友
1楼 · 发布于 2024-09-28 22:42:19

你就快到了——按部分对产品进行分组,然后从一个小节开始,找到其中的所有元素。至少你的示例html暗示了它的结构允许它。在

基于您的代码,这里有一个带有解释性注释的解决方案。在

driver = webdriver.Chrome()
driver.get('website.com')

# a dict where the key will be the section name
products = {}

# find all top-level sections
sections = driver.find_elements_by_css_selector('div.product-section')

# iterate over each one
for section in sections:
    # find the products that are children of this section
    # note the find() is based of section, not driver
    names = section.find_elements_by_css_selector('div.name')
    prices = section.find_elements_by_css_selector('div.price')
    colors = section.find_elements_by_css_selector('div.color')

    allNames = [name.text for name in names]
    allPrices = [price.text for price in prices]
    allColors = [color.text for color in colors]

    section_name = section.find_element_by_css_selector('div.section-title').text

    # add the current scraped section to the products dict
    # I'm leaving it to you to match the name, price and color of each ;)

    products[section_name] = {'names': allNames,
                              'prices': allPrices,
                              'colors': allColors,}

# and here's how to access the result

# get the 1st name in a section:
print(products['Product section name']['names'][0])  # will output "Wooden Table"

# iterate over the sections and products:
for section in products:
    print('Section: {}'.format(section))
    print('All prices in the section:')
    for price in section['prices']:
       print(price)

相关问题 更多 >