如何使用python抓取<li>内的</br>标记内的数据

2024-10-01 11:39:01 发布

您现在位置:Python中文网/ 问答频道 /正文

<div class="row features_2 "><br />
        <ul>

                    <li><b>Área privada:</b><br />
                    70,00 m²
                    </li>

            <!--area-->

                    <li><b>Área Const.:</b><br />
                    70,00 m²
                    </li>

            <!--precio metro cuadrado-->

                <li><b>Precio m²:</b><br />
                3.142.857/m²
                </li>

            <!--Valor noche si es alquiler vacacional-->

            <!--precio de administracion -->

                    <li><b>Admón:</b><br />
                    $150,000</li>

            <!--Estrato si aplica-->

                <li><b>Estrato:</b> <br />
                3

            <!--Estado si aplica-->

                <li><b>Estado:</b> <br />
                    Excelente
                </li>

            <!--edad si aplica-->

                <li><b>Antigüedad:</b> <br />
                1 a 8 años</li>

            <!--piso #-->

            <!--Clima-->

            <!--tipo de apartamento si aplica-->

            <!--para parqueaderos-->
            <!--caracteristicas parqueadero-->

            <!--Sector (siempre va)-->
            <li><b>Sector:</b> <br />

                <a href="#pnlMap" style="font-weight: bold;">Ver Mapa</a>

            </li>  


        </ul>

从上面我想得到标签内的值,但是我在保存这些值到单个列表时遇到了麻烦。在

我想保存基于内部数据的值。在

例如,如果标记包含“Área privada:”,那么我必须保存值“70,00 m²”以列出名称区域

否则,如果tag包含'Precio m²:',那么我必须将值3.142.857/m²保存到名为Precio的列表中

我尝试了下面的代码来获取元素,但不确定如何根据上述条件编写条件将数据保存到列表中。在

^{pr2}$

否则,是否有任何其他选项可以将上述标记中的数据保存到相应的列表中。在


Tags: 数据br列表deliulreasi
1条回答
网友
1楼 · 发布于 2024-10-01 11:39:01

使用<br>^{}属性:

for li in box_3_1:
    print(str(li.br.next_sibling).strip())

输出:

^{pr2}$

OP希望将“Área”和“Precio”数据存储在单独的列表中。假设这两个字符串从未出现在同一个<li>标题中,下面是一个完整的解决方案:

area = []
precio = []
for li in box_3_1:
    heading_words = li.b.text.split()
    target_content = str(li.br.next_sibling).strip()
    if "Área" in heading_words:
        area.append(target_content)
    elif "Precio" in heading_words:
        precio.append(target_content)

要获得更一般的解决方案,请考虑列出键头术语列表,然后将所有输出存储在dict中。例如:

import re

key_terms = ["Área", "Precio", "Estrato"]
data = {k:[] for k in key_terms}

for li in box_3_1:
    heading = li.b.text
    target_content = str(li.br.next_sibling).strip()
    for term in key_terms:
        # Headers like "Estrato:" do not match on split() due to end ":"; use re instead.
        if re.search(term, heading):
            data[term].append(target_content)          
data
{'Estrato': ['5'],
 'Precio': [],
 'Área': ['71,00 a 185,00 m²', '78,00 a 207,00 m²']}

相关问题 更多 >