如何使用python抓取<li>内的标记内的数据 - 问答

<div class="row features_2 "> <ul> <li>Área privada: 70,00 m² </li>  <li>Área Const.: 70,00 m² </li>  <li>Precio m²: 3.142.857/m² </li>   <li>Admón: $150,000</li>  <li>Estrato: 3  <li>Estado: Excelente </li>  <li>Antigüedad: 1 a 8 años</li>       <li>Sector: <a href="#pnlMap" style="font-weight: bold;">Ver Mapa</a> </li> </ul>

1条回答

网友

1楼 · 发布于 2024-10-01 11:39:01

使用 的^{}属性：

for li in box_3_1:
    print(str(li.br.next_sibling).strip())

输出：

^{pr2}$

OP希望将“Área”和“Precio”数据存储在单独的列表中。假设这两个字符串从未出现在同一个<li>标题中，下面是一个完整的解决方案：

area = []
precio = []
for li in box_3_1:
    heading_words = li.b.text.split()
    target_content = str(li.br.next_sibling).strip()
    if "Área" in heading_words:
        area.append(target_content)
    elif "Precio" in heading_words:
        precio.append(target_content)

要获得更一般的解决方案，请考虑列出键头术语列表，然后将所有输出存储在dict中。例如：

import re

key_terms = ["Área", "Precio", "Estrato"]
data = {k:[] for k in key_terms}

for li in box_3_1:
    heading = li.b.text
    target_content = str(li.br.next_sibling).strip()
    for term in key_terms:
        # Headers like "Estrato:" do not match on split() due to end ":"; use re instead.
        if re.search(term, heading):
            data[term].append(target_content)          
data
{'Estrato': ['5'],
 'Precio': [],
 'Área': ['71,00 a 185,00 m²', '78,00 a 207,00 m²']}

如何使用python抓取<li>内的</br>标记内的数据

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用python抓取<li>内的</br>标记内的数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >