Python Beautiful Soup查找字符串并提取以下字符串

<tr class="odd-row"> <td>xyz</td> <td class="numeric">5,00%</td> </tr> <tr class="even-row"> <td>abc</td> <td class="numeric">50,00%</td </tr> <tr class="odd-row"> <td>ghf</td> <td class="numeric">2,50%</td>

3条回答

网友

1楼 · 编辑于 2024-05-14 12:58:58

一旦你找到了正确的td，我认为这是你想要的，代替a的东西，然后让下一个兄弟姐妹来上你想要的课：

h = """<tr class="odd-row">
        <td>xyz</td>
        <td class="numeric">5,00%</td>
    </tr>
<tr class="even-row">
        <td>abc</td>
        <td class="numeric">50,00%</td
    </tr>
<tr class="odd-row">
        <td>ghf</td>
        <td class="numeric">2,50%</td>"""


from bs4 import BeautifulSoup

soup = BeautifulSoup(h)

for td in soup.find_all("td",text="abc"):
    print(td.find_next_sibling("td",class_="numeric"))

如果数字td总是next，则可以调用find_next_sibling（）：

for td in soup.find_all("td",text="abc"):
    print(td.find_next_sibling())

对于你的意见，双方都会给你：

td class="numeric">50,00%</td>

网友

2楼 · 编辑于 2024-05-14 12:58:58

所以当我理解你的问题时，你想在元组上迭代（“xyz”、“5,00%”）、（“abc”、“50,00%”）、（“ghf”、“2,50%”）。是这样吗？

但我不明白代码是如何产生任何结果的，因为您正在搜索<a>标记。

相反，您应该遍历<tr>标记，然后获取<td>标记中的字符串。注意用于访问第二个<td>的双next_sibling，因为第一个next_sibling将引用两个标记之间的空白。

html = """
<tr class="odd-row">
    <td>xyz</td>
    <td class="numeric">5,00%</td>      
</tr>
<tr class="even-row">
    <td>abc</td>
    <td class="numeric">50,00%</td                      
</tr>
<tr class="odd-row">
    <td>ghf</td>
    <td class="numeric">2,50%</td>
</tr>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

for tr in soup.find_all("tr"):
    print((tr.td.string, tr.td.next_sibling.next_sibling.string))

网友

3楼 · 编辑于 2024-05-14 12:58:58

如果我正确理解您的问题，并且假设您的html代码始终遵循示例结构，则可以执行以下操作：

result = {}
table_rows = soup.find_all("tr")
for row in table_rows:
    table_columns = row.find_all("td")
    result[table_columns[0].text] = tds[1].text
print result  #### {u'xyz': u'2,50%', u'abc': u'2,50%', u'ghf': u'2,50%'}

你最终得到了一个字典，关键字名是'xyz'、'abc'…等等，它们的值是class="numeric"中的字符串

相关问题更多 >

编程相关推荐

热门问题

热门文章