Python BeautifulSoup如何提取这个tex

import win_unicode_console win_unicode_console.enable() import requests from bs4 import BeautifulSoup data = ''' <div class="info"> <h1>Company Title</h1> Company type ZIP, City Street 123 Phone: (111) 123-456-78 Fax: (222) 321-654-87 Phone: (333) 87-654-321 Fax: (444) 000-1111-2222 E-mail: <a href="mailto:mail@domain.com">mail@domain.com</a> E-mail: <a href="mailto:mail2@domain.com">mail2@domain.com</a> Web: <a href="http://www.domain.com" target="_blank">www.domain.com</a> ID: 123456789 VAT: 987654321 Some info: <ul> <li><a href="#category">» Category</a></li> </ul> </div> ''' html = BeautifulSoup(data, "html.parser") p = html.find_all('p', attrs={'class': None}) for pp in p: print(pp.contents)

1条回答

网友

1楼 · 发布于 2024-10-01 13:45:39

可以在拆分后使用defaultdict对数据进行分组：

html = BeautifulSoup(data, "html.parser")

p = html.find_all('p', attrs={'class': None})
from collections import defaultdict

d = defaultdict(list)
for pp in p:
    spl = iter(pp.text.split(None,1))
    for ele in spl:
        d[ele.rstrip(":")].append(next(spl).rstrip())

print(d)
defaultdict(<class 'list'>, {'Phone': ['123-456-78', '87-654-321'],
'Fax': ['321-654-87', '000-1111-2222'], 'E-mail': ['mail@domain.com',
'mail2@domain.com'], 'VAT': ['987654321'], 'Web': ['www.domain.com'], 
'ID': ['123456789']})

拆分文本将为您提供数据列表：

^{pr2}$

所以我们使用每两个元素作为键/值对。附加重复键。在

为了便于编辑捕捉传真和电话号码中的空格，只需使用拆分线将其拆分为多行，并在空白处拆分一次：从集合导入defaultdict

d = defaultdict(list)
for pp in p:
    spl = pp.text.splitlines()
    for ele in spl:
        k, v = ele.strip().split(None, 1)
        d[k.rstrip(":")].append(v.rstrip())

输出：

defaultdict(<class 'list'>, {'Fax': ['(222) 321-654-87', '(444) 000-1111-2222'],
 'Web': ['www.domain.com'], 'ID': ['123456789'], 'E-mail': ['mail@domain.com', 'mail2@domain.com'],
 'VAT': ['987654321'], 'Phone': ['(111) 123-456-78', '(333) 87-654-321']})

相关问题更多 >

编程相关推荐

热门问题

热门文章