如何使用beautifulsoup仅提取文本？

<ul class="plan-info-lst"> <li> Homesite 0004 </li> <li> Est. availability March 2020 </li> <li> Priced From $300,950 <a href="javascript:void(0);" v-on:click="openEstimatedPaymentModal">Est. payment</a> </li> <li> Home Size 2161 sq.ft. </li> <li> Stories 2 </li> <li> Beds 3 </li> <li> Baths 2.5 </li> <li> Garage 2 </li> </ul>

3条回答

网友

1楼 · 编辑于 2024-09-22 10:25:25

这有点不雅观，但可以在没有正则表达式的情况下完成（不推荐用于html）：

首先添加：

from bs4 import NavigableString

然后

for i in gettext.find_all('li'):
    if i.text:
        targets = i.children
        for target in targets:
            if isinstance(target, NavigableString) and len(target.strip())>0:
                print(target.strip())

输出：

0004
March 2020
$300,950
2161 sq.ft.
2
3
2.5
2

网友

2楼 · 编辑于 2024-09-22 10:25:25

另一个解决方案

from simplified_scrapy import SimplifiedDoc
doc = SimplifiedDoc(html)
lis = doc.selects('ul.plan-info-lst>li')
for li in lis:
    # print (li.span.text)
    print (li.span.nextText())

结果:

0004
March 2020
$300,950
2161 sq.ft.
2
3
2.5
2

网友

3楼 · 编辑于 2024-09-22 10:25:25

看起来像是regular expressions的工作！您可以使用它来匹配字符串中的模式。在本例中，所有数据都发生在标记之后，后跟换行和缩进。因此，如果我们这样匹配该模式：

import re
your_data=[] # Initialize the list so we can access it outside scope of with
with open('your_file.html','r') as f:
    your_code = f.read()
    your_data = re.findall('</span>\n +(.+)',your_code)

print(your_data)

我们可以得到输出['0004', 'March 2020', '$300,950', '2161 sq.ft.', '2', '3', '2.5', '2']

相关问题更多 >

编程相关推荐

热门问题

热门文章