使用BeautifulSoup从HTML检索信息同一文本会多次出现吗？

<html><body><h2>Lorem ipsum dolor sit amet, consectetur adipiscing elit.</h2> Morbi sit amet malesuada nisl. Phasellus rhoncus diam sit amet augue dictum, porta interdum odio tempus.</body></html>

word list: Lorem ipsum dolor sit amet consectetur adipiscing elit Morbi sit amet malesuada nisl Phasellus rhoncus diam sit amet augue dictum porta interdum odio tempus

name list: None None datetime datetime None None None None None None None None None address address address None None None None None None None None

from bs4 import BeautifulSoup input_file = BeautifulSoup(open("ex2.html", 'r'), 'lxml') tags = input_file.find_all() word_list = [] name_list = [] translator = str.maketrans(":[];.,#&*\\/", " ") for tag in tags: try: name = tag.attrs['name'] except: name = None words = tag.text.translate(translator) words = words.split(" ") for word in words: if words != '': word_list.append(word) name_list.append(name) print(word_list) print(name_list)

['Lorem', 'ipsum', 'dolor', 'sit', 'amet', '', 'consectetur', 'adipiscing', 'elit', 'Morbi', 'sit', 'amet', 'malesuada', 'nisl', '', 'Phasellus', 'rhoncus', 'diam', 'sit', 'amet', 'augue', 'dictum', '', 'porta', 'interdum', 'odio', 'tempus', '\n', 'Lorem', 'ipsum', 'dolor', 'sit', 'amet', '', 'consectetur', 'adipiscing', 'elit', 'Morbi', 'sit', 'amet', 'malesuada', 'nisl', '', 'Phasellus', 'rhoncus', 'diam', 'sit', 'amet', 'augue', 'dictum', '', 'porta', 'interdum', 'odio', 'tempus', '\n', 'Lorem', 'ipsum', '', 'dolor', 'sit', 'dolor', 'sit', 'sit', 'Morbi', 'sit', 'amet', 'malesuada', 'nisl', '', 'Phasellus', 'rhoncus', 'diam', 'sit', 'amet', 'augue', 'dictum', '', 'porta', 'interdum', 'odio', 'tempus', '', 'Phasellus', 'rhoncus', 'diam', 'sit', 'amet', 'augue', 'dictum', 'rhoncus', 'diam'] [None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, 'datetime', 'datetime', None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, 'address', 'address', 'address', 'address', 'address', 'address', 'address', None, None]

2条回答

网友

1楼 · 编辑于 2024-09-26 17:49:20

啊，我找到了一个解决办法，很抱歉浪费了你的时间！我试了几个小时，没有找到解决办法，但现在我能找到了。如果有人感兴趣：

from bs4 import BeautifulSoup

input_file = BeautifulSoup(open("ex2.html", 'r'), 'lxml')
tags = input_file.contents[0]

word_list = []
name_list = []
translator = str.maketrans(":[];.,#&*\\/", "           ")

def recurse(tags, name):
    for tag in tags:
        try:
            this_name = tag.attrs['name']
        except:
            this_name = name
        if tag.string == None:
            recurse(tag, this_name)
        else:
            words = tag.string.translate(translator)
            words = words.split(" ")
            for word in words:
                if word != '':
                    word_list.append(word)
                    name_list.append(this_name)
recurse(tags, None)

网友

2楼 · 编辑于 2024-09-26 17:49:20

您可以通过以下方式提取文本：

text = input_file.text.replace("\n" , " ")
words = text.split()

这将产生：

'Lorem',
'ipsum',
 'dolor',
 'sit',
 'amet,',
 'consectetur',
 'adipiscing',
 'elit.',
 'Morbi',
 'sit',
 'amet',
 'malesuada',
 'nisl.',
 'Phasellus',
 'rhoncus',
 'diam',
 'sit',
 'amet',
 'augue',
 'dictum,',
 'porta',
 'interdum',
 'odio',
 'tempus.'

对于其他列表，您可以尝试：

tags = input_file.find_all("span")

for s in tags :
    if "name" in s.attrs:
        print(s["name"])

这将产生：

datetime
address

相关问题更多 >

编程相关推荐

热门问题

热门文章