Python中使用BeautifulSoup美化方法的奇怪错误

from bs4 import BeautifulSoup import requests import sys import os legal_html_tags = ['p', 'a', 'ul', 'ol', 'li', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'title'] saved_pages = [] def search_url(url): saved_pages.append(url.rstrip(".com")) url = requests.get(f'https://{url}') return url.text def parse_html(html_page): final_text = "" soup = BeautifulSoup(html_page, 'html.parser') # soup = soup.prettify() plain_text = soup.find_all(text=True) for t in plain_text: if t.parent.name in legal_html_tags: final_text += '{} '.format(t) return final_text def save_webpage(url, tb_dir): with open(f'{tb_dir}/{url.rstrip(".com")}.txt', 'w', encoding="utf-8") as tab: tab.write(parse_html(search_url(url))) def check_url(url): if url.endswith(".com") or url.endswith(".org") or url.endswith(".net"): return True else: return False args = sys.argv directory = args[1] try: os.mkdir(directory) except FileExistsError: print("Error: File already exists") while True: url_ = input() if url_ == "exit": break elif url_ in saved_pages: with open(f'{directory}/{url_}.txt', 'r', encoding="utf-8") as curr_page: print(curr_page.read()) elif not check_url(url_): print("Error: Invalid URL") else: save_webpage(url_, directory) print(parse_html(search_url(url_)))

Traceback (most recent call last): File "browser.py", line 56, in <module> save_webpage(url_, directory) File "browser.py", line 29, in save_webpage tab.write(parse_html(search_url(url))) File "browser.py", line 20, in parse_html plain_text = soup.find_all(text=True) AttributeError: 'str' object has no attribute 'find_all'

2条回答

网友

1楼 · 编辑于 2024-04-27 02:31:38

您已使用.prettify（）方法将soup变量重新分配到字符串中

soup = soup.prettify()

find_all（）是一个仅用于soup对象的方法

您应该首先调用find_all（text=True）并用文本提取所有html标记，然后执行字符串操作

网友

2楼 · 编辑于 2024-04-27 02:31:38

prettify将解析后的HTML对象转换为字符串，因此无法对其调用find_all。也许你只是想return soup.prettify()？这可能是您想要的：

def parse_html(html_page):
    final_text = ""
    soup = BeautifulSoup(html_page, 'html.parser')
    plain_text = soup.find_all(text=True)
    for t in plain_text:
        if t.parent.name in legal_html_tags:
            final_text += t.prettify() + " "
    return final_text

相关问题更多 >

编程相关推荐

热门问题

热门文章