使用bs4解析html时出现意外结果

网友

1楼 · 编辑于 2024-09-28 23:28:22

在读取url后，您应该使用如下所示的适当编码格式对其进行解码

from urllib import request
from bs4 import BeautifulSoup
import urllib.request

html = urllib.request.urlopen(
    'https://vietnamnet.vn/').read().decode('utf8')

soup = BeautifulSoup(html, "html.parser")
title = soup.find('title')

print("title is :", title)

网友

2楼 · 编辑于 2024-09-28 23:28:22

当您在解析器上运行.encode()时，您正在为soup分配一个字节字符串。解析器完全丢失，因为.encode()返回一个字节字符串

bs4应该为您处理字符集

soup = BeautifulSoup(html, "html.parser")
print(soup.title)

输出：

>>> from bs4 import BeautifulSoup
>>> import urllib.request
>>> html = urllib.request.urlopen(
...     'https://vietnamnet.vn/').read()

>>> soup = BeautifulSoup(html, "html.parser")
>>> print(soup.title)
<title>Báo VietNamNet - Tin tức online, tin nhanh Việt Nam và thế giới</title>
>>>

网友

3楼 · 编辑于 2024-09-28 23:28:22

from bs4 import BeautifulSoup
import urllib.request

html = urllib.request.urlopen(
    'https://vietnamnet.vn/').read().decode("utf-8")

soup = BeautifulSoup(html, "html.parser")

title = soup.title
print(title)
print(title.string)

你必须在阅读时解码

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用bs4解析html时出现意外结果

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >