PythonWebScraping:用漂亮的汤/请求解析汉字时出现问题

2024-09-29 21:45:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在抓取一个中文网站,通常在bs4中使用模式函数解析我用来查找特定URL的汉字是没有问题的。 然而,对于这个特定的中文网站,汤无法正确解析。 下面是我用来设置汤的代码:

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content, "html.parser")

打印汤的示例如下所示:

Current soup

注意:我不得不添加一张图片作为堆栈,尽管它是垃圾邮件:)

上述内容应如下所示:

Proper soup

我想知道我是否必须在请求中指定某种编码,或者在soup中指定某种编码,但到目前为止,我还没有找到任何可行的方法

提前谢谢


Tags: 函数代码idhttpurl编码www模式
1条回答
网友
1楼 · 发布于 2024-09-29 21:45:31

我不懂中文。这会产生预期的结果吗

import requests
from bs4 import BeautifulSoup as bs

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content.decode('GBK', 'ignore'), "html.parser")

print(soup)

相关问题 更多 >

    热门问题