PythonWebScraping：用漂亮的汤/请求解析汉字时出现问题

2024-09-29 21:45:31 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在抓取一个中文网站，通常在bs4中使用模式函数解析我用来查找特定URL的汉字是没有问题的。然而，对于这个特定的中文网站，汤无法正确解析。下面是我用来设置汤的代码：

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content, "html.parser")

打印汤的示例如下所示：

Current soup

注意：我不得不添加一张图片作为堆栈，尽管它是垃圾邮件：）

上述内容应如下所示：

Proper soup

我想知道我是否必须在请求中指定某种编码，或者在soup中指定某种编码，但到目前为止，我还没有找到任何可行的方法

提前谢谢

Tags：函数代码 id http url 编码 www 模式

1条回答

网友

1楼 · 发布于 2024-09-29 21:45:31

我不懂中文。这会产生预期的结果吗

import requests
from bs4 import BeautifulSoup as bs

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content.decode('GBK', 'ignore'), "html.parser")

print(soup)

PythonWebScraping：用漂亮的汤/请求解析汉字时出现问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

PythonWebScraping：用漂亮的汤/请求解析汉字时出现问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >