我试图从eshop网站返回html作为一个字符串,但得到一些奇怪的字符。当我查看webconsole时,在html中没有看到这些字符。当html显示在jupyter笔记本的熊猫数据框中时,我也看不到这些字符。链接是https://www.powerhousefilms.co.uk/collections/limited-editions/products/immaculate-conception-le。我也使用相同的方法在这个网站上的另一个产品,但只看到这些字符在这一页。站点中的其他页面不存在此问题。在
html = requests.get(url).text
soup = BeautifulSoup(html)
elem = soup.find_all('div', {'class': product-single_description rte'})
s = str(elem[0])
s看起来像:
^{pr2}$我尝试过指定编码,但仍然得到奇怪的字符。对于这个网站上的50多个产品,只有少数有这个问题。在
我刮擦的方式有问题吗?或者可能有一个简单的方法来清理这个问题。在
谢谢
所以结果是excel造成的。当我保存到CSV并在excel中打开时,我得到了奇怪的结果。在
为了防止这种情况,我使用了
df.to_csv('df.csv', index=False, encoding = 'utf-8-sig')
。指定编码可以消除奇怪的字符。在Python Writing Weird Unicode to CSV有一些关于编码和excel如何穿透csv文件的信息。在
使用这段代码下载网页中的可见内容。 只需在网页上输入网址
相关问题 更多 >
编程相关推荐