古腾堡项目使用url访问文本

2024-09-27 00:14:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图从古腾堡项目的url访问一个文本文件。 因此,我从nltk的书中复制了相同的代码,结果不同

from urllib import request
url = "http://www.gutenberg.org/files/2554/2554-0.txt"
response = request.urlopen(url)
raw = response.read().decode('utf8')
raw[:75]

这是nltk的书。当它正常工作时,它应该打印出来

’The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n’

但是当我在我的电脑上尝试同样的方法时,结果是

'\ufeffThe Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r'

我认为这是古腾堡计划中标题的问题。你能帮我处理这件事吗


Tags: andofprojecturlrawbyresponserequest
1条回答
网友
1楼 · 发布于 2024-09-27 00:14:49

URL响应文本似乎用带有BOM的UTF-8编码

尝试:

from urllib import request

url = "http://www.gutenberg.org/files/2554/2554-0.txt"

response = request.urlopen(url)
raw = response.read()
text = raw.decode("utf-8-sig")

有关更多信息,请参见this answer

相关问题 更多 >

    热门问题