我正在使用Jupyter笔记本(GoogleColab)尝试使用linux命令将.7z文件中的数据提取到pandas数据框中。数据来自http://untroubled.org/spam/。我只想从2020-01.7z文件中提取数据。到目前为止,
!wget http://untroubled.org/spam/2020-01.7z
!7z x 2020-01.7z
import pandas as pd
import py7zr
archive = py7zr.SevenZipFile('2020-01.7z', mode='r')
archive.extractall(path="/tmp")
with open ('2020-01.7z', 'r') as myfile:
myfile.read()
mydf = pd.DataFrame(myfile)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid
start byte
我不太清楚“/tmp”是什么意思。我知道有一种方法可以做到这一点,但我对这些命令以及如何使用它们还没有足够的了解。谢谢你的帮助
目前没有回答
相关问题 更多 >
编程相关推荐