将.7z文件提取到数据帧中

2024-10-01 22:36:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Jupyter笔记本(GoogleColab)尝试使用linux命令将.7z文件中的数据提取到pandas数据框中。数据来自http://untroubled.org/spam/。我只想从2020-01.7z文件中提取数据。到目前为止,

!wget http://untroubled.org/spam/2020-01.7z
!7z x 2020-01.7z
import pandas as pd
import py7zr     
archive = py7zr.SevenZipFile('2020-01.7z', mode='r')
archive.extractall(path="/tmp")
with open ('2020-01.7z', 'r') as myfile:
  myfile.read()

mydf = pd.DataFrame(myfile)
 


UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid 
start byte

我不太清楚“/tmp”是什么意思。我知道有一种方法可以做到这一点,但我对这些命令以及如何使用它们还没有足够的了解。谢谢你的帮助


Tags: 文件数据orgimport命令httppandasas

热门问题