在scikitlearn中,load_files函数读取不需要的文本文件

2024-09-27 04:20:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用sci工具包中的load_files函数来加载2个简单的文本文档。在

设置是痛苦的简单。我的文件名为file1file2。 第一个文件由文本pig cow chicken组成,而第二个文件由文本pig car truck组成。在

他们都住在这里:

/home/me/Dropbox/test

到目前为止还不错。在

现在,我使用load_files函数

^{pr2}$

接下来,我检查
text_data.filenames
…结果我得到了一些奇怪的额外文件!在

[ '/home/me/Dropbox/test/folder1/document2.txt'
  '/home/me/Dropbox/test/folder1/document2.txt~'
  '/home/me/Dropbox/test/folder1/document1.txt~'
  '/home/me/Dropbox/test/folder1/document1.txt']

我查看
text_data.data
然后得到:

[u'pig\ncar\ntruck\n', u'', u'', u'pig\ncow\nchicken\n']

我想这里有隐藏文件,临时文件,或类似的东西。我的两个文件都没有打开。我重新启动了iPython,重启了笔记本电脑,等等,我使用了ls -lart并在目录中看到了它们。在

我使用的是Ubuntu 13.10。在

我想知道一个很好的方法来摆脱它们,这将解决这个特殊情况下的问题,但除此之外,我想知道为什么会发生这种情况,以及如何确保它不再发生。这些隐藏文件产生的机制是什么?函数为什么要加载它们?在

提前谢谢。在

谢谢!!在


Tags: 文件函数texttest文本txthomedata
1条回答
网友
1楼 · 发布于 2024-09-27 04:20:17

这些文件很可能是文本编辑器(如vim)自动创建的备份文件。在

要递归删除当前目录下以~结尾的所有文件,可以使用以下命令:

find -name "*~" -delete

现在的问题是您是否真的想使用sklearn.datasets.load_files来加载文件。它的设计目的是加载文本文件和类别作为子文件夹名称,这似乎不是你的目录。如果您只想加载两个简单的文本文档,那么内置的open函数就足够了吗?在

相关问题 更多 >

    热门问题