表中的文本?

2024-06-16 20:44:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我喜欢在“表格”中组织来自文献综述的大量信息(信息与产品比较没有什么不同,但用于科学研究),但通常我输入的信息可能包含文本的行或段落,并且在电子表格中变得难以处理。我听说SQL关系表经常用于此目的;对于数据分析,我使用Python或R解析平面文本文件中的数据并将其输入SQLite。我应该创建一个“标记的”文本文件并做同样的事情吗?我想知道人们使用什么界面来输入和查看这样的文本密集型表格?或者我想知道是否有其他软件可能适合这个目的。你知道吗


Tags: 数据文本目的信息sqlitesql关系产品
1条回答
网友
1楼 · 发布于 2024-06-16 20:44:09

存储和检索数据的方式将取决于您计划对其执行的操作。你知道吗

文本文件在可管理性方面有问题。你不可能真正处理一个有成千上万个文件的目录树。在他们身上搜索简直是噩梦。如果同时进行更新,则必须处理锁和大量其他问题。它们并不是用来存储你要挖掘的大量数据的。你知道吗

关系数据库很好,但您必须将信息解析为有意义的位,将其分解为关系,并将生成的数据放入表中,这样才有意义。将所有文本(经过一些预处理)转储到一列中并不是很有用。我所说的结果是SQL数据库存储“结构化”数据,可以使用该结构进行查询。你知道吗

您可能会考虑的另一种方法是使用文档数据库。有很多,虽然我没有个人经验,但我听过一个关于CouchDB的演示,它将信息存储为JSON文档。您可以使用脚本来挖掘数据,这些脚本可以根据某些条件进行排序,然后返回已排序的文档。如果你要处理大量的文本数据,这绝对值得一试。有消息称,这些引擎比它们的关系引擎更具可伸缩性。你知道吗

相关问题 更多 >