使用pythonnltk和SQL跟踪疾病的演变

2024-06-01 21:45:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我有很多千兆字节的Facebook/Twitter/RSS数据。在

我用它来追踪一个普通人群的甲状旁腺功能亢进的演变,从一个人被诊断出患有某种疾病,通过他们一直服用的药物,治疗和最终结果。在

我是NLTK的新手,我确实有很好的Python/SQL经验。在

我的所有数据中都有parathyroid;但是,正如下面的(twitter数据示例)所示,它在语言上非常糟糕:

omg i think my parathyroid is screwed up!!!
Have been stuck at parathyroid hormone. STOP GETTING ON TWITTER JASMINE.
Cryopreservation of Parathyroid Tissue after Parathyroid Surgery for Renal Hyperparathyroidism
The Parathyroid as a Target for Radiation Damage
it's for the parathyroid hormone la

所有这些数据都存储在数据库中。我们也有海报、帖子ID、帖子文本等字段

我想知道是否有人能为我指出正确的方向:

  1. 是否已经有有效的算法来帮助我做我需要的事情?在
  2. 从语言学角度讲,我们如何在数据中找到相关性?我们正在努力寻找模式。在
  3. 我是否应该将数据放入某种“网格”形式,以帮助分析?在

Tags: 数据功能forfacebook字节twitter帖子疾病