使用机器学习来解析包含化学数据的复杂字符串?

2024-10-04 03:24:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我很穷(脏?)化学信息数据,格式如下:

ID  Chemicals
1701    3 Tanks - 1 - Benzoyl Chloride and 2 - Benzoflex
1840    Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1840    Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1938    2 tanks - 1,100 gallons diesel & 1,100 gallons gasoline
1888    4 tanks - 3 - 20,000 gallon and 1 - 10,000 gallon  Gas, Diesel and K-1

我需要解析这些数据,在每个超级字符串中搜索可识别的化学物质。在分析这些数据之后,我可以在常用的化学数据库中搜索子集,以返回每个子集的命中率(不同质量)。主要的问题是我不知道如何开始以一种高效和结构化的方式解析这些数据。我有几个想法在玩弄:

  1. 将每个超弦分解成子串的所有组合,使用空格作为子串的分隔符,然后搜索子串的所有组合。在
  2. 我不知道上面的关键词,但我不知道
  3. 使用带监督学习的机器学习算法来解析数据-有监督的学习是我反馈的关于分析的数据是否有助于从外部化学数据库提供有用的匹配

现在,我正在尝试方法2,在实现方法1并获得可怕的结果之后,我发现构建和维护要忽略的“键”列表太麻烦了。在

如果我希望遵循选项3,那么哪些python机器学习库可以提供这种功能?在


Tags: and数据机器数据库子集class化学two
1条回答
网友
1楼 · 发布于 2024-10-04 03:24:23

您可以考虑:

  • 从一个全面的化学词汇开始。在
  • 执行n-gram(可能是3或4?)解析你的超级字符串
  • 只保留那些至少包含化学词汇表中一个术语的ngram
  • 对每个超弦内的化学相关结果进行进一步分析

你将缩小输入数据的范围,只关注与化学有关的元素:因此,随后可能会应用许多分析工具/算法。在

相关问题 更多 >