我很穷(脏?)化学信息数据,格式如下:
ID Chemicals
1701 3 Tanks - 1 - Benzoyl Chloride and 2 - Benzoflex
1840 Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1840 Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1938 2 tanks - 1,100 gallons diesel & 1,100 gallons gasoline
1888 4 tanks - 3 - 20,000 gallon and 1 - 10,000 gallon Gas, Diesel and K-1
我需要解析这些数据,在每个超级字符串中搜索可识别的化学物质。在分析这些数据之后,我可以在常用的化学数据库中搜索子集,以返回每个子集的命中率(不同质量)。主要的问题是我不知道如何开始以一种高效和结构化的方式解析这些数据。我有几个想法在玩弄:
现在,我正在尝试方法2,在实现方法1并获得可怕的结果之后,我发现构建和维护要忽略的“键”列表太麻烦了。在
如果我希望遵循选项3,那么哪些python机器学习库可以提供这种功能?在
您可以考虑:
你将缩小输入数据的范围,只关注与化学有关的元素:因此,随后可能会应用许多分析工具/算法。在
相关问题 更多 >
编程相关推荐