我想要一些关于如何为Gene ontology (.obo)解析此文件的帮助/建议
我在D3中创建一个可视化,需要创建一个JSON格式的“树”文件-
{
"name": "flare",
"description": "flare",
"children": [
{
"name": "analytic",
"description": "analytics",
"children": [
{
"name": "cluster",
"description": "cluster",
"children": [
{"name": "Agglomer", "description": "AgglomerativeCluster", "size": 3938},
{"name": "Communit", "description": "CommunityStructure", "size": 3812},
{"name": "Hierarch", "description": "HierarchicalCluster", "size": 6714},
{"name": "MergeEdg", "description": "MergeEdge", "size": 743}
]
}, etc..
在python的字典中,这种格式似乎相当容易复制,每个条目有3个字段:name、description和children[]。在
我的问题是如何提取数据。上面链接的文件的“对象”结构如下:
^{pr2}$我需要id,is_a和name字段。我尝试过使用python来解析它,但是我似乎找不到找到每个对象的方法。在
有什么想法吗?在
这里有一个相当简单的方法来解析.obo文件中的对象。它将对象数据保存到}数据保存在列表中。然后它使用标准的
dict
中,其中id
为键,name
和{json
模块的.dumps
函数漂亮地打印它。在出于测试目的,我在您的链接中使用了该文件的截断版本,它最多只包含
id: GO:0000006
。在此代码忽略包含
is_obsolete
字段的任何对象。它还删除了is_a
字段中的描述信息;我想您可能希望这样做,但是很容易禁用该功能。在输出
^{pr2}$相关问题 更多 >
编程相关推荐