XML数据的图形化可视化问题的回答

XML数据的图形化可视化

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个如下所示的XML文件： <pre><code><rebase> <Organism> <Name>Aminomonas paucivorans</Name> <Enzyme>M1.Apa12260I</Enzyme> <Motif>GGAGNNNNNGGC</Motif> <Enzyme>M2.Apa12260I</Enzyme> <Motif>GGAGNNNNNGGC</Motif> </Organism> <Organism> <Name>Bacillus cellulosilyticus</Name> <Enzyme>M1.BceNI</Enzyme> <Motif>CCCNNNNNCTC</Motif> <Enzyme>M2.BceNI</Enzyme> <Motif>CCCNNNNNCTC</Motif> </Organism> </rebase> </code></pre> 我想将这个XML数据可视化为图形格式。连通性是这样的，很多<code>enzymes</code>可以包含公共的<code>motifs</code>，但是{<cd3>}不能有类似的{<cd1>}。我看了看<a href="http://d3js.org/" rel="nofollow noreferrer">d3.js</a>，但我不认为它有我想要的。我对<code>neo4j</code>提供的可视化效果非常兴奋，但我需要从头开始学习。不过，我还没有找到任何关于通过XML数据集导入或创建<code>neo4j</code>中的图形的好教程。我知道在编程的世界里，任何事情都是可能的，所以我想知道如何将数据导入neo4j数据库（最好使用<code>python</code>）来可视化数据。在 更新 我试着遵循这个<a href="https://stackoverflow.com/a/25113853/3133885">answer</a>（这个问题下的第二个答案）。我创建了他建议的2<code>CSV</code>文件。但是查询有很多语法错误，例如： <ol> <li><code>Invalid input 'S': expected 'n/N' (line 6, column 2) "USING PERIODIC COMMIT"</code></li> <li><code>WITH is required between CREATE and LOAD CSV (line 6, column 1) "MATCH (o:Organism { name: csvLine.name}),(m:Motif { name: csvLine.motif})"</code></li> </ol> 我的<code>cypher</code>查询技能非常有限，而且我无法让任何<code>imports</code>工作，因此我自己修复查询是非常困难的。任何帮助都将不胜感激

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

为此，我建议直接使用<a href="http://gephi.github.io/" rel="nofollow">gephi</a>。至少一年前，它完美地工作了，它支持直接导入xml/csv数据格式，而且不需要使用<code>neo4j</code>作为预处理器。在 编辑 哦，我明白了，我想连接已经包括在内了。在这种情况下，必须将xml中的所有数据创建为一个单独的节点—每个<code>enzyme</code>和{<cd3>}以及每个{<cd4>}（带有参数<code>name</code>）的新节点。那些<code>enzyme</code>nad<code>motif</code>节点必须是唯一的，即没有重复。当创建一个<code>organism</code>节点时，可以通过关系将<code>organism</code>与其<code>enzyme</code>和{<cd3>}节点连接起来。完成后，查询/可视化相似的节点就没有问题了，因为公共节点至少共享<code>enzyme/motif</code>中的一个。在 我不知道将数据<code>xml</code>导入到neo4j的任何聪明方法，但是将其转换为两个<code>csv</code>文件应该没有问题。csv的格式应该是： 第一个文件： <pre><code>name,enzyme Aminomonas paucivorans,M1.Apa12260I Aminomonas paucivorans,M2.Apa12260I Bacillus cellulosilyticus,M1.BceNI Bacillus cellulosilyticus,M2.BceNI </code></pre> 第二个文件（我不明白为什么<code>motif</code>是重复的思想）： ^{pr2}$ 现在我们要做的是<a href="http://docs.neo4j.org/chunked/milestone/cypherdoc-importing-csv-files-with-cypher.html?_ga=1.36841891.2043392826.1399556152" rel="nofollow">import</a>，它创建了唯一的节点和关系（因此，上面的重复<code>motifs</code>只会转换成1个唯一的关系）（如果必要，也可以对同一个<code>motif</code>节点有多个关系）： （我不确定是否使用此导入，但它应该可以工作）： <pre><code>USING PERIODIC COMMIT LOAD CSV WITH HEADERS FROM "file1.csv" AS csvLine MATCH (o:Organism { name: csvLine.name}),(e:Enzyme { name: csvLine.enzyme}) CREATE (o)-[:has_enzyme]->(e) //or maybe CREATE UNIQUE? USING PERIODIC COMMIT LOAD CSV WITH HEADERS FROM "file2.csv" AS csvLine MATCH (o:Organism { name: csvLine.name}),(m:Motif { name: csvLine.motif}) CREATE (o)-[:has_motif]->(m) //or maybe CREATE UNIQUE? </code></pre> 这将创建包含2个生物体节点、4个酶节点和2个motif节点的图。每个生物节点都应该与其酶和基序有关系。完成后，您可以前进到前面描述的可视化部分。在

XML数据的图形化可视化

1 个回答

相关Python问题