使用DOM从纯文本中提取信息并写入XML

2024-10-08 19:19:46 发布

您现在位置:Python中文网/ 问答频道 /正文

目前,我正在设计一些糖生物学领域的格式转换工具。格式转换包括从文本文件转换为字段中的标准XML文件。在大多数情况下,我们得到的数据包含在下面这样的纯文本文件中感兴趣的信息。实际文件在一行中包含了所有这些。阅读和拆分文本以获取信息是很简单的(可能不是直观的),但问题出在XML。在

[][b-D-GlcpNAc]
    {[(4+1)][b-D-GlcpNAc]
        {[(4+1)][b-D-Manp]
            {[(3+1)][a-D-Manp]
                {[(2+1)][a-D-Manp]{}
            }
        [(6+1)][a-D-Manp]
            {[(3+1)][a-D-Manp]{}
            [(6+1)][a-D-Manp]{}
        }
    }
}

如何解释:

  1. 任何形式的w-w-w+都是一种与另一种糖相连的糖。连杆由卷曲{表示。在
  2. 4+1、3+1等表示一种糖与另一种糖上的碳键。所以前一个的第四个碳和下一个的第一个碳相连。在
  3. {}这表示没有与该糖相关的额外糖
  4. }卷发刚好接近那层。在

您可能可以阅读XML并了解链接是如何工作的。但如果你们想要更详细的解释,那就问问吧。在

XML应该是什么样子,如下所示。在

^{pr2}$

到目前为止,我已经能够简单地获取所有剩余字段并将它们写入XML。但我甚至无法为remain_link字段编写伪代码。即使我能得到关于如何在xml中添加链接信息的帮助和想法,我也会很感激的。在


Tags: 文件工具数据信息标准链接格式情况
1条回答
网友
1楼 · 发布于 2024-10-08 19:19:46

好吧!很酷的问题,它很好地伤害了我的大脑。在

首先。。。为了我的理智,我将你的原始数据添加到一种有意义的方式上:

[][b-D-GlcpNAc] {
    [(4+1)][b-D-GlcpNAc] {
        [(4+1)][b-D-Manp] {
            [(3+1)][a-D-Manp] {
                [(2+1)][a-D-Manp] { }
            }
            [(6+1)][a-D-Manp] {
                [(3+1)][a-D-Manp] { }
                [(6+1)][a-D-Manp] { }   
            }
        }
    }

我认为关键是要弄清楚这些对是什么,你想通过编程的方式找出你所处的层次。在

伪代码:

^{pr2}$

您还需要跟踪哪个糖是以前的“父”糖。在

相关问题 更多 >

    热门问题