如何通过python从mediawiki markedup文章中解析/提取数据

2024-05-19 02:09:48 发布

您现在位置:Python中文网/ 问答频道 /正文

Source Mediawiki markup

现在,我正在使用各种正则表达式来“解析”mediawiki中的数据,并将其标记为列表/字典,以便可以使用本文中的元素。

这并不是最好的方法,因为要做的案子很多。

如何将一篇文章的mediawiki标记解析为各种python对象,以便使用其中的数据?

例如:

  • 将所有标题提取到 字典,用它的 章节。
  • 获取所有interwiki链接,然后 把它们列在一个列表中(我知道
    这可以从API中完成,但我会 而是只有一个API调用
    减少带宽使用)。
  • 提取所有图像名称并用 他们的部门

各种正则表达式都可以实现上述功能,但我发现我必须生成相当大的数字。

这是mediawiki unofficial specification(我不认为他们的官方specification有用)。


Tags: 数据对象方法标记api元素source列表

热门问题