是否有一个现有的库来从dump解析wikmedia表?

2024-09-28 03:16:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要以某种方便的形式从wiki转储中的表中提取数据,例如列表列表。然而,由于转储的格式,它看起来有点棘手。我知道WikiExtractor,它对于从转储中获取干净的文本很有用,但是它会完全删除表。有没有一个解析器可以以同样的方式让我方便地读取表?你知道吗


Tags: 数据文本解析器列表格式方式wiki形式
1条回答
网友
1楼 · 发布于 2024-09-28 03:16:26

我没有找到从XML转储解析Wikipedia表的好方法。然而,似乎有一些方法可以使用HTML解析器来实现,例如wikitables解析器。除非您只需要分析特定页面中的表,否则这将需要大量的刮削。但是,似乎可以脱机进行,因为htmlwiki转储即将恢复(dumpsphabricator task

相关问题 更多 >

    热门问题