2024-09-28 03:16:26 发布
网友
我需要以某种方便的形式从wiki转储中的表中提取数据,例如列表列表。然而,由于转储的格式,它看起来有点棘手。我知道WikiExtractor,它对于从转储中获取干净的文本很有用,但是它会完全删除表。有没有一个解析器可以以同样的方式让我方便地读取表?你知道吗
我没有找到从XML转储解析Wikipedia表的好方法。然而,似乎有一些方法可以使用HTML解析器来实现,例如wikitables解析器。除非您只需要分析特定页面中的表,否则这将需要大量的刮削。但是,似乎可以脱机进行,因为htmlwiki转储即将恢复(dumps,phabricator task)
我没有找到从XML转储解析Wikipedia表的好方法。然而,似乎有一些方法可以使用HTML解析器来实现,例如wikitables解析器。除非您只需要分析特定页面中的表,否则这将需要大量的刮削。但是,似乎可以脱机进行,因为htmlwiki转储即将恢复(dumps,phabricator task)
相关问题 更多 >
编程相关推荐