如何解析epub中每个章节的文本?

2024-05-03 12:37:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将书中的内容从epub格式解析并转换为我自己的结构,但是我在检测和提取每章之间的所有文本时遇到了困难,我如何才能完成这一点呢?在

下面是两个epub文件,我希望它能在其他文件上运行:http://www.gutenberg.org/ebooks/11.epub.noimages?session_id=f5b366deca86ee5e978d79f53f4fcaf1e0ac32ca

http://www.gutenberg.org/ebooks/98.epub.noimages?session_id=f5b366deca86ee5e978d79f53f4fcaf1e0ac32ca

我可以把每一章的标题放在字典里,就像这样:

{'ALICE’S ADVENTURES IN WONDERLAND': [], 'THE MILLENNIUM FULCRUM EDITION 3.0': [], 'Contents': [], 'CHAPTER I. Down the Rabbit-Hole': [], 'CHAPTER II. The Pool of Tears': [], 'CHAPTER III. A Caucus-Race and a Long Tale': [], 'CHAPTER IV. The Rabbit Sends in a Little Bill': [], 'CHAPTER V. Advice from a Caterpillar': [], 'CHAPTER VI. Pig and Pepper': [], 'CHAPTER VII. A Mad Tea-Party': [], 'CHAPTER VIII. The Queen’s Croquet-Ground': [], 'CHAPTER IX. The Mock Turtle’s Story': [], 'CHAPTER X. The Lobster Quadrille': [], 'CHAPTER XI. Who Stole the Tarts?': [], 'CHAPTER XII. Alice’s Evidence': []}

我想把每章之间的文字都写进那张单子里,但是我有很多麻烦

我是如何得到这一章的:

^{pr2}$

ParseContent是我尝试使用的函数,目前它适用于前两章,然后开始为失败惨痛。我只想把每一章的所有文本都放到相应的列表中。非常感谢你。我会继续努力的。如果您能提供任何帮助或建议,我们将不胜感激。在


Tags: 文件theorg文本idhttpsessionwww
1条回答
网友
1楼 · 发布于 2024-05-03 12:37:21

找到了一个解决方案,使用章节标题创建了一个索引,并将其保存在元组中。然后使用该元组遍历内容并将所有内容附加到相应的章节中。希望这能帮助下一个想解析epubs的人。如果有什么更好的建议,请告诉我。关于epub解析的在线信息并不多。在

相关问题 更多 >