用于将xml和epubs转换为文本文件的python包

epub-conversion的Python项目详细描述


epub-epub转换
>---------


>使用epubs和wiki转储创建文本体。
这是一个python包,它具有一个将epub和xml(wiki转储)转换为文本、行或python生成器的转换器。


用法:

















对于文本文件,用法很简单。首先创建一个converter对象:

converter=converter(“My_ebooks_folder/”)

epub_conversion.utils导入open_book

book=open_book(“twillight.epub”)



然后,您可以按如下方式访问转储:


wiki=epub-conversion.wiki-decoder.almost\u smart-open(“enwiki.bz2”)



以此转储作为**输入**现在让我们使用生成器输出此转储中的所有“title”和“redirection title”对:

redirections={redirect-from:redirect-to
for redirect-from,重定向到in epub_conversion.wiki_decoder.get_redirection_list(wiki)
}


然后:



对于epub-u conversion.wiki-decoder.convert-wiki-to-u-lines(wiki):
process-u-line(line)




另请参见:
——

*[维基百科浏览器](https://github.com/jonathanraiman/wikipedia-ner)一个python模块,它使用“epub-u conversion”处理维基百科转储,并仅输出包含页面的行到页面链接,与链接锚文本提取,并删除所有标记。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
字典java cassandra对象映射注释   java定制Solr TokenFilter lemmatizer   字符串从Java文件中读取windows文件名   java如何在Windows上设置StanfordCorenlp服务器以返回文本   java axis2“意外的子元素值”   java使用POI HSSF获取错误   多线程Java等待计时器线程完成   java ForkJoinPool BuffereImage处理风格   从java代码运行Python脚本   java将字节[]转换为短[],使每个短元素包含13位数据   java如何为swing jframe应用程序将代码划分为类   java使用okhttp更改baseurl   java AlertDialog。建设者setView导致堆栈溢出错误   java如何在特定的radius 安卓 studio中接收地址列表?