清理古腾堡数据集书籍

gutenberg-cleaner的Python项目详细描述


啊![](https://i.ibb.co/sCJXhmz/header-sp.png) 啊![](https://img.shields.io/apm/l/vim-mode.svg

#古腾堡清洁剂

用于清理古腾堡书籍和数据集的python包。

###先决条件 NLTK包

###安装 ` [sudo] pip install gutenberg-cleaner `

##如何使用?

它有两种方法称为“简单清洁剂”和“超级清洁剂”。 ###简单地说: 只需删除属于项目gutenberg页眉或页脚的行。 不要在文本中深入删除其他东西,如标题或脚注等… ` simple_cleaner(book: str) -> str ` ###超级清洁剂: 超级干净的书(标题,脚注,图片,图书信息等)。也可以删除一些好的行。 ` super_cleaner(book: str, min_token: int = 5, max_token: int = 600) -> str ` min_token:不是“dialog”或“quote”的段落的最小标记,-1表示不标记TXT(这样会更快,但清理效率更低)。 马克斯令牌:段落的最大符号。

它会将已删除的段落标记为:[已删除]

##作者

  • peyman mohseni kiasari

##许可证

此项目是根据麻省理工学院的许可证授权的-有关详细信息,请参见[license.md](license.md)文件

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java Square类   java Android RecyclerView内部视图寻呼机   java类变量:公共访问只读,但私有访问r/w   java不兼容ClassChangeError java8   安卓java on on参数,如参数iNIT.C++C++   java如何在下面的代码中根据我的喜好设置JTextArea和JTextField的大小?   java使用CustomAdapter更改ListView的显示方式   jakarta ee什么是Java Servlet?   传递给Javasocket程序的参数   java为什么我的计划任务在这两者之间有很长的延迟   Java“迭代器”关键字   java获取数据库SQLite Android中插入行的行ID   网络如何在Java应用程序中设置H2嵌入式数据库,以便在小型网络中使用?   数组Java:写出所有包含K1的Nbit序列   java返回随机字符串键的整数值   在java中解析到日期的字符串时保留时区   java如何修复“运行配置错误:[在SDK中找不到Rails]”?   Java包装器OutofMemory