清理古腾堡数据集书籍
gutenberg-cleaner的Python项目详细描述
啊![](https://i.ibb.co/sCJXhmz/header-sp.png) 啊![](https://img.shields.io/apm/l/vim-mode.svg)
#古腾堡清洁剂
用于清理古腾堡书籍和数据集的python包。
###先决条件 NLTK包
###安装 ` [sudo] pip install gutenberg-cleaner `
##如何使用?
它有两种方法称为“简单清洁剂”和“超级清洁剂”。 ###简单地说: 只需删除属于项目gutenberg页眉或页脚的行。 不要在文本中深入删除其他东西,如标题或脚注等… ` simple_cleaner(book: str) -> str ` ###超级清洁剂: 超级干净的书(标题,脚注,图片,图书信息等)。也可以删除一些好的行。 ` super_cleaner(book: str, min_token: int = 5, max_token: int = 600) -> str ` min_token:不是“dialog”或“quote”的段落的最小标记,-1表示不标记TXT(这样会更快,但清理效率更低)。 马克斯令牌:段落的最大符号。
它会将已删除的段落标记为:[已删除]
##作者
- peyman mohseni kiasari
##许可证
此项目是根据麻省理工学院的许可证授权的-有关详细信息,请参见[license.md](license.md)文件