Python中文
首页
教程
问答
标签
搜索
登录
注册
NLTK中是否有用于文本规范化和规范化的类?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>NLTK文档和示例的流行数量专门用于元素化和词干处理,但很少涉及以下规范化问题:</p> <ul> <li>将所有字母转换为小写或大写</li> <li>删除标点符号</li> <li><strong>将数字转换为单词</li> <li>删除重音符号和其他音调符号</li> <li><strong>扩展缩写</strong></li> <li>删除停止字或“太普通”字</li> <li><strong>文本规范化(tumor=tumor,it's=it is)</li> </ul> <p>请告诉我在NLTK的什么地方挖。欢迎任何用于上述目的的NLTK等价物(JAVA或任何其他)。谢谢。</p> <p><strong>升级版</strong>。我已经为文本到语音的目的编写了一个文本规范化的python库<a href="https://github.com/soshial/text-normalization" rel="noreferrer">https://github.com/soshial/text-normalization</a>。它可能也适合你。</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>我建议使用stopwords.words()来删除stopwords。支持以下语言:丹麦语、荷兰语、英语、法语、德语、意大利语、挪威语、葡萄牙语、俄语、西班牙语、瑞典语。</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
得到媒体:缩略图url从rss源
1 回答
得到对数正态随机数给定log10均值和log10标准差
8 回答
得到工作,波斯特不
8 回答
得到左半积和右半积的绝对差最小的元素
3 回答
得到幻数错误?
4 回答
得到异常错误“线程中的异常-1(最有可能在解释器关闭期间引发)”,它使用Parami
10 回答
得到循环
1 回答
得到德语的语法变化
4 回答
得到我认为是好的结果,但还不够
2 回答
得到截断svd.transform()返回float16而不是float64
1 回答
得到所有不相交的集合的并集
4 回答
得到所有函数求值组合的矩阵
9 回答
得到扭曲延迟取消错误当使用刮痧时
1 回答
得到控制台.log使用Selenium python从Chrome输出一次,然后调用第二次为空
1 回答
得到操作系统环境通过NSSM运行Python
8 回答
得到数学方程中的表达式
10 回答
得到数据库结构属性
3 回答
得到整数的后三位
4 回答
得到整数的第n位精度
3 回答
得到最低落的reddit评论
6 回答