未提供项目说明

CharsetFilter的Python项目详细描述


# 中文文本字符集分析过滤工具

概要说明 

UTF-8字符集分析过滤工具 CharsetFilter

版本: V 1.0.3

更新:xmxoxo  2020/6/8

GitHub地址: https://github.com/xmxoxo/CharsetFilter

工具说明:本工具把UTF8字符集分成了39个子集,可对文本文件中的字符集进行分析, 统计各类字符的总数以及出现的种类数。同时还可以方便地过滤或者保留的字符, 特别适合NLP等领域中对不可见字符的过滤分析等处理。

注: 被分析的文本文件需要是UTF8格式

## 对象调用使用案例

# 测试 
def test ():
    objC = CharsetFilter()
    txt = '中大1三K┫□\,≯ó㈥l。 ・ ・ 。 ノ ♡不ε﹣¥▽ ̄ˊˋ﹉▲āōē﹑'
    #s = '。 ・ ・ 。 ノ ♡'
    #a = objC.segIndex(0x25b2)
    #a = objC.segIndex(0x2EF4)
    #a = objC.segIndex(0xFFFD)
    #a = objC.segIndex(0x0006)
    #a = objC.segIndex(0xFFFE)
    #a = objC.segIndex(0xFFA1)
    #a = objC.segIndex(0x2453)
    #a = objC.segIndex(0x2580) #0x25BD 0x2580
    #for x in txt:
    #    a = objC.segIndex(ord(x))
    #    print(x,hex(ord(x)),a)

    #print('-'*40)
    strRet = objC.charAnalyze (txt, detail=1)
    print('字符集分析报告'.center(40,'-'))
    print(strRet)

    remove = []
    remain = [2, 36] # 只保留 中文汉字 和 英文半角
    rettxt = objC.txtfilter(txt, remove=remove, remain=remain)
    print('过滤结果:\n%s' % rettxt)
    print('原始长度:%d, 过滤后长度:%d' % ( len(txt), len(rettxt)))

命令行使用案例说明

分析文本字符集,输出简要信息

CharsetFilter --file ./111.txt 

分析文本字符集,输出详细信息,详细信息会保存到 xxx_report.txt 文件中

CharsetFilter --file ./111.txt --detail 1

分析文本字符集,按默认值过滤(过滤 "尚未识别 0", "控制字符 3"),并保存过滤结果(自动命名)

CharsetFilter --file ./111.txt --filter 1

分析文本字符集,仅保留 1,2,36,39,并保存过滤结果(自动命名为 xxx_out.txt)

CharsetFilter --file ./111.txt --filter 1 --remain_charset 1 2 36 39

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Spring Boot中启动应用程序上下文时发生java错误   JAVA网未知后异常Jsoup   java通过[i][2]元素对2D数组进行排序   java如何在Spring安全性中正确使用hasRole?   java getMaxInactiveInterval返回的值与应用程序中配置的值不同。属性   使用数组在java中创建表   java如何从outboundgateway向发送方抛出异常   javajavax。jms。JMSSecurityException:用户名[null]或密码无效   java为什么我们需要在tomcat日志中编写两次处理程序。财产?   java无法在Java6上使用SevenZFile解压7z文件   用Java实现排队   java检测用户是否绘制了整个屏幕   java包的最终变量可以通过反射进行更改吗?   java在JavaFX8中有没有控制菜单弹出位置的方法?   java对整数数组进行排序,而不影响由表示的特殊字符的索引$   IntelliJ IDEA与NetBeans对java性能的影响?   java如何解决登录/注册问题facebook E/BufferQueueProducer:[FacebookActivity[5278]#0]断开连接:未连接(请求=1)