数据列表清理

cleancc的Python项目详细描述


数据清洗--cleancc


cleancc

使用方法

  • pip install cleancc

  • import cleancc

  • 共有五个函数调用:

    1.第一个函数为punct:

    [

    ​ 去除标点并让所有字母小写

    ​ :param pop_list:所要处理的的列表格式

    ​ :param lower:是否转小写,默认是

    ​ :return all_comment:处理后的结果-字符串格式

    ]

    2.第二个函数为statistics:

    [

    ​ 词频统计

    ​ :param pop_list:所要处理的的列表格式

    ​ :param symbol:是否去除标点,默认是

    ​ :param lower:是否转小写,默认是

    ​ :return wordCount_dict:统计结果-字典格式

    ]

    3.第三个函数为stop_words:

    [

    ​ 删除词频统计中的停顿词

    ​ :param statis:是否选择词频清理

    ​ :param pop_list:所要处理的的列表格式

    ​ :param symbol:是否去除标点,默认是

    ​ :param lower:是否转小写,默认是

    ​ :param wordCount_dict:词频统计结果-字典

    ​ :return wordCount_dict:清除后结果-字典格式

    ]

    4.第四个函数为Count_Sort:

    [

    ​ 字典排名数目排序

    ​ :param wordCount_dict:词频统计结果-字典

    ​ :param choices_number:返回前choices_number个字典个数

    ​ :return keyword_list:出现的单词-列表格式

    ​ :return value_list:单词对应的词频-列表格式

    ]

    5.第五个函数为word_all:

    [

    ​ 调用全部函数

    ​ :param pop_list:所要处理的的列表格式

    ​ :param choices_number:返回前choices_number个字典个数

    ​ :param symbol:是否去除标点,默认是

    ​ :param lower:是否转小写,默认是

    ​ :return keyword_list:出现的单词-列表格式

    ​ :return value_list:单词对应的词频-列表格式

    ]

注意事项

  • 注意:处理数据参数类型为列表,需要pandas转换为列表后进行调用!

  • 使用示例:

importpandasaspdfromcleanccimportcleanfrombs4importBeautifulSoupdf=pd.read_csv("label.csv",sep='\t',escapechar='\\')review_list=df['review'].tolist()comment_list=[BeautifulSoup(k,'lxml').textforkinreview_list]print(comment_list)keyword_list,value_list=clean.word_all(comment_list,150)print(keyword_list,value_list)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将cassandra中的行数据转换为与列相关的嵌套json   java如何使用jcr XPath在jcr:content/@jcr:data中搜索?   java在使用openCV进行安卓开发时如何利用手机的广角镜头   java解析扩展了接口,结束了一个潜在的无限循环   位置服务的@Override方法中存在java Android应用程序错误   java本地线程的用途和需求是什么   具有左右子访问的java节点树遍历   java验证JsonWebToken签名   JUL日志处理程序中的java日志记录   嵌入式Java读取给定时间段的串行数据。   java有没有办法从多个URL获取多个图像?   java线程通过等待intent阻止自己发送intent   java Spring MVC解析多部分内容请求   java JPA/Hibernate静态元模型属性未填充NullPointerException   java格式错误的字符(需要引号,得到I)~正在处理   java为什么PrintWriter对象抛出FileNotFoundException?   java Neo4j未正确保存标签   java IE不加载图像