用列表理解停止单词清理

2024-10-04 03:22:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我的数据是一个嵌套的中文字符列表

text1:

[['沒人',
  '關心',
  '屏東',
  '是否',
  '淹水',
  '了',
  '天龍',
  '新聞台',
  '只',
  '關心',
  '還沒來',
  '的',
  '颱',
  '風'],
 ['不報', '沒人', '知道', '一報', '一堆', '人去', '看然', '後', '就']]

我想删除此列表中的空字符串和停止字:

stopwords('zh')

{'即或', '那些', '哪', '如此', '别处', '她', '这就是说', '自打', '只', '赶', '其二', '对比', '它', ';', '乌乎', '其', '宁', '不是', '个', '来自', '啥', '么', '就要', '纵然', '俺', '二', '尽管如此', '让', '吗', '不成', '(', '依照', '的话', '过', '作为', '些', '七', '要是', '各自', '这么些', '们', '总的来看', '犹且', '或', '几', '本着', '因此', '&', '故', '如是', '<', '倘或', '~', '以免', '顺着', '矣哉', '任凭', '某个', '或者', '以为', '哟', '恰恰相反', '今', '0', '待', '或曰', '至', '若', '固然', '别说', '要不', '除非', '况且', '嘘', '嗡', '介于', '甚且', '如果', '有', '随着', '其次', '尔尔', '那个', '他们', '曾', '只怕', '个别', '更', '可', '如下', '及', '临', '故而', '一方面', '针对', '尽管', '喔唷', '哇', '加之', '此处', '这里', '以至', '因了', '哪些', '那时', '依', '跟', '凭', '嗳', '含', '》', '通过', '还有', '倘使', '截至', '直到', '那么些', '除外', '@', '一种', '乃至于', '纵令', '就是说', '呜', '否则', '啦', '往', '由此可见', '继后', '嗡嗡', '以期', '各位', '向着', '别是', '等等', '然则', '反过来说', '呀', '某些', '〉', '经过', '共', '呕', '何以', '非但', '该', '分别', '叫', '哪年', '除开', '这个', '这儿', '处在', '竟而', '趁', '相对而言', '比及', '后', '据此', '而', '那么样', '不问', '与其说', '假使', '呵', '比如', '打', '自从', '设或', '当地', '由于', '八', '再其次', '不', '及其', '一则', '设使', '是以', '多么', '诸', '当然', '这样', '哪儿', ':', '于是乎', '总之', '凡是', '人们', '那儿', '咦', '向', '不至于', '大', '再有', '替', '其余', '喏', '除了', '与', '却', '我', '有的', '当', '鉴于', '全部', '一个', '矣乎', '任何', '嘻', '照', '而外', '那么', '一何', '不仅', '说', '自后', '不得', '3', '望', '着', '开外', '得了', '既是', '离', '余外', '自个儿', '或是', '自', '哦', '云云', '一样', '以致', '故此', '|', '不只', '而是', '前后', '[', '不过', '。', '了', '那会儿', '来', '甚至', '者', '诸位', '借傥然', '非特', '还要', '沿着', '非独', '称', '经', '嘿嘿', '赖以', '管', '也', '连同', '然后', '咧', '一切', '自家', '同时', '}', '内', '只有', '极了', '起见', '不尽', '莫不然', '至若', '以故', '欤', '能', '哩', '旁人', '与否', '虽则', '首先', '无宁', '另外', '因而', '因着', '一来', '一些', '若夫', '+', '六', '说来', '总的说来', '与其', '而况', '且不说', '反过来', '尔后', '随时', '诚如', '再说', '不光', '结果', '这时', '别人', '之类', '从此', '人家', '难道说', '两者', '庶几', '呼哧', '呜呼', '叮咚', '而已', '倘', '只是', '不若', '做', '嗬', '彼', '5', '唉', '不外乎', '这', '省得', '2', '并', '越是', '且', '啐', '怎么办', '顺', '可是', '所在', '各个', '哪样', '矣', '多', '哎哟', '哈', '还', '又及', '靠', '什么样', '照着', '般的', '另悉', '已', '譬如', '无', '例如', '一', '下', '有及', '其他', '有时', '焉', '它们', '似的', ',', '再者说', '此地', '也好', '前者', '你', '因', '较', '兮', '嘛', '虽然', '呵呵', '再者', '但凡', '从而', '哼唷', '若非', '一般', '用来', '这么样', '抑或', '所有', '何', '呢', '所', '还是', '不特', '谁料', '正是', '第', '¥', '别', '不但', '慢说', '紧接着', '要么', '谁', '所以', '漫说', '以便', '哪边', '哪里', '由', '对于', '类如', '假若', '可见', '那样', '怎么', '不单', '吱', '九', '大家', '除', '莫若', '、', '腾', '打从', '乃', '和', '具体地说', '咱们', '本身', '嗯', '接着', '甚而', '有关', '他们们', '进而', '后者', '本', '不怕', '咳', '自各儿', '起', '我们', '这么点儿', '只限', '于', '才', '谁人', '仍', '不比', '为何', '即便', '设若', '之所以', '且说', '如上', '不管', '较之', '凭借', '反之', '小', '果真', '人', '再则', '冲', '彼此', '就算', '于是', '上', '总的来说', '既', '就是了', '1', '莫如', '为什么', '云尔', '每当', '兼之', '4', '先不先', '要不是', '以及', '何处', '得', '为着', '或则', '不惟', '最', '以至于', '那', '即使', '彼时', '至于', '眨眼', '但是', '在于', '贼死', '那边', '能否', '咋', '不拘', '由此', '乃至', '嘿', '甚么', '没奈何', '纵', '把', '他人', '哉', '吧', '自身', '五', '全体', '非', '遵照', '喽', '光是', '即令', '向使', '宁肯', '点', '继之', '岂但', '纵使', '上下', '这边', '宁愿', '好', '!', '倘然', '︿', '不独', '她们', '喂', '开始', '甚或', '这么', '尔', '继而', '看', '何况', '中', '冒', '所幸', '〈', '啪达', '果然', '你们', '6', '给', '本人', '月', '这些', '乎', '距', '怎么样', '巴巴', '如', '替代', '用', '逐步', '可以', '尽', '如同', '$', '使', '也罢', '与此同时', '几时', '始而', '不料', '只消', '甚至于', '正巧', '啊', '为', '此间', '不尽然', '去', '反而', '不如', '从', '关于具体地说', '日', '而且', '都', '儿', '到', '怎样', '为了', '哪个', '综上所述', '罢了', '哈哈', '谁知', '什', '才能', '加以', '借', '哼', '仍旧', '而后', '别的', '等', '对', '按', '其一', '#', '论', '诸如', '既往', '吧哒', '另一方面', '再', '咚', '换言之', '年', '如其', '那里', '若果', '多少', ')', '但', '9', '如若', '并且', '其它', '各', '是的', '正如', '要不然', '这次', '比方', '*', '毋宁', '《', '使得', '许多', '及至', '朝', '鄙人', '据', '何时', '出来', '其中', '7', '只当', '为此', '譬喻', '四', '来着', '咱', '简言之', '别管', '唯有', '哪天', '而言', '各种', '之一', '依据', '随', '乘', '在', '如上所述', '之', '按照', '朝着', '不论', '每', '地', '连', '此时', '已矣', '致', '很', '将', '一转眼', '基于', '关于', '吓', '巴', '换句话说', '哎呀', '倘若', '亦', '的确', '一旦', '8', '惟其', '即若', '具体说来', '被', '某某', '根据', '另', '受到', '就是', '万一', '尚且', '当着', '怎奈', '像', '要', '以上', '虽说', '着呢', '哪怕', '宁可', '不然', '孰料', '嘎登', '除此之外', '如何', '是', '则', '沿', '来说', '等到', '对待', '这一来', '为止', '即', '本地', '拿', '此', '然而', '请', '凡', ']', '哎', '您', '会', '这会儿', '这般', '三', '某', '>', '总而言之', '秒', '随后', '不妨', '虽', '庶乎', '时候', '则甚', '又', '自己', '遵循', '什么', '时', '呸', '只要', '比', '以来', '犹自', '无论', '既然', '区', '至今', '?', '对方', '呃', '同', '此外', '哗', '孰知', '他', '由是', '出于', '诚然', '若是', '因为', '那般', '己', '就', '俺们', '嘎', '{', '趁着', '便于', '非徒', '光', '在下', '假如', '边', '分', '归', '即如', '%', '零', '二来', '阿', '啷当', '归齐', '有些', '呗', '正值', '此次', '的', '以', '怎', '任', '前此'}



text2 = [w for x in text1 for w in x if not w in stopwords('zh') and w != '']

但结果是,每个字符都被分开,内部列表似乎消失了

text2:

['沒',
 '關',
 '心',
 '屏',
 '東',
 '否',
 '淹',
 '水',
 '天',
 '龍',
 '新',
 '聞',
 '台',
 '關',
 '心',
 '還',
 '沒',
 '來',
 '颱',
 '風',
 '央',
 '山',
 '脈',
 '減',
 '輕',
 '風',
 '勢',
 '遇',
 '初',
 '十',
 '潮',
 '台',
 '灣',
 '西',
 '部',
 '海',
 '區',
 '樣',
 '淹',
 '水',
 '給',
 '報',
 '沒',
 '知',
 '道',
 '報',
 '堆',
 '然',
 '後',
 '稀',
 '還',
 '記',
 '前',
 '淹',
 '水',
 '淹',
 '硬',
 '碟',
 '漲',
 '兩',
 '倍',
 '價',
 '格',
 '結',
 '果',
 '變',
 '旱',
 '災',
 '楊',
 '璨',
 '澤',
 '台',
 '南',
 '新',
 '市',
 '毛',
 '毛',
 '雨',
 '乖',
 '乖',
 '班',
 '改',
 '號',
 '後',
 '公',
 '車',
 '座',
 '沒',
 '拆',
 '拜',
 '託',
 '們',
 '回',
 '家',
 '讀',
 '書',
 '麼',
 '爛',
 '車',
 '送',
 '給',
 '天',
 '龍',
 '國',
 '新',
 '北',
 '雨',
 '天',
 '裡',
 '面',
 '會',
 '淹',
 '水',
 '太',
 '離',
 '譜',
 '台',
 '市',
 '個',
 '爽',
 '爆',
 '們',
 '免',
 '費',
 '爽',
 '錢',
 '們',
 '台',
 '市',
 '付',
 '錢',
 '颱',
 '風',
 '不',
 '報',
 '沒',
 '人',
 '知',
 '道',
 '一',
 '報',
 '一',
 '堆',
 '人',
 '去',
 '看',
 '然',
 '後']

有没有一种方法可以清除stopwords并将其作为单词(而不是字符)和嵌套列表进行维护


Tags: and数据字符串in列表forifnot
1条回答
网友
1楼 · 发布于 2024-10-04 03:22:58

您可以使用发电机和for循环的混合

text1 = [['沒人',
  '關心',
  '屏東',
  '是否',
  '淹水',
  '了',
  '',
  '天龍',
  '新聞台',
  '只',
  '關心',
  '還沒來',
  '的',
  '颱',
  '風'],
 ['不報', '沒人', '知道', '一報', '一堆', '人去', '看然', '後', '就']]
for i in range(len(text1)):
    text1[i] = [j for j in text1[i] if j != '']

相关问题 更多 >