在pandas中，如何从单词列表或单词集中选择数据帧中的短语？问题的回答

在pandas中，如何从单词列表或单词集中选择数据帧中的短语？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

在Python3和pandas中，我有一个数据帧： <pre><code>df_projetos_api_final.info() <class 'pandas.core.frame.DataFrame'> Int64Index: 93631 entries, 1 to 93667 Data columns (total 21 columns): AnoMateria 93631 non-null object CodigoMateria 93631 non-null object DescricaoIdentificacaoMateria 93631 non-null object DescricaoSubtipoMateria 93631 non-null object IndicadorTramitando 93631 non-null object NomeCasaIdentificacaoMateria 93631 non-null object NumeroMateria 93631 non-null object ApelidoMateria 891 non-null object DataApresentacao 93631 non-null object DataLeitura 54213 non-null object EmentaMateria 93631 non-null object ExplicacaoEmentaMateria 9461 non-null object IndicadorComplementar 93631 non-null object DescricaoNatureza 54352 non-null object NomeAutor 93100 non-null object IndicadorOutrosAutores 93214 non-null object CodigoParlamentar 49786 non-null object NomeParlamentar 49786 non-null object NomeCompletoParlamentar 49786 non-null object UfParlamentar 45613 non-null object DescricaoSituacao 78783 non-null object dtypes: object(21) memory usage: 8.2+ MB </code></pre> “校订材料”一栏每行都有一系列句子。我计划从包含此列中任何或多个单词（或单词组）的行创建一个新的数据帧： ^{pr2}$ 所以我这样做了： <pre><code>seleciona2 = df_projetos_api_final [df_projetos_api_final['EmentaMateria'].\ str.contains(str_choice, na=False)] </code></pre> 新生成的数据帧收集了包含一个或多个这些单词的多个句子。但是，许多行没有这些单词，如 “ENCAMINHA AO SENADO FEDERAL，UM ADENDO AS SUGESTOES DE EMENDAS A 提议联邦地区的奥卡门塔利亚，引用一个替代方案 基金会计划（PROGRAMA DE TRABALHO DO FUNDEPE-FUNDO DE DESENVOLVIMENTO DO） VISANDO A ACRESCENTAR MAIS CZ联邦地区，邮编：3.453.977.000,00 （TRES BILHOES，QUATROCENTOS E Cinkenta E TRES MILHOES，NOVECENTOS E 执行项目 教育和文化系统设备。” 请问，这是因为相似的词也在句子中被搜索吗？或者是因为许多句子中有太多的空格或一些单词之间的换行符？在 编辑：7/12/2019 非常感谢各位朋友的关注。在你写了这篇文章之后，我又重新检查了数据库和建议的代码。我得到了原始数据库，有巴西葡萄牙语的口音。我想这是最初的问题-我不知道原来的基地已经改变 我发现我正在处理的数据库已经通过unidecode从葡萄牙语中删除口音。所以我用str_选项，用口音和原始数据库重复了测试，然后它成功了-我还没有检查所有的行，但到目前为止我所看到的都是正确的 因此，新的str_选项（我使用的名称是search_list），我使用的是： <pre><code>df_projetos_api_final['EmentaMateria'] = df_projetos_api_final['EmentaMateria'].str.upper() search_list = ["MULHER", "MULHERES", "TRABALHO DOMÉSTICO", "VIOLÊNCIA CONTRA A MULHER", "VIOLÊNCIA DOMÉSTICA", "VIOLÊNCIA DE GÊNERO", "MARIA DA PENHA", "ABORTO", "ABORTAMENTO", "INTERRUPÇÃO DE GRAVIDEZ", "INTERRUPÇÃO DE GESTAÇÃO", "DIREITO REPRODUTIVO", "DIREITOS REPRODUTIVOS", "DIREITO À VIDA", "CONCEPÇÃO", "CONTRACEPÇÃO", "CONTRACEPTIVO", "MISOPROSTOL", "MIFEPRISTONE", "CYTOTEC", "ÚTERO", "GESTAÇÃO", "GRAVIDEZ", "PARTO", "VIOLÊNCIA OBSTÉTRICA", "FETO", "BEBÊ", "CRIANÇA", "VIOLÊNCIA SEXUAL", "FEMINICÍDIO", "MORTE DE MULHER", "MORTE DE MULHERES", "HOMICÍDIO DE MULHER", "HOMICÍDIO DE MULHERES", "ASSÉDIO SEXUAL", "ASSÉDIO", "ESTUPRO", "VIOLÊNCIA SEXUAL", "ABUSO SEXUAL", "ESTUPRO DE VULNERÁVEL", "LICENÇA MATERNIDADE", "FEMININO", "MULHER NEGRA", "MULHERES NEGRAS", "MULHERES QUILOMBOLAS", "MULHERES INDÍGENAS", "NEGRAS", "NEGRA", "RACISMO", "RAÇA", "RACIAL", "ABUSO SEXUAL", "MATERNIDADE", "MÃE", "AMAMENTAÇÃO", "SEXUALIDADE", "SEXO", "GÊNERO", "FEMINISMO", "MACHISMO", "GUARDA DE FILHOS", "GUARDA DOS FILHOS", "IGUALDADE DE GÊNERO", "IDENTIDADE DE GÊNERO", "IDEOLOGIA DE GÊNERO", "EDUCAÇÃO SEXUAL", "ESCOLA SEM PARTIDO", "TRANSEXUAL", "TRANSEXUALIDADE", "MULHER TRANS", "MULHERES TRANS", "MUDANÇA DE SEXO", "READEQUAÇÃO SEXUAL", "EXPLORAÇÃO SEXUAL", "PROSTITUIÇÃO", "ORIENTAÇÃO SEXUAL", "HOMOSSEXUAL", "HOMOSSEXUALIDADE", "HOMOSSEXUALISMO", "LÉSBICA", "LÉSBICAS", "DIREITO DOS HOMENS", "EDUCAÇÃO RELIGIOSA", "DEUS", "RELIGIÃO", "EDUCACÃO DOMICILIAR", "HOMESCHOOLING", "CRECHE", "EDUCAÇÃO INFANTIL", "CASAMENTO INFANTIL"] mask = df_projetos_api_final['EmentaMateria'].str.contains('|'.join(search_list)) seleciona = df_projetos_api_final[mask] seleciona.info() </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在pandas中，如何从单词列表或单词集中选择数据帧中的短语？

1 个回答

相关Python问题