回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>在Python3和pandas中,我有一个数据帧:</p>
<pre><code>df_projetos_api_final.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 93631 entries, 1 to 93667
Data columns (total 21 columns):
AnoMateria 93631 non-null object
CodigoMateria 93631 non-null object
DescricaoIdentificacaoMateria 93631 non-null object
DescricaoSubtipoMateria 93631 non-null object
IndicadorTramitando 93631 non-null object
NomeCasaIdentificacaoMateria 93631 non-null object
NumeroMateria 93631 non-null object
ApelidoMateria 891 non-null object
DataApresentacao 93631 non-null object
DataLeitura 54213 non-null object
EmentaMateria 93631 non-null object
ExplicacaoEmentaMateria 9461 non-null object
IndicadorComplementar 93631 non-null object
DescricaoNatureza 54352 non-null object
NomeAutor 93100 non-null object
IndicadorOutrosAutores 93214 non-null object
CodigoParlamentar 49786 non-null object
NomeParlamentar 49786 non-null object
NomeCompletoParlamentar 49786 non-null object
UfParlamentar 45613 non-null object
DescricaoSituacao 78783 non-null object
dtypes: object(21)
memory usage: 8.2+ MB
</code></pre>
<p>“校订材料”一栏每行都有一系列句子。我计划从包含此列中任何或多个单词(或单词组)的行创建一个新的数据帧:</p>
^{pr2}$
<p>所以我这样做了:</p>
<pre><code>seleciona2 = df_projetos_api_final [df_projetos_api_final['EmentaMateria'].\
str.contains(str_choice, na=False)]
</code></pre>
<p>新生成的数据帧收集了包含一个或多个这些单词的多个句子。但是,许多行没有这些单词,如<br/>
“ENCAMINHA AO SENADO FEDERAL,UM ADENDO AS SUGESTOES DE EMENDAS A<br/>
提议联邦地区的奥卡门塔利亚,引用一个替代方案<br/>
基金会计划(PROGRAMA DE TRABALHO DO FUNDEPE-FUNDO DE DESENVOLVIMENTO DO)<br/>
VISANDO A ACRESCENTAR MAIS CZ联邦地区,邮编:3.453.977.000,00<br/>
(TRES BILHOES,QUATROCENTOS E Cinkenta E TRES MILHOES,NOVECENTOS E<br/>
执行项目<br/>
教育和文化系统设备。”</p>
<p>请问,这是因为相似的词也在句子中被搜索吗?或者是因为许多句子中有太多的空格或一些单词之间的换行符?在</p>
<p>编辑:7/12/2019</p>
<p>非常感谢各位朋友的关注。在你写了这篇文章之后,我又重新检查了数据库和建议的代码。我得到了原始数据库,有巴西葡萄牙语的口音。我想这是最初的问题-我不知道原来的基地已经改变</p>
<p>我发现我正在处理的数据库已经通过unidecode从葡萄牙语中删除口音。所以我用str_选项,用口音和原始数据库重复了测试,然后它成功了-我还没有检查所有的行,但到目前为止我所看到的都是正确的</p>
<p>因此,新的str_选项(我使用的名称是search_list),我使用的是:</p>
<pre><code>df_projetos_api_final['EmentaMateria'] = df_projetos_api_final['EmentaMateria'].str.upper()
search_list = ["MULHER", "MULHERES", "TRABALHO DOMÉSTICO", "VIOLÊNCIA CONTRA A MULHER", "VIOLÊNCIA DOMÉSTICA", "VIOLÊNCIA DE GÊNERO", "MARIA DA PENHA", "ABORTO", "ABORTAMENTO", "INTERRUPÇÃO DE GRAVIDEZ", "INTERRUPÇÃO DE GESTAÇÃO", "DIREITO REPRODUTIVO", "DIREITOS REPRODUTIVOS", "DIREITO À VIDA", "CONCEPÇÃO", "CONTRACEPÇÃO", "CONTRACEPTIVO", "MISOPROSTOL", "MIFEPRISTONE", "CYTOTEC", "ÚTERO", "GESTAÇÃO", "GRAVIDEZ", "PARTO", "VIOLÊNCIA OBSTÉTRICA", "FETO", "BEBÊ", "CRIANÇA", "VIOLÊNCIA SEXUAL", "FEMINICÍDIO", "MORTE DE MULHER", "MORTE DE MULHERES", "HOMICÍDIO DE MULHER", "HOMICÍDIO DE MULHERES", "ASSÉDIO SEXUAL", "ASSÉDIO", "ESTUPRO", "VIOLÊNCIA SEXUAL", "ABUSO SEXUAL", "ESTUPRO DE VULNERÁVEL", "LICENÇA MATERNIDADE", "FEMININO", "MULHER NEGRA", "MULHERES NEGRAS", "MULHERES QUILOMBOLAS", "MULHERES INDÍGENAS", "NEGRAS", "NEGRA", "RACISMO", "RAÇA", "RACIAL", "ABUSO SEXUAL", "MATERNIDADE", "MÃE", "AMAMENTAÇÃO", "SEXUALIDADE", "SEXO", "GÊNERO", "FEMINISMO", "MACHISMO", "GUARDA DE FILHOS", "GUARDA DOS FILHOS", "IGUALDADE DE GÊNERO", "IDENTIDADE DE GÊNERO", "IDEOLOGIA DE GÊNERO", "EDUCAÇÃO SEXUAL", "ESCOLA SEM PARTIDO", "TRANSEXUAL", "TRANSEXUALIDADE", "MULHER TRANS", "MULHERES TRANS", "MUDANÇA DE SEXO", "READEQUAÇÃO SEXUAL", "EXPLORAÇÃO SEXUAL", "PROSTITUIÇÃO", "ORIENTAÇÃO SEXUAL", "HOMOSSEXUAL", "HOMOSSEXUALIDADE", "HOMOSSEXUALISMO", "LÉSBICA", "LÉSBICAS", "DIREITO DOS HOMENS", "EDUCAÇÃO RELIGIOSA", "DEUS", "RELIGIÃO", "EDUCACÃO DOMICILIAR", "HOMESCHOOLING", "CRECHE", "EDUCAÇÃO INFANTIL", "CASAMENTO INFANTIL"]
mask = df_projetos_api_final['EmentaMateria'].str.contains('|'.join(search_list))
seleciona = df_projetos_api_final[mask]
seleciona.info()
</code></pre>