拜托,我想在R中重复我在python3-Pandas中做的一个数据交叉。最合适的方法是使用dplyr?你知道吗
我有两个CSV。一个是关于政客的捐赠:每一行都是一笔捐赠,每一行都有捐赠公司的名称和该公司的联邦注册号(CPF\U CNPJ\U doador-该国每家公司的唯一编号)
CPF_CNPJ_doador Nome_doador Valor
73668675000187 CWVGRAFICA EDITORA E BAZAR EIRELI LTDA ME 1000,00
83647909000163 CARBONIFERA CRICIUMA S/A 1750,00
10731057000114 HAROLDO AZEVEDO CONSTRUÇÕES LTDA 100,00
...
另一家CSV的公司存在环境违规行为。您有多个数据,包括公司名称和该公司的联邦注册号(CPF\U CNPJ-该国每家公司都是唯一的)。但一家公司可能不止一次出现在这个CSV中,例如,它可能有多个违规的附属公司
Nome_Razao_Social CPF_CNPJ
Carajas Madeiras Industria e Comercio Ltda - Me 02579504000214
Carbo Gás Ltda 03828695000435
Carbomil Química S/A 07645062000108
Carbomil Química S/A 07645062000108
我对这两个csv进行了一次合并(python3):
ibama_doadores_orig= pd.merge(eleitos_d_doadores, ibama.drop_duplicates('CPF_CNPJ_limpo'), left_on='CPF_CNPJ_doador_originario', right_on='CPF_CNPJ_limpo', how = 'left')
然后我去掉了空值
ibama_doadores_orig = ibama_doadores_orig[pd.notnull(ibama_doadores_orig['CPF_CNPJ_limpo'])]
两者都可以在csv中复制(例如,政治家可以在不同的日期接收同一公司的捐赠,而公司编号在第二个csv中重复)。你知道吗
但我想得到所有的捐款,即使他们是从重复公司的线路。但从第二次开始我只想第一次出现
在Python中,这是有效的(我检查了Excel数据透视表)。拜托,用R语言,有人知道怎么做吗?你知道吗
数据示例
ibama文件的第一行:
index Nome_Razao_Social CPF_CNPJ CPF_CNPJ_limpo UF_Embargo Municipio_Embargo Infracao Data_Lista
0 0 Leandro Polli Ramos 050.153.549-75 5.015355e+09 SC Passos Maia Vender, expor à venda, ter em depósito, transp... 10/07/2012
1 1 Antonio Marrocos Filho 046.465.921-34 4.646592e+09 GO Cocalzinho de Goiás Executar pesquisa, lavra ou extração de recurs... 28/02/2007
2 2 Nilton Garcia Rodrigues 057.743.069-68 5.774307e+09 RO Candeias do Jamari Infração da Flora(Não Classificada-Móvel) 04/04/2017
文件eleitos\u d\u doadores的第一行:
index UF Partido_x Cargo_x Nome_candidato_x CPF_candidato CPF_CNPJ_doador Nome_doador Nome_doador_Receita Valor CPF_CNPJ_doador_originario Nome_doador_originario Nome_doador_originario_Receita Estado Cargo_y Nome_candidato_y CPF Nome_urna Partido_y Situacao
0 0 BA PRB Deputado Federal ERONILDES VASCONCELOS CARVALHO 66858933549 2.056688e+13 ELEIÇÃO 2014 SIDELVAN DE ALMEIDA NOBREGA DEPUT... ELEICAO 2014 SIDELVAN DE ALMEIDA NOBREGA DEPUT... 575 11055596534 CARMEM LUCIA N MAGALHÃES CARMEN LUCIA MEIRA MAGALHAES BAHIA DEPUTADO FEDERAL ERONILDES VASCONCELOS CARVALHO 66858933549 TIA ERON PRB ELEITO POR QP
1 1 BA PRB Deputado Federal ERONILDES VASCONCELOS CARVALHO 66858933549 2.056688e+13 ELEIÇÃO 2014 SIDELVAN DE ALMEIDA NOBREGA DEPUT... ELEICAO 2014 SIDELVAN DE ALMEIDA NOBREGA DEPUT... 2079,2 29369070559 GERALDO NASCIMENTO SANTOS GERALDO NASCIMENTO SANTOS BAHIA DEPUTADO FEDERAL ERONILDES VASCONCELOS CARVALHO 66858933549 TIA ERON PRB ELEITO POR QP
2 2 BA PRB Deputado Federal ERONILDES VASCONCELOS CARVALHO 66858933549 2.056688e+13 ELEIÇÃO 2014 SIDELVAN DE ALMEIDA NOBREGA DEPUT... ELEICAO 2014 SIDELVAN DE ALMEIDA NOBREGA DEPUT... 3900
合并字段:CPF\u CNPJ\u limpo和CPF\u CNPJ\u original
Python最终结果:
,UF,Partido_x,Cargo_x,Nome_candidato_x,CPF_candidato,CPF_CNPJ_doador,Nome_doador,Nome_doador_Receita,Valor,CPF_CNPJ_doador_originario,Nome_doador_originario,Nome_doador_originario_Receita,Estado,Cargo_y,Nome_candidato_y,CPF,Nome_urna,Partido_y,Situacao,Nome_Razao_Social,CPF_CNPJ,CPF_CNPJ_limpo,UF_Embargo,Municipio_Embargo,Infracao,Data_Lista
87,RS,PP,Deputado Federal,JOSÉ ALFONSO EBERT HAMM,37040642034,887169000105.0,Direção Nacional,PARTIDO PROGRESSISTA,50000,66806555000133.0,FBS CONSTRUÇÃO CIVIL E PAVIMENTAÇÃO LTDA,FBS CONSTRUCAO CIVIL E PAVIMENTACAO S.A.,RIO GRANDE DO SUL,DEPUTADO FEDERAL,JOSÉ ALFONSO EBERT HAMM,37040642034,AFONSO HAMM,PP,ELEITO POR QP,Fbs Construcao Civil e Pavimentacao Ltda,66.806.555/0001-33,66806555000133.0,CE,Quixeramobim,"Executar pesquisa, lavra ou extração de minerais sem a competente autorização, permissão, concessão ou licença da autoridade ambiental competente ou em desacordo com a obtida.",11/10/2010
358,SC,PT,Deputado Federal,DÉCIO NERY DE LIMA,38858240944,79306908000188.0,Direção Estadual/Distrital,PARTIDO DOS TRABALHADORES DE SANTA CATARINA,350000,1317277000105.0,ITAPOÁ TERMINAIS PORTUÁRIOS SA,ITAPOA TERMINAIS PORTUARIOS S/A,SANTA CATARINA,DEPUTADO FEDERAL,DÉCIO NERY DE LIMA,38858240944,DÉCIO LIMA,PT,ELEITO POR QP,Itapoá Terminais Portuários Sa,01.317.277/0001-05,1317277000105.0,SC,Itapoá,"Construir, reformar, ampliar, instalar ou fazer funcionar estabelecimentos, obras ou serviços potencialmente poluidores ou utilizadores de recursos naturais, sem licença ou autorização dos órgãos ambientais competentes, em desacordo com a licença obtida ou contrariando as normas legais e regulamentos pertinentes.",22/10/2010
365,SC,PT,Deputado Federal,DÉCIO NERY DE LIMA,38858240944,79306908000188.0,Direção Estadual/Distrital,PARTIDO DOS TRABALHADORES DE SANTA CATARINA,50000,76614254000161.0,SUL CATARINENSE MINERAÇÃO ARTEFATOS DE CIMENTOS BRITAGEM E CONSTRUÇÕES LTDA,SULCATARINENSE MIN ARTEF DE CIM BRIT E CONSTRUCOES LTDA,SANTA CATARINA,DEPUTADO FEDERAL,DÉCIO NERY DE LIMA,38858240944,DÉCIO LIMA,PT,ELEITO POR QP,Sulcatarinense - Min. Art. Cim. Brit. e Cont. Ltda,76.614.254/0001-61,76614254000161.0,SC,Biguaçu,"Executar pesquisa, lavra ou extração de recursos minerais sem a competente licença ambiental ou em desacordo com a mesma.",22/12/2008
目前没有回答
相关问题 更多 >
编程相关推荐