通过在r中部分匹配另一个数据帧来细分数据帧（对python/pandas解决方案开放）

df <- data.frame(A = c("a1", "a1", "a2", NA, "a1", "a1"), B = c(NA,"b1", "b1", "b2", "b1",NA), C = c(NA,NA,NA,NA,"c1","c1"), D = c(NA,NA,NA,NA,"d1","d1"), stringsAsFactors = FALSE) # column D is not nessecary I imputed it to get a data frame when applying is.na() below df_match <- data.frame(A= "a1", B = "b1", C = NA, D = NA, stringsAsFactors = FALSE) A B C D 1 a1 <NA> <NA> <NA> 2 a1 b1 <NA> <NA> 3 a2 b1 <NA> <NA> 4 <NA> b2 <NA> <NA> 5 a1 b1 c1 d1 6 a1 <NA> c1 d1 > df_match A B C D 1 a1 b1 NA NA

df <- data.frame(A = c("a1", "a1", "a2", NA, "a1", "a1"), B = c(NA,"b1", "b1", "b2", "b1",NA), C = c(NA,NA,NA,NA,"c1","c1"), D = c(NA,NA,NA,NA,"d1","d1"), stringsAsFactors = FALSE) # column D is not nessecary I imputed it to get a data frame when applying is.na() below df_match <- data.frame(A= "a1", B = "b1", C = NA, D = NA, stringsAsFactors = FALSE) library(dplyr) # create a boolean vector for condition 2 not_matchable <- names(df_match)[is.na(df_match)] bol_no_matchable <- df %>% select(one_of(not_matchable)) %>% is.na() %>% apply(X = ., MARGIN = 1, any) # create a boolean vector for condition 1 matchable <- names(df_match)[!is.na(df_match)] bol_matchable <- sapply(1:nrow(df), function(row) { df[row,matchable] != df_match[,matchable] }) %>% apply(X = ., MARGIN = 2, FUN = any) bol_matchable[is.na(bol_matchable)] <- FALSE # filter the results df <- df %>% filter(!bol_matchable & bol_no_matchable)

df <- data.frame(A = c("a1", "a1", "a2", NA, "a1", "a1"), B = c(NA,"b1", "b1", "b2", "b1",NA), C = c("c2",NA,"c1",NA,"c1","c1"), D = c(NA,"d2","d2","d2","d1","d1"), X = c("C","D","C","D","D","C"), stringsAsFactors = FALSE) bol <- sapply(1:nrow(df), function(x) { # determine value in column X X <- pull(df[x,], "X") not_matchable <- setdiff(matchable, X) # create boolean vector for condition 1) bol_no_matchable <- df[x,] %>% select(one_of(not_matchable)) %>% is.na() %>% all() # create boolean vector for condition 2) bol_matchable <- {df[x,not_matchable] != df_match[,not_matchable]} bol_matchable[is.na(bol_matchable)] <- FALSE bol_matchable <- any(bol_matchable) # combine both conditions bol <- !bol_matchable & bol_no_matchable })

1条回答

网友

1楼 · 发布于 2024-10-01 07:34:02

您可以在df和{}的列上Map，如果{}的对应元素是NA或等于df_match的元素，则为每一列对返回一个元素为TRUE的向量。然后选择TRUE的数目（由rowSums生成）等于列数的行（即所有列要么匹配要么都是NA）。在

注意：如果df_match值是NA，而df值是非NA，则{}输出的相应向量元素将是NA，当与na.rm = TRUE一起使用{}时，它与FALSE等价

row_matches <- 
  rowSums(mapply(function(x, y)  is.na(x) | x == y, df, df_match),  na.rm = TRUE)

df[row_matches == ncol(df),]
#    A    B    C    D
# 1 a1 <NA> <NA> <NA>
# 2 a1   b1 <NA> <NA>

相关问题更多 >

编程相关推荐

热门问题

热门文章