将列名称（年份）转换为变量值Python，R

1991 1992 1993 1991 1992 1993 VariableA VariableB VariableC VariableC VariableC VariableD VariableD VariableD lm mt 1 3 4 2 3 5

VariableA VariableB Year VariableC VariableD lm mt 1991 1 2 lm mt 1992 3 3 lm mt 1993 4 5

mydf <- read.csv("DatosCOMPUSTATfinal.csv", skip = 3, check.names = FALSE) nombres <- names(mydf)[-c(1,2,3)] nombres <- unique(nombres) > nombres [1] "Employees" "Market Value-daily" [3] "Market to book - daily" "Total return" [5] "Total assets" "total stockholders' equity" [7] "Sales" "EBITDA" [9] "EBIT" "Pretax income" [11] "Income (loss)" > names(mydf[c(1,2,3)]) [1] "Company name" "employer identification" [3] "CUSIP" names(mydf)[-c(1,2,3)] <- paste(names(mydf)[-c(1,2,3)], c(1991:2013), sep = "_") nv <- merged.stack(mydf, id.vars = names(mydf[c(1,2,3)]) , var.stubs = nombres , sep = "_" )

2条回答

网友

1楼 · 编辑于 2024-10-01 07:37:11

在R中，一种方法可能是跳过第一行读取csv，将其作为变量名的一部分重新添加，然后使用reshape获得所需的输出。你知道吗

尝试以下操作：

mydf <- read.csv("yourfile.csv", skip = 1, check.names = FALSE)
names(mydf)[-c(1, 2)] <- paste(names(mydf)[-c(1, 2)], 
                               c(1991, 1992, 1993), sep = "_")
reshape(mydf, direction = "long", idvar = 1:2, 
        varying = 3:ncol(mydf), sep = "_")
#            VariableA VariableB time VariableC VariableD
# lm.mt.1991        lm        mt 1991         1         2
# lm.mt.1992        lm        mt 1992         3         3
# lm.mt.1993        lm        mt 1993         4         5

在重命名步骤之后，如果reshape()对您来说太慢，请从我的“splitstackshape”包中尝试merged.stack：

library(splitstackshape)
merged.stack(mydf, var.stubs = c("VariableC", "VariableD"), sep = "_")
#    VariableA VariableB .time_1 VariableC VariableD
# 1:        lm        mt    1991         1         2
# 2:        lm        mt    1992         3         3
# 3:        lm        mt    1993         4         5

网友

2楼 · 编辑于 2024-10-01 07:37:11

R中的另一种方法是在使用@Ananda Mahto的帖子中提到的read.csv读取数据集之后使用dplyr/tidyr（对于大数据集来说这会更快）

 library(dplyr)
 library(tidyr)

  mydf %>% 
       gather(Var, Val, matches("[0-9]+$")) %>% 
       separate(Var, c("Var", "Year")) %>%
       spread(Var, Val)

  #  VariableA VariableB Year VariableC VariableD
  #1        lm        mt 1991         1         2
  #2        lm        mt 1992         3         3
  #3        lm        mt 1993         4         5

数据

 mydf <- structure(list(VariableA = structure(1L, .Label = "lm", class = "factor"), 
VariableB = structure(1L, .Label = "mt", class = "factor"), 
VariableC_1991 = 1L, VariableC_1992 = 3L, VariableC_1993 = 4L, 
VariableD_1991 = 2L, VariableD_1992 = 3L, VariableD_1993 = 5L), .Names = c("VariableA", 
"VariableB", "VariableC_1991", "VariableC_1992", "VariableC_1993", 
"VariableD_1991", "VariableD_1992", "VariableD_1993"), class = "data.frame", row.names = c(NA, 
-1L))

数据

相关问题更多 >

编程相关推荐

热门问题

热门文章