可以用R/python/Map reducer计算单词的共现性吗?

2024-10-02 12:27:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个由180列和200000行组成的庞大数据库。为了更好地说明,我有一个180×200000的矩阵。每个矩阵都是一个位数。我要找出他们的共现数。 例如,我有一个5列的数据,值为1、2、3、4、5。我需要找出数据库中(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)发生的次数。你能给我一个解决这个问题的办法吗? 我接触过R和python。所以任何使用这些的建议都会很有帮助。 这也可以用AWS地图减速器来完成吗?这些行上的任何帮助或指示也会很有帮助。在


Tags: 数据aws数据库地图矩阵次数建议行上
1条回答
网友
1楼 · 发布于 2024-10-02 12:27:51

对数只是单粒子数的乘积。在

使用R:

生成一个包含200000行和180列的矩阵,其元素为数字:

mat <- matrix(sample(0:9,180*200000,repl=T),nc=180)

现在每行的表位数:

tab <- sapply( 0:9, function(x) rowSums( mat==x ))

现在找出每一行的对数:

cp <- combn( 0:9, 2, function(x) tab[,1+x[1] ] * tab[,1+x[2] ])

合计行数:

colSums(cp)

验证第一行的结果:

tab2 <- table( matrix(mat[1,], nr=180, nc=180), matrix(mat[1,], nr=180, nc=180, byrow=TRUE))

all( tab2[ lower.tri(tab2)] == cp[1,] )

相关问题 更多 >

    热门问题