可以用R/python/Map reducer计算单词的共现性吗？ - 问答 - Python中文网

可以用R/python/Map reducer计算单词的共现性吗？

2024-10-02 12:27:51 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个由180列和200000行组成的庞大数据库。为了更好地说明，我有一个180×200000的矩阵。每个矩阵都是一个位数。我要找出他们的共现数。例如，我有一个5列的数据，值为1、2、3、4、5。我需要找出数据库中（1,2），（1,3），（1,4），（1,5），（2,3），（2,4），（2,5），（3,4），（3,5），（4,5）发生的次数。你能给我一个解决这个问题的办法吗？我接触过R和python。所以任何使用这些的建议都会很有帮助。这也可以用AWS地图减速器来完成吗？这些行上的任何帮助或指示也会很有帮助。在

Tags：数据 aws 数据库地图矩阵次数建议行上

1条回答

网友

1楼 · 发布于 2024-10-02 12:27:51

对数只是单粒子数的乘积。在

使用R:

生成一个包含200000行和180列的矩阵，其元素为数字：

mat <- matrix(sample(0:9,180*200000,repl=T),nc=180)

现在每行的表位数：

tab <- sapply( 0:9, function(x) rowSums( mat==x ))

现在找出每一行的对数：

cp <- combn( 0:9, 2, function(x) tab[,1+x[1] ] * tab[,1+x[2] ])

合计行数：

colSums(cp)

验证第一行的结果：

tab2 <- table( matrix(mat[1,], nr=180, nc=180), matrix(mat[1,], nr=180, nc=180, byrow=TRUE))
all( tab2[ lower.tri(tab2)] == cp[1,] )

相关问题更多 >

编程相关推荐

热门问题

热门文章