导致TypeError的Lambda函数：“int”对象不是iterab

class Idfs(DocumentFrequencies, Model): def build(self, corpus): log.info('Counting documents in corpus...') N = float(corpus.count()) dfs = super(Idfs, self).build(corpus) log.info('Building idf model: N=%i', N) return dfs\ .map(lambda (term, (df,rank)): (term, df))\ .mapValues(lambda df: math.log(N/df)) @staticmethod def format_item((term, idf)): return { '_id': term, 'idf': idf, }

Out[5]: [(u'fawn', 3), (u'1,800', 31), (u'clotted', 3), (u'comically', 11), (u'Adjusting', 3), (u'O(log', 6), (u'unnecessarily', 15), (u'evangelical', 53), (u'naturopathic', 3), (u'grenadiers', 4), (u'stipulate', 4), (u'Vikrant', 3), (u'fractal', 18),

conf = pyspark.SparkConf().setAll([('spark.executor.memory', '8g'),('spark.driver.memory','8g'),('spark.network.timeout','100000000s'),('spark.executor.heartbeatInterval','10000000s'),('spark.driver.maxResultSize','8g'),('spark.driver.cores','2')])

1条回答

网友

1楼 · 发布于 2024-09-30 01:20:41

基于DocumentFrequencies.collect()输出

map(lambda (term, (df,rank)): (term, df))

不应该存在。基本上，它试图将给定的元组(u'fawn', 3)转换为两部分。u'fawn'映射到term，而{}映射到{}。由于整数3不能转换为元组（它是iterable），因此错误消息

^{pr2}$

删除此行不会更改dfs中的任何内容。在

相关问题更多 >

编程相关推荐

热门问题

热门文章