频道栏目
首页 > 资讯 > 云计算 > 正文

sparkrddaggregate(python语言)

17-07-28        来源:[db:作者]  
收藏   我要投稿

aggregate(zeroValue,seqOp,combOp)

seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue. seqOp的操作是遍历分区中的所有元素(y),第一个y跟zeroValue做操作,结果再为与第二个y做操作,直到遍历完整个分区。combOp操作是把各分区聚合的结果,再聚合。aggregate函数返回一个跟RDD不同类型的值。因此,需要一个操作seqOp来把分区中的元素y合并成一个x,另外一个操作combOp把所有x(seqOp的结果)聚合。

seqOp= (lambda x, y: (x[0]+ y, x[1]+1))

combOp = (lambda x, y: (x[0]+ y[0], x[1]+ y[1]))

sc.parallelize([1,2,3,4]).aggregate((0,0), seqOp, combOp)

(10, 4)

过程:

seqOp的操作:

zeroValue(0,0) x相当于是当轮的结果(第一轮的时候x=zeroValue),y是分区中的元素

combOp的操作:

y是上一轮运算的x,这里即时(10,4)

相关TAG标签
上一篇:LabView学习
下一篇:IAR中map文件全解析
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站