频道栏目
首页 > 程序开发 > 综合编程 > 其他综合 > 正文
关于hive 中order by,sort by,ditribute by,cluster by的解释说明
2017-07-14 11:21:14         来源:龙神add-走向数据架构师的路  
收藏   我要投稿

关于hive 中order by,sort by,ditribute by,cluster by的解释说明,ORDER BY 会对输入做全局排序,因此只有一个 Reduce(多个 Reduce 无法保证全局有序)会导致当输入规模较大时,需要较长的计算时间。

Hive中指定了sort by,那么在每个reducer端都会做排序,也就是说保证了局部有序好处是:执行了局部排序之后可以为接下去的全局排序提高不少的效率(其实就是做一次归并排序就可以做到全局排序了。

ditribute by是控制map的输出在reducer是如何划分的(即输出到不同的文件里)。

cluster by的功能就是distribute by和sort by相结合(根据指定字段输出到不同文件里,然后对各个文件里的数据排序)

 

点击复制链接 与好友分享!回本站首页
上一篇:py-faster-rcnn训练自己数据集需要修改的参数
下一篇:淘淘商城系列——导入商品数据到索引库——dao层
相关文章
图文推荐
点击排行

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站