Hive体系结构(四)注意事项与扩展特性。Hadoop和Hive都是用UTF-8编码的,所以, 所有中文必须是UTF-8编码, 才能正常使用。
第6课:SparkStreaming源码解读之Job动态生成和深度思考。做大数据例如Hadoop,Spark等,如果不是流处理的话,一般会有定时任务。例如10分钟触发一次,1个小时触发一次,这就是做流处理的感觉,一切不是流处理,或者与流处理无关的数据都将是没有价值的数据。
Task运行过程分析3——MapTask内部实现。在Task运行过程分析2中提到,MapTask分为4种,分别是Job-setup Task、Job-cleanup Task、Task-cleanup Task和Map Task。
BlockManager初始化和注册解密 BlockManager解密。
【总结】初创公司用AWS搭建高扩展性架构。初创公司需要快、多、好、省的技术架构。
TaskScheduler内幕天机:Sparkshell案例,TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解。
R语言笔记之数据篇。
R语言笔记之语法篇。
Spark的RDD简单操作。
Task 运行过程分析。在MapReduce计算框架中,一个应用程序被划分成Map和Reduce两个计算阶段,它们分别由一个或者多个Map Task和Reduce Task组成。
novaboot代码流程分析(三):nova与neutron的交互(2)。
HBase新版本JavaAPI编程实战及基本操作方法封装。
R语言之数据可视化。
Task运行过程分析2。Child类包含一个入口主方法main,在运行的时候需要传递对应的参数,来运行MapTask和ReduceTask,通过命令行输入如下5个参数。
在Kaggle手写数字数据集上使用SparkMLlib的RandomForest进行手写数字识别。昨天我使用Spark MLlib的朴素贝叶斯进行手写数字识别,准确率在0 83左右,今天使用了RandomForest来训练模型,并进行了参数调优。
Hadoop和大数据:60款顶级开源工具。虽然此文尽力做到全面,但难免遗漏,欢迎大家补充,点击文末右下角“写评论”,分享你的观点。
Bluemix使用与其他云平台对比。笔者近几年做过了一些项目,应用了国内外的几家云平台,包括:Bluemix、阿里云、七牛、新浪云等。下面介绍一下各个云的情况及使用心得。
大数据分析处理与用户画像实践。
15分钟熟悉HBaseShell命令
Hadoop提取KPI进行海量Web日志分析。Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。