云计算技术频道 - 红黑联盟

Hive体系结构（四）注意事项与扩展特性。Hadoop和Hive都是用UTF-8编码的，所以, 所有中文必须是UTF-8编码, 才能正常使用。

第6课：SparkStreaming源码

第6课：SparkStreaming源码解读之Job动态生成和深度思考。做大数据例如Hadoop,Spark等，如果不是流处理的话，一般会有定时任务。例如10分钟触发一次，1个小时触发一次，这就是做流处理的感觉，一切不是流处理，或者与流处理无关的数据都将是没有价值的数据。

关键词：源码深度动态

Task运行过程分析3——MapTask

Task运行过程分析3——MapTask内部实现。在Task运行过程分析2中提到，MapTask分为4种，分别是Job-setup Task、Job-cleanup Task、Task-cleanup Task和Map Task。

关键词：过程

BlockManager初始化和注册解密

BlockManager初始化和注册解密 BlockManager解密。

关键词：

【总结】初创公司用AWS搭建高扩展性架构

【总结】初创公司用AWS搭建高扩展性架构。初创公司需要快、多、好、省的技术架构。

关键词：建高扩展性架构公司

TaskScheduler内幕天机：Sp

TaskScheduler内幕天机：Sparkshell案例，TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解。

关键词：天机算法内幕案例

R语言笔记之数据篇

R语言笔记之数据篇。

关键词：语言笔记数据

R语言笔记之语法篇

R语言笔记之语法篇。

关键词：语法语言笔记

Spark的RDD简单操作

Spark的RDD简单操作。

关键词：

Task运行过程分析1

Task 运行过程分析。在MapReduce计算框架中，一个应用程序被划分成Map和Reduce两个计算阶段，它们分别由一个或者多个Map Task和Reduce Task组成。

关键词：过程

novaboot代码流程分析(三)：no

novaboot代码流程分析(三)：nova与neutron的交互(2)。

关键词：流程代码

HBase新版本JavaAPI编程实战及

HBase新版本JavaAPI编程实战及基本操作方法封装。

关键词：基本操作实战方法

R语言之数据可视化

R语言之数据可视化。

关键词：语言数据

Task运行过程分析2

Task运行过程分析2。Child类包含一个入口主方法main，在运行的时候需要传递对应的参数，来运行MapTask和ReduceTask，通过命令行输入如下5个参数。

关键词：过程

在Kaggle手写数字数据集上使用Spa

在Kaggle手写数字数据集上使用SparkMLlib的RandomForest进行手写数字识别。昨天我使用Spark MLlib的朴素贝叶斯进行手写数字识别，准确率在0 83左右，今天使用了RandomForest来训练模型，并进行了参数调优。

关键词：数字数据

Hadoop和大数据：60款顶级开源工具

Hadoop和大数据：60款顶级开源工具。虽然此文尽力做到全面，但难免遗漏，欢迎大家补充，点击文末右下角“写评论”，分享你的观点。

关键词：顶级工具数据

Bluemix使用与其他云平台对比

Bluemix使用与其他云平台对比。笔者近几年做过了一些项目，应用了国内外的几家云平台，包括：Bluemix、阿里云、七牛、新浪云等。下面介绍一下各个云的情况及使用心得。

关键词：平台

大数据分析处理与用户画像实践

大数据分析处理与用户画像实践。

关键词：数据分析画像用户

15分钟熟悉HBaseShell命令

关键词：命令

Hadoop提取KPI进行海量Web日志

Hadoop提取KPI进行海量Web日志分析。Web日志包含着网站最重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页最有价值等。一般中型的网站(10W的PV以上)，每天会产生1G以上Web日志文件。

关键词：海量日志