云计算技术频道 - 红黑联盟

Sparkforpythondevelo

焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。重点是如何通过分布式网络交换代码和数据，获得串行化, 持久化 , 调度和缓存的实战经验。认真使用 Spark SQL, 交互性探索结构化和半结构化数据 Spark SQL 的基础数据结构是?

关键词：戏法数据

Libertynova-apiHTTP请

这次看了一下nova list命令的执行过程，整个过程可以分为几步：HTTP请求、URLMap分发、过滤、APIRouter到具体执行函数，接下来使用Postman组个包并发送http请求作为开始对各个模块进行跟踪和注解。

关键词：流程

YARN体系学习笔记

负责对各个NodeManager 上的资源进行统一管理和调度。包含两个组件： * Scheduler：调度器根据容量、队列等限制条件（如每个队列分配一定的资源，最多执行一定数量的作业等），将系统中的资源分配给各个正在运行的应用程序

关键词：体系笔记

第9课：SparkStreaming源码

1 Spark Streaming通过Receiver持续不断的从外部数据源接收数据，并把数据汇报给Driver端，由此每个Batch Durations就可以根据汇报的数据生成不同的Job。

关键词：源码周期生命

7.sparkStreaming技术内幕

DSream 代表了一系列连续的RDD，DStream中每个RDD包含特定时间间隔的数据，

关键词：内幕全过程技术

基于hadoop2.6.0搭建5个节点的

1、前言我们使用hadoop2 6 0版本配置Hadoop集群，同时配置NameNode& 43;HA、ResourceManager& 43;HA，并使用zookeeper来管理Hadoop集群 2、规划 1、主机规划 hadoop1 192 168 56 131 hadoop2 19

关键词：分布式节点集群

Lucene全文搜索原理与使用

本文中主要是对于Lucene全文搜索的基础原理进行简单的分析，以及Lucene实现全文搜索的流程，之后就是Lucene在Java中的最简单使用：创建索引，查询索引库；

关键词：原理全文

HBase整合MapReduce之建立H

HBase索引主要用于提高Hbase中表数据的访问速度，有效的避免了全表扫描，HBase中的表根据行健被分成了多个Regions，通常一个region的一行都会包含较多的数据，如果以列值作为查询条件，就只能从第一行数据开始往下找，直到找到相关数据为止，这很低效。

关键词：索引

学习AWS的VPC并通过快速上手实验室动

计算、存储内容分发、联网、数据库等10多大类，几十项服务但是跟网络相关只有2个（VPC和数据中心光纤连接） AWS的VPC是云计算中网络运维的基石，是SDN能力的体现 VPC是一整套模拟传统网络运维的工具

关键词：实验室

搭建5个节点的hadoop集群环境（CD

搭建5个节点的hadoop集群环境（CDH5）这样分配的原因是为了采用HA时，两台namenode在不同pc上，若有一台pc出现异常，导致一个namenode无法运作，而standy namenode(备用namenode)可以active(激活)，而不会影响整个集群的运作。

关键词：节点集群环境

spark 环境搭建及几种模式测试

spark安装部署标签（空格分隔）： spark hadoop,spark,kafka交流群：459898801 1，spark环境的安装创建四个目录 sudo mkdir opt modules sudo mkdir opt softwares sudo mkdir opt tools

关键词：模式环境

Spark-Spark Streamin

Spark-Spark Streaming例子整理(一)。流（Streaming），在大数据时代为数据流处理，就像水流一样，是数据流；既然是数据流处理，就会想到数据的流入、数据的加工、数据的流出。

关键词：例子

Openstack+KVM+Ceph+D

对于以基础架构即服务形式部署和设计云计算产品的公司而言，数据复制和存储机制仍然是确保为客户提供完整性和服务连续性的实际前提条件。云计算提供了一种模型，其中数据的位置没有其他基础架构模型中那么重要（

关键词：

Ubuntu14.04离线安装CDH5.

官方安装文档：http: www cloudera com documentation enterprise 5-6-x topics installation html 相关包的下载地址： Cloudera Manager地址：http: archive cloudera com cm5 cm 5 CDH安装包地址

关键词：

nginx学习笔记五（nginx的事件模

在linux后台服务器开发领域里面，epoll的大名是早有所闻。《深入理解nginx》一书在第9章-事件模块中就详细说明了epoll相关的系统调用是怎么嵌入到nginx的框架中。下面说明nginx框架下与事件处理相关的一些模块。

关键词：模块事件笔记

Spark1.6.1 MLlib 特征抽

1 TF-IDF 　　TF-IDF是一种特征向量化方法，这种方法多用于文本挖掘，通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t，文档记为d , 语料库记为D 词频TF(t,d) 是词t 在文档d 中出现

关键词：特征

Spark standalone下的运行

Spark的Cluster Manager可以有以下几种部署方式： 1 standalone 2 Mesos 3 YARN 4 EC2 5 Local 其中standalone方式是spark自带的部署方式，下面我们分别对没有HA的standalone模式和带有HA

关键词：过程

Spark-构建基于Spark的推荐引擎

推荐引擎推荐引擎就是是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过程。从这点上来说，它同样也做预测的搜索引擎互补。但与搜索引擎不同，推荐引擎试图向人们呈现的相关内容并不一定就是

关键词：引擎

Spark-ML-数据获取/处理/准备

获取公开数据集 UCL机器学习知识库：包括近300个不同大小和类型的数据集，可用于分类、回归、聚类和推荐系统任务。数据集列表位于：http: archive ics uci edu ml 。 Amazon AWS公开数据集：包含的通常是

关键词：数据

Hadoop2.7.0HA高可靠性集群搭

Hadoop2 0 0之前，在一个HDFS集群中，NameNode存在单节点故障（SPOF）：因为集群中只有一个NameNode所以在使用过程中，如果该NameNode出现故障或数据丢失，那么整个集群将瘫痪，故障NameNode节点故障无法恢复

关键词：集群可靠性