大数据学习笔记6·社会计算中的大数据(4) 。上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的。这篇是社会计算部分的最后一篇,关于用户连接和图隐私。
一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希算法介绍。
第4课:SparkStreaming的Exactly-One的事务处理和不重复输出彻底掌握。一:Exactly-One的事务处理。二:输出不重复。
hive使用技巧(四)——巧用MapJoin解决数据倾斜问题。
在一个全新的ubuntu14 04中通过源码编译安装qemu和libvirt环境。需要注意一个安装顺序问题。建议先安装qemu 后安装libvirt 因为,libvirt起来后,会检测其需要使用的hypervisor。ubuntu14 04手动安装qemu和libvirt。
Spark内核架构。SparkContext创建:高层DAGScheduler, 底层TaskScheduler, SchedulerBackend。
Kafka设计与原理详解(一)。
【原创】swarm源码分析(2)---manage流程与store。
spark分布式平台下python环境的搭建。其实这个环境我已经搞了两个礼拜了。两周前,我接到这个project,完成一个python写的基于spark分布式平台的音乐推荐系统。我以前听过python,这一次无意间看到了一句话“life is short,you need python”。
Kafka设计与原理详解(二)。
Storm发展到现在已经有了5个年头,从刚开始惊艳四方,到现在逐渐被新兴框架(Flink、Spark Streaming)挑战。Storm本身也在不断的发展,Twitter对其不断的探索,且深一步的开发了Heron框架。Storm深度分析及其正式版本思考。
从WordCount到MapReduce计算模型。虽然现在都在说大内存时代,不过内存的发展怎么也跟不上数据的步伐吧。所以,我们就要想办法减小数据量。这里说的减小可不是真的减小数据量,而是让数据分散开来。分开存储、分开计算。这就是 MapReduce 分布式的核心。
Spark定制版2:通过案例对SparkStreaming透彻理解三板斧之二。
[GoogleDeepLearning笔记]LogisticClassification。
地铁译:Sparkforpythondevelopers---搭建Spark虚拟环境3。在VirtualBox 上建Ubantu虚机,安装Anaconda,Java 8,Spark,IPython Notebook,以及和Hello world 齐名的wordcount 例子程序。
第5课:基于案例一节课贯通SparkStreaming流计算框架的运行源码。
Spark Streaming 第一课:案例动手实战并在电光石火间理解其工作原理。Spark Streaming 第一课:案例动手实战并在电光石火间理解其工作原理。