Spark2.1.0在windows下的单机环境搭建:该文用于讲解在windows下spark开发环境的搭建,因为现在网上的搭建多在于旧版本中,且还原系数难度很大。
材料准备
spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 (注:spark2.1.0环境于scala2.11环境开发,所以必须版本对应 scala不是必须安装的,如果你是打算使用scala进行spark开发,则需要安装环境搭建步骤
将spark-2.1.0-bin-hadoop2.x版本至c盘下即可
以Scala书写的WordCount为例
package org.data import org.apache.spark._ /** * Created by Joe on 2017/1/16. */ object WordCount { def main(args : Array[String]): Unit = { val inputPath = "C:/spark-2.1.0-bin-hadoop2.6/README.md" val conf = new SparkConf().setMaster("local").setAppName("WordCount") val sc = new SparkContext(conf) val rowRdd = sc.textFile(inputPath) println(rowRdd.take(1).toString) val resultRdd = rowRdd.flatMap(line => line.split("\\s+")) .map(word => (word, 1)).reduceByKey(_ + _) println(resultRdd.take(2).toString) for (data <- resultRdd) { println(data) } sc.stop() } }
之后用ctrl + shift + F10 运行,即可看到结果
这里可以看到spark已经正常启动了
后面可以看到wordCount的结果和spark结束的消息
有很多人喜欢看spark-shell是否启动成功,但是spark-shell是否启动成功和能否在IDE中开发spark完全是两码事情。在本篇博文中的spark-shell也是会启动失败的,但是并不会影响spark在IDEA中的local启动
spark-shell的报错完全无须任何理睬
hadoop_home配置不配置良可,但是有些人看到报错还是会很难受,下面给大家提供winutils的下载路径,加载配置HADOOP_HOME路径即可