频道栏目
首页 > 资讯 > Python > 正文

Python开发Spark的案例教程

18-05-18        来源:[db:作者]  
收藏   我要投稿

案例1:WordCount程序

from pyspark import *
import os

if __name__ == '__main__':

    os.environ['SPARK_HOME'] = 'G:\myProgram\spark-2.3.0-bin-hadoop2.7'
    # Create SparkConf
    conf = SparkConf() \
        .setAppName("WordCount") \
        .setMaster("local") \
        # Create SparkContext
    sc = SparkContext(conf=conf)
    # 从本地模拟数据
    datas = ["you,jump", "i,jump"]
    # Create RDD
    rdd = sc.parallelize(datas)
    print(rdd.count())  # 2
    print(rdd.first())  # you,jum

    # WordCount
    wordcount = rdd.flatMap(lambda line: line.split(",")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b)
    for wc in wordcount.collect():
        print(wc[0] + "   " + str(wc[1]))
# you   1
# jump   2
# i   1
相关TAG标签
上一篇:JAVA之JSP详解
下一篇:分享一波JAVA-el & jstl & mvc的核心知识点
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站