资讯安全论坛下载读书程序开发数据库系统网络电子书微信学院站长学院 QQ 考试

频道栏目

Python| 安全资讯| 安全公告| 病毒预警| 人物| 企业招聘| 其他综合|

首页 > 资讯 > Python > 正文

Python开发Spark的案例教程

18-05-18 来源：[db:作者]

收藏我要投稿

案例1：WordCount程序

from pyspark import *
import os

if __name__ == '__main__':

    os.environ['SPARK_HOME'] = 'G:\myProgram\spark-2.3.0-bin-hadoop2.7'
    # Create SparkConf
    conf = SparkConf() \
        .setAppName("WordCount") \
        .setMaster("local") \
        # Create SparkContext
    sc = SparkContext(conf=conf)
    # 从本地模拟数据
    datas = ["you,jump", "i,jump"]
    # Create RDD
    rdd = sc.parallelize(datas)
    print(rdd.count())  # 2
    print(rdd.first())  # you,jum

    # WordCount
    wordcount = rdd.flatMap(lambda line: line.split(",")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b)
    for wc in wordcount.collect():
        print(wc[0] + "   " + str(wc[1]))
# you   1
# jump   2
# i   1

点击复制链接与好友分享!回本站首页

相关TAG标签

上一篇：JAVA之JSP详解

下一篇：分享一波JAVA-el & jstl & mvc的核心知识点

相关文章

热门专题推荐 vmware win7激活工具 win10激活工具 excel word office激活小马激活工具重装系统数据恢复 u盘启动工具

图文推荐

文章

推荐

· 不掉线的路由器！路由特殊技术分析！

· 如何通过路由器来控制上网

· 宽带路由器故障巧排除

· 关于忘记Cisco交换机路由器口令后如何

· 远程管理路由器注意“安全”

· 路由器端口映射的原理及设置方法介绍

· 教你用路由器日志快速定位及排除故障

· 教你设置无线路由提高无线网BT下载速

· win7激活工具

· win10激活工具

· win7激活工具旗舰版

· office2010激活密钥

· windows7激活密钥

· office2010激活工具

· 小马激活工具

· win10激活工具

热门新闻

· 锤子坚果Pro发布后，罗永浩哭了

· 想实习的大学党看过来!这些科技巨头最

· 罗永浩锤子发布会抢先消息：锤子科技新

· Google新一代系统Fuchsia OS界面曝光

· 中国唯一连续运营20余年的网络游戏，还

· iPhone都便宜了为何国产手机越来越贵

· 丢人！谷歌和Facebook竟被虚假企业电邮

· 中国移动支付震惊日本网友为什么美国

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站