频道栏目
首页 > 网络 > 云计算 > 正文

spark机器学习MLlib,相关系数、假设检验学习

2017-11-07 11:51:51         来源:k5722166的博客  
收藏   我要投稿

统计基础

相关系数

在统计学中,计算两组数据之间的相关性是一个非常频繁的操作,在spark.ml中,我们提供了计算两两之间的相关系数。支持的相关系数的方法是普遍的Pearson相关系数和Spearman相关系数

Correlation计算输入指定的Vectors的数据集的相关系数矩阵。输出的将会是包含向量列的相关系数矩阵的DataFrame。

下面是计算Pearson和Spearman相关系数的Python代码

from __future__ import print_function

from pyspark.ml.linalg import Vectors
from pyspark.ml.stat import Correlation
from pyspark.sql import SparkSession

"""
An example for computing correlation matrix.
Run with:
  bin/spark-submit 该文件的路径
"""
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("CorrelationExample") \
        .getOrCreate()

    # 创建矩阵,第一行表示创建一个四维的,第一个元素为1.0,第三个元素为-2.0,其他为0的稀疏向量
    data = [(Vectors.sparse(4, [(0, 1.0), (3, -2.0)]),),  
            (Vectors.dense([4.0, 5.0, 0.0, 3.0]),),
            (Vectors.dense([6.0, 7.0, 0.0, 8.0]),),
            (Vectors.sparse(4, [(0, 9.0), (3, 1.0)]),)]
    df = spark.createDataFrame(data, ["features"])

    #默认表示计算Pearson相关系数并输出
    r1 = Correlation.corr(df, "features").head()
    print("Pearson correlation matrix:\n" + str(r1[0]))

    #计算Spearman相关系数并输出
    r2 = Correlation.corr(df, "features", "spearman").head()
    print("Spearman correlation matrix:\n" + str(r2[0]))

    spark.stop()
上面的输出结果为:

假设检验

在统计学中,假设检验是一个强大的工具,用来判断一个结果是否有统计学意义,或者这个结果是否是偶然发生的。spark.ml当前支持独立的Pearson卡方检验。

ChiSquareTest对针对标签的每个特性进行皮尔逊的独立测试。对于每一个特性,(特性,标签)对被转换成一个应急矩阵,用于计算卡方统计数据。所有的标签和特征值必须是绝对的。

from __future__ import print_function

from pyspark.sql import SparkSession
from pyspark.ml.linalg import Vectors
from pyspark.ml.stat import ChiSquareTest
"""
An example for Chi-square hypothesis testing.
Run with:
  bin/spark-submit examples/src/main/python/ml/chi_square_test_example.py
"""
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("ChiSquareTestExample") \
        .getOrCreate()
    #第一个为y(标签),第二个为x
    data = [(0.0, Vectors.dense(0.5, 10.0)),
            (0.0, Vectors.dense(1.5, 20.0)),
            (1.0, Vectors.dense(1.5, 30.0)),
            (0.0, Vectors.dense(3.5, 30.0)),
            (0.0, Vectors.dense(3.5, 40.0)),
            (1.0, Vectors.dense(3.5, 40.0))]
    df = spark.createDataFrame(data, ["label", "features"])

    r = ChiSquareTest.test(df, "features", "label").head()
    print("pValues: " + str(r.pValues))
    print("degreesOfFreedom: " + str(r.degreesOfFreedom))
    print("statistics: " + str(r.statistics))

    spark.stop()
运行结果
上一篇:离散变量的0-1分布、二项式分布、泊松分布
下一篇:kylin Segments overlap问题处理
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站