关于学习笔记

Echarts 笔记

Flask 笔记

Kafka 笔记

Elasticsearch 笔记

Pyspark 笔记

机器学习 笔记

TensorFlow 笔记

一、欢迎来到 Spark Python API 文档参考(基于 pyspark2.2.0 )!

(由于本人水平有限,整理仓促,难免有错误或者不准确的地方。恳请批评指正。如您有更多宝贵意见,可直接发送至邮箱798244092@qq.com,会一一回复,谢谢支持,内容会一直免费更新下去!)

1、pyspark 包

1.1 子包

  • pyspark.sql module (pyspark sql 模块)

  • pyspark.streaming module (pyspark 流计算模块)

  • pyspark.ml package (pyspark 机器学习 包)

  • pyspark.mllib package (pyspark 机器学习库 包)

2、内容

Pyspark 是 Spark 的 python API。

2.1 公共类:

  • SparkContext: Spark 功能的主要入口。

  • RDD: 弹性分布式数据集(RDD),Spark中的基础抽象。

  • Broadcast: 在任务之间重复使用的广播变量。

  • Accumulator: 在任务中只能添加值的,""add-only"共享变量。

  • SparkConf: Spark的配置类。

  • SparkFiles: 访问作业附带的文件(比如 spark-submit 提交应用时会传入一部分文件,可通过此类进行访问传入的文件)。

  • StorageLevel: 更细粒度的缓存持久化级别。

  • TaskContext: 有关当前正在运行的任务的信息,可在workers和实验室中获得。

2.2 class pyspark.SparkConf(loadDefaults=True, _jvm=None, _jconf=None)

Spark 应用程序的配置类。用于设置 Spark 的参数,参数的形式为多个键值对。

大多数情况下,你将使用 SparkConf() 创建一个 SparkConf 对象,该对象会从spark.* Java系统配置参数(属性)中加载值。在这种情况下,你直接在SparkConf对象上设置的任何参数都优先于系统配置参数(属性)。

对于单元测试,不管系统属性是什么,你可以调用 SparkConf(false) 来跳过加载外部配置并获取相同的配置。

SparkConf 这个类中的所有 setter 方法都支持链式写法。例如,你可以写 conf.setMaster("local").setAppName("MyAppName")。

注意 : 一旦 SparkConf 对象被传递给 Spark,它就被克隆,不能再被用户修改。

  • contains(key)

    这个配置是否包含给定的 key ?

  • get(key, defaultValue=None)

    获取配置中某些 key 的 value,否则返回默认值。

  • getAll()

    以 key-value pairs list 的形式获取所有的值。

  • set(key, value)

    设置配置属性。

  • setAll(pairs)

    以 key-value pairs list 形式传递设置多个参数。

    Parameters: 对 —— 设置键值对列表。

  • setAppName(value)

    设置应用的名称。

  • setExecutorEnv(key=None, value=None, pairs=None)

    设置要传递给executors的环境变量。

  • setIfMissing(key,value)

    设置配置属性(如果未被设置)。

  • setMaster(value)

    设置要连接到的 master URL。

  • setSparkHome(value)

    设置在 worker nodes 安装 spark 的 path。

  • toDebugString()

    以 key=value pairs list 的形式返回配置的可打印版本,每行一个。

======================================================================

spark MLlib 理念:数据用rdd的形式表示,然后在分布式数据集上调用各种算法。

MLlib引入一些数据类型:点和向量。归根到底,MLlib就是RDD上一系列可供调用的函数集合。

spark机器学习:将数据转换为带有数值特征的数据 -> 对RDD数据调用算法获得模型 -> 用测试数据测试模型 -> 使用算法评估函数对测试数据集评估模型。

results matching ""

    No results matching ""