您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

pyspark 内容介绍(一)

5b51 2022/1/14 8:24:22 python 字数 5185 阅读 696 来源 www.jb51.cc/python

pyspark 包介绍 子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package

概述

内容

PySpark是针对Spark的Python API。根据网上提供的资料,现在汇总一下这些类的基本用法,并举例说明如何具体使用。也是总结一下经常用到的这些公有类的使用方式。方便初学者查询及使用。

Public 类们:

功能的主入口。

一个在task之间重用的广播变量。

一个“add-only” 共享变量,task只能增加值。

文件。

配置一个Spark应用,一般用来设置各种Spark的键值对作为参数。

大多数时候,使用来创建SparkConf对象,也用于载入来自spark.* Java系统的属性值。此时,在对象上设置的任何参数都有高于系统属性的优先级。

对于单元测试,也能调用来略过额外的配置,无论系统属性是什么都可以获得相同的配置。

这个类中的设值方法都是支持链式结构的,例如,你可以这样编写配置conf.setMaster(“local”).setAppName(“My app”)

修改。

配置中是否包含一个指定键。

获取配置的某些键值,或者返回认值。

得到所有的键值对的list。

设置配置属性

通过传递一个键值对的list,为多个参数赋值。

设置应用名称

设置环境变量复制给执行器。

如果没有,则设置一个配置属性

设置主连接地址。

设置工作节点上的Spark安装路径

返回一个可打印的配置版本。

Spark功能的主入口,SparkContext 代表到Spark 集群的连接,并且在集群上能创建RDD和broadcast。

用指定的初始化值创建一个累加器。使用添加数据类型的值。认AccumulatorParams为整型和浮点型。如果其他类型需要自定义

使用在每个节点上的Spark job添加文件下载。这里path 参数可以使本地文件也可以使在HDFS中的文件,也可以是HTTP、HTTPS或者URI。

在Spark的job中访问文件,使用L{SparkFiles.get(fileName) }可以找到下载位置。

如果递归选项被设置为“TRUE”则路径能被指定。当前路径仅仅支持Hadoop文件系统。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶