多个RDD的火花联合

如果这些是RDD，则可以使用SparkContext.union@H_301_2@方法：

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
rdd3 = sc.parallelize([7, 8, 9])

rdd = sc.union([rdd1, rdd2, rdd3])
rdd.collect()

## [1, 2, 3, 4, 5, 6, 7, 8, 9]
@H_301_2@

没有DataFrame@H_301_2@等效项，但这只是一个简单的问题：

from functools import reduce  # For Python 3.x
from pyspark.sql import DataFrame

def unionAll(*dfs):
    return reduce(DataFrame.unionAll, dfs)

df1 = sqlContext.createDataFrame([(1, "foo1"), (2, "bar1")], ("k", "v"))
df2 = sqlContext.createDataFrame([(3, "foo2"), (4, "bar2")], ("k", "v"))
df3 = sqlContext.createDataFrame([(5, "foo3"), (6, "bar3")], ("k", "v"))

unionAll(df1, df2, df3).show()

## +---+----+
## |  k|   v|
## +---+----+
## |  1|foo1|
## |  2|bar1|
## |  3|foo2|
## |  4|bar2|
## |  5|foo3|
## |  6|bar3|
## +---+----+
@H_301_2@

如果要在RDD上DataFrames@H_301_2@大量使用SparkContext.union@H_301_2@和重新创建，DataFrame@H_301_2@可能是避免与准备执行计划的成本相关的问题的更好选择：

def unionAll(*dfs):
    first, *_ = dfs  # Python 3.x, for 2.x you'll have to unpack manually
    return first.sql_ctx.createDataFrame(
        first.sql_ctx._sc.union([df.rdd for df in dfs]),
        first.schema
    )
@H_301_2@

其他 2022/1/1 18:31:16 有447人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何在reactjs中显示多个标签？

如何在reactjs中显示多个标签？

其他 2022-01-01 992
使用Jenkins管道将多个git repos签出到同一作业中

使用Jenkins管道将多个git repos签出到同一作业中

其他 2022-01-01 983
如何在Laravel中使用多个数据库

如何在Laravel中使用多个数据库

其他 2022-01-01 930
我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

其他 2022-01-01 942
如果我在项目中包含多个struts配置文件，流程顺序是什么？

如果我在项目中包含多个struts配置文件，流程顺序是什么？

其他 2022-01-01 1073
如何将PHP / Jquery / Ajax脚本修改为具有多个表单域

如何将PHP / Jquery / Ajax脚本修改为具有多个表单域

php 2022-01-01 863
pythonselenium多个测试用例

pythonselenium多个测试用例

python 2022-01-01 989
通过贝宝（一次）支付多个物品

通过贝宝（一次）支付多个物品

其他 2022-01-01 727
在capybara中选择具有多个类的元素

在capybara中选择具有多个类的元素

其他 2022-01-01 895
Selenium WebDriver：上传多个文件

Selenium WebDriver：上传多个文件

其他 2022-01-01 680
多个背景图像和背景颜色

多个背景图像和背景颜色

其他 2022-01-01 738
使用JavaScript进行多个左侧分配

使用JavaScript进行多个左侧分配

javascript 2022-01-01 593
HTML表单上的多个提交按钮–将一个按钮指定为默认按钮

HTML表单上的多个提交按钮–将一个按钮指定为默认按钮

其他 2022-01-01 748
带有多个过滤器的ElasticSearch

带有多个过滤器的ElasticSearch

其他 2022-01-01 894
强制休眠以热切加载多个关联而不更改映射

强制休眠以热切加载多个关联而不更改映射

其他 2022-01-01 818
如何在Hibernate中连接到多个数据库

如何在Hibernate中连接到多个数据库

其他 2022-01-01 714
如何防止加载多个React副本？

如何防止加载多个React副本？

其他 2022-01-01 758
如何在angularJS中过滤多个值（或操作）

如何在angularJS中过滤多个值（或操作）

其他 2022-01-01 777
如何在多个列上计算不同

如何在多个列上计算不同

其他 2022-01-01 724
webdriver等待多个元素之一出现

webdriver等待多个元素之一出现

其他 2022-01-01 693

多个RDD的火花联合

撰写回答

推荐问题

如何在reactjs中显示多个标签？

使用Jenkins管道将多个git repos签出到同一作业中

如何在Laravel中使用多个数据库

我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

如果我在项目中包含多个struts配置文件，流程顺序是什么？

如何将PHP / Jquery / Ajax脚本修改为具有多个表单域

pythonselenium多个测试用例

通过贝宝（一次）支付多个物品

在capybara中选择具有多个类的元素

Selenium WebDriver：上传多个文件

多个背景图像和背景颜色

使用JavaScript进行多个左侧分配

HTML表单上的多个提交按钮–将一个按钮指定为默认按钮

带有多个过滤器的ElasticSearch

强制休眠以热切加载多个关联而不更改映射

如何在Hibernate中连接到多个数据库

如何防止加载多个React副本？

如何在angularJS中过滤多个值（或操作）

如何在多个列上计算不同

webdriver等待多个元素之一出现

分类汇总

您的鼓励是对我最大的支持