Spark-将具有不同架构（列名称和序列）的DataFrame合并/合并到具有Master通用架构的DataFrame

据我了解。您想要合并/合并具有不同架构的文件（尽管是一个主架构的子集）..我编写了此函数UnionPro，我认为它很适合您的要求-

-添加了Pyspark版本

def unionPro(DFList: List[DataFrame], spark: org.apache.spark.sql.SparkSession): DataFrame = {

    /**
     * This Function Accepts DataFrame with same or Different Schema/Column Order.With some or none common columns
     * Creates a Unioned DataFrame
     */

    import spark.implicits._

    val MasterColList: Array[String] = DFList.map(_.columns).reduce((x, y) => (x.union(y))).distinct

    def unionExpr(myCols: Seq[String], allCols: Seq[String]): Seq[org.apache.spark.sql.Column] = {
      allCols.toList.map(x => x match {
        case x if myCols.contains(x) => col(x)
        case _                       => lit(null).as(x)
      })
    }

    // Create EmptyDF , ignoring different Datatype in StructField and treating them same based on Name ignoring cases

    val masterSchema = StructType(DFList.map(_.schema.fields).reduce((x, y) => (x.union(y))).groupBy(_.name.toUpperCase).map(_._2.head).toArray)

    val masterEmptyDF = spark.createDataFrame(spark.sparkContext.emptyRDD[Row], masterSchema).select(MasterColList.head, MasterColList.tail: _*)

    DFList.map(df => df.select(unionExpr(df.columns, MasterColList): _*)).foldLeft(masterEmptyDF)((x, y) => x.union(y))

  }

这是它的样本测试-

    val aDF = Seq(("A", 1), ("B", 2)).toDF("Name", "ID")
    val bDF = Seq(("C", 1), ("D", 2)).toDF("Name", "Sal")
    unionPro(List(aDF, bDF), spark).show

输出为-

+----+----+----+
|Name|  ID| Sal|
+----+----+----+
|   A|   1|null|
|   B|   2|null|
|   C|null|   1|
|   D|null|   2|
+----+----+----+

这是它的Pyspark版本-

def unionPro(DFList: List[DataFrame], caseDiff: str = "N") -> DataFrame:
    """
    :param DFList:
    :param caseDiff:
    :return:
    This Function Accepts DataFrame with same or Different Schema/Column Order.With some or none common columns
    Creates a Unioned DataFrame
    """
    inputDFList = DFList if caseDiff == "N" else [df.select([F.col(x.lower) for x in df.columns]) for df in DFList]

    # "This Preserves Order ( OrderedDict0-----------------------------------"
    from collections import OrderedDict
    ## As columnNames ( String) are hashable
    masterColStrList = list(OrderedDict.fromkeys(reduce(lambda x, y: x + y, [df.columns for df in inputDFList])))

    # Create masterSchema ignoring different Datatype & Nullable  in StructField and treating them same based on Name ignoring cases
    ignoreNullable = lambda x: StructField(x.name, x.dataType, True)

    import itertools


    # to get reliable results by groupby iterable must be sorted by grouping key
    # in sorted function key function( lambda) must be passed as named argument ( keyword argument)
    # but by Sorting Now, I lost original order of columns. Hence I'll use masterColStrList while returning final DF
    masterSchema = StructType([list(y)[0] for x, y in itertools.groupby(
        sorted(reduce(lambda x, y: x + y, [[ignoreNullable(x) for x in df.schema.fields] for df in inputDFList]),
               key=lambda x: x.name),
        lambda x: x.name)])

    def unionExpr(myCols: List[str], allCols: List[str]) -> List[Column]:
        return [F.col(x) if x in myCols else F.lit(None).alias(x) for x in allCols]

    # Create Empty Dataframe
    masterEmptyDF = spark.createDataFrame([], masterSchema)

    return reduce(lambda x, y: x.unionByName(y),
                  [df.select(unionExpr(df.columns, masterColStrList)) for df in inputDFList], masterEmptyDF).select(
        masterColStrList)

其他 2022/1/1 18:26:20 有490人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

Spark-将具有不同架构（列名称和序列）的DataFrame合并/合并到具有Master通用架构的DataFrame

撰写回答

推荐问题

我应该在Spring Boot项目上的哪里存储开发凭证？

JsonResult在ASP.NET CORE 2.1中返回Json

如何在Spring MVC中使用AJAX渲染视图

当我尝试在Spring Boot应用程序中将自定义错误传递给客户端时发生异常

Java Import package.* vs import package.SpecificType

在mysql sproc中使用变量作为表名

在JavaScript中删除数组元素-Delete与Splice

使用Spring Functional Web Framework的REST端点的背压

Spring Boot Jersey和监视URL

带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

Spring JdbcTemplate“插入..选择...”不起作用

JasperReports fillReport太慢且消耗资源

Spring JSP页面未评估

Spring Security自定义过滤器

Spring MVC验证继承的类

Spring Boot CSS被剥离

spring同步方法NOT SYNCHRONIZED

是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

如何使用JSON，jQuery将复杂对象数组发布到ASP.NET MVC Controller？

在Spring MVC控制器中反序列化单属性JSON有效负载

分类汇总

您的鼓励是对我最大的支持