谁能在Spark中为`combineByKey`提供清晰的解释？

该groupByKey调用不会尝试合并/合并值，因此这是一项昂贵的操作。

因此，combineByKey调用就是这样的优化。当使用combineByKey值在每个分区上合并为一个值时，则每个分区值将合并为单个值。值得注意的是，合并值的类型不必与原始值的类型匹配，并且通常不需要。该combineByKey函数以3个函数作为参数：

创建组合器的函数。在aggregateByKey函数中，第一个参数只是一个初始零值。在其中，combineByKey我们提供了一个接受当前值作为参数并返回将与其他值合并的新值的函数。

第二个函数是合并函数，它采用一个值并将其合并/合并为以前收集的值。

第三个功能将合并的值组合在一起。基本上，此函数采用在分区级别产生的新值并将其组合，直到最终得到一个奇异值。

换句话说，要理解combineByKey，考虑一下它如何处理所处理的每个元素很有用。如combineByKey通过在一个分区中的元素进入，每个元件或者具有它之前还没有看到一个键或具有相同的密钥作为前一个元素。

如果是新元素，请combineByKey使用我们提供的称为的函数createCombiner()在该键上为累加器创建初始值。重要的是要注意，这是在每个分区中第一次找到密钥时发生的，而不是第一次在RDD中发现密钥时发生。

如果它是我们在处理该分区时以前见过的值，它将使用提供的函数，mergeValue()该键的累加器的当前值和新值。

由于每个分区都是独立处理的，因此对于同一个密钥，我们可以有多个累加器。当我们合并每个分区的结果时，如果两个或多个分区具有同一键的累加器，我们将使用用户提供的mergeCombiners()功能合并累加器。

其他 2022/1/1 18:45:22 有569人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

谁能解释servlet映射？

谁能解释servlet映射？

Jave 2022-01-01 594
谁能解释线程监视器并等待？

谁能解释线程监视器并等待？

其他 2022-01-01 530
谁能识别这种编码？

谁能识别这种编码？

其他 2022-01-01 547
谁能举一个小小的例子来解释tf.random.categorical的参数？

谁能举一个小小的例子来解释tf.random.categorical的参数？

Go 2022-01-01 542
谁能解释我StandardScaler？

谁能解释我StandardScaler？

其他 2022-01-01 512
谁能在Spark中为`combineByKey`提供清晰的解释？

谁能在Spark中为`combineByKey`提供清晰的解释？

其他 2022-01-01 569
谁能解释python的相对导入？

谁能解释python的相对导入？

python 2022-01-01 529
UNIX上Mysql中的错误代码13。谁能帮我？

UNIX上Mysql中的错误代码13。谁能帮我？

MySQL 2022-01-01 465
当我执行Flask运行时，它显示错误：ModuleNotFoundError：没有名为“ werkzeug.contrib”的模块。谁能帮我这个？

当我执行Flask运行时，它显示错误：ModuleNotFoundError：没有名为“ werkzeug.contrib”的模块。谁能帮我这个？

Python 2022-01-01 469
我应该在Spring Boot项目上的哪里存储开发凭证？

我应该在Spring Boot项目上的哪里存储开发凭证？

Java 2022-01-01 997
JsonResult在ASP.NET CORE 2.1中返回Json

JsonResult在ASP.NET CORE 2.1中返回Json

dotnet 2022-01-01 1086
如何在Spring MVC中使用AJAX渲染视图

如何在Spring MVC中使用AJAX渲染视图

Java 2022-01-01 1250
当我尝试在Spring Boot应用程序中将自定义错误传递给客户端时发生异常

当我尝试在Spring Boot应用程序中将自定义错误传递给客户端时发生异常

Java 2022-01-01 1102
Java Import package.* vs import package.SpecificType

Java Import package.* vs import package.SpecificType

java 2022-01-01 1140
在mysql sproc中使用变量作为表名

在mysql sproc中使用变量作为表名

MySQL 2022-01-01 1215
在JavaScript中删除数组元素-Delete与Splice

在JavaScript中删除数组元素-Delete与Splice

SQL 2022-01-01 1249
使用Spring Functional Web Framework的REST端点的背压

使用Spring Functional Web Framework的REST端点的背压

Java 2022-01-01 1243
Spring Boot Jersey和监视URL

Spring Boot Jersey和监视URL

Java 2022-01-01 1028
带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

Java 2022-01-01 1099
Spring JdbcTemplate“插入..选择...”不起作用

Spring JdbcTemplate“插入..选择...”不起作用

Java 2022-01-01 1006
JasperReports fillReport太慢且消耗资源

JasperReports fillReport太慢且消耗资源

其他 2022-01-01 1200
Spring JSP页面未评估

Spring JSP页面未评估

Java 2022-01-01 1020
Spring Security自定义过滤器

Spring Security自定义过滤器

Java 2022-01-01 983
Spring MVC验证继承的类

Spring MVC验证继承的类

Java 2022-01-01 1053
Spring Boot CSS被剥离

Spring Boot CSS被剥离

CSS 2022-01-01 1070
spring同步方法NOT SYNCHRONIZED

spring同步方法NOT SYNCHRONIZED

Java 2022-01-01 1045
是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

MySQL 2022-01-01 1186
如何使用JSON，jQuery将复杂对象数组发布到ASP.NET MVC Controller？

如何使用JSON，jQuery将复杂对象数组发布到ASP.NET MVC Controller？

dotnet 2022-01-01 1130
在Spring MVC控制器中反序列化单属性JSON有效负载

在Spring MVC控制器中反序列化单属性JSON有效负载

Java 2022-01-01 1083

谁能在Spark中为`combineByKey`提供清晰的解释？

撰写回答

推荐问题

谁能解释servlet映射？

谁能解释线程监视器并等待？

谁能识别这种编码？

谁能举一个小小的例子来解释tf.random.categorical的参数？

谁能解释我StandardScaler？

谁能在Spark中为`combineByKey`提供清晰的解释？

谁能解释python的相对导入？

UNIX上Mysql中的错误代码13。谁能帮我？

当我执行Flask运行时，它显示错误：ModuleNotFoundError：没有名为“ werkzeug.contrib”的模块。谁能帮我这个？

我应该在Spring Boot项目上的哪里存储开发凭证？

JsonResult在ASP.NET CORE 2.1中返回Json

如何在Spring MVC中使用AJAX渲染视图

当我尝试在Spring Boot应用程序中将自定义错误传递给客户端时发生异常

Java Import package.* vs import package.SpecificType

在mysql sproc中使用变量作为表名

在JavaScript中删除数组元素-Delete与Splice

使用Spring Functional Web Framework的REST端点的背压

Spring Boot Jersey和监视URL

带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

Spring JdbcTemplate“插入..选择...”不起作用

JasperReports fillReport太慢且消耗资源

Spring JSP页面未评估

Spring Security自定义过滤器

Spring MVC验证继承的类

Spring Boot CSS被剥离

spring同步方法NOT SYNCHRONIZED

是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

如何使用JSON，jQuery将复杂对象数组发布到ASP.NET MVC Controller？

在Spring MVC控制器中反序列化单属性JSON有效负载

分类汇总

您的鼓励是对我最大的支持