Spark DataFrame方法“ toPandas”实际上在做什么？

使用spark将CSV文件读取到中pandas是实现将CSV文件读取到内存的最终目标的一种round回方法。

似乎您可能误解了此处使用的技术的用例。

Spark用于分布式计算（尽管可以在本地使用）。通常，它太重了，无法用于简单地读取CSV文件。

在您的示例中，该sc.textFile方法将简单地为您提供火花RDD，该火花RDD实际上是文本行列表。这可能不是您想要的。不会执行类型推断，因此，如果您想对CSV文件中的一列数字求和，则将无法执行，因为就Spark而言，它们仍然是字符串。

只需使用pandas.read_csv并将整个CSV读取到内存中即可。熊猫会自动推断每列的类型。Spark不会这样做。

现在回答您的问题：

：

是。toPandas()会将Spark DataFrame转换成Pandas DataFrame，它当然在内存中。

否。熊猫运行自己的计算，spark和pandas之间没有相互作用，仅存在一些 API兼容性。

否。例如，Series对象具有interpolatePySparkColumn对象中不可用的方法。Pandas API中有很多方法和函数，而PySpark API中没有。

绝对。实际上，在这种情况下，您甚至根本不应该使用Spark。pandas.read_csv除非你是一个工作很可能会处理你的使用情况庞大的数据量。

尝试使用简单，技术含量低，易于理解的库来解决您的问题，并且仅在需要时才去处理更复杂的问题。很多时候，您将不需要更复杂的技术。

其他 2022/1/1 18:38:09 有512人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

我应该在Spring Boot项目上的哪里存储开发凭证？

我应该在Spring Boot项目上的哪里存储开发凭证？

Java 2022-01-01 993
JsonResult在ASP.NET CORE 2.1中返回Json

JsonResult在ASP.NET CORE 2.1中返回Json

dotnet 2022-01-01 1081
如何在Spring MVC中使用AJAX渲染视图

如何在Spring MVC中使用AJAX渲染视图

Java 2022-01-01 1248
当我尝试在Spring Boot应用程序中将自定义错误传递给客户端时发生异常

当我尝试在Spring Boot应用程序中将自定义错误传递给客户端时发生异常

Java 2022-01-01 1098
Java Import package.* vs import package.SpecificType

Java Import package.* vs import package.SpecificType

java 2022-01-01 1138
在mysql sproc中使用变量作为表名

在mysql sproc中使用变量作为表名

MySQL 2022-01-01 1212
在JavaScript中删除数组元素-Delete与Splice

在JavaScript中删除数组元素-Delete与Splice

SQL 2022-01-01 1245
使用Spring Functional Web Framework的REST端点的背压

使用Spring Functional Web Framework的REST端点的背压

Java 2022-01-01 1238
Spring Boot Jersey和监视URL

Spring Boot Jersey和监视URL

Java 2022-01-01 1022
带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

Java 2022-01-01 1096
Spring JdbcTemplate“插入..选择...”不起作用

Spring JdbcTemplate“插入..选择...”不起作用

Java 2022-01-01 1004
JasperReports fillReport太慢且消耗资源

JasperReports fillReport太慢且消耗资源

其他 2022-01-01 1197
Spring JSP页面未评估

Spring JSP页面未评估

Java 2022-01-01 1017
Spring Security自定义过滤器

Spring Security自定义过滤器

Java 2022-01-01 979
Spring MVC验证继承的类

Spring MVC验证继承的类

Java 2022-01-01 1048
Spring Boot CSS被剥离

Spring Boot CSS被剥离

CSS 2022-01-01 1067
spring同步方法NOT SYNCHRONIZED

spring同步方法NOT SYNCHRONIZED

Java 2022-01-01 1043
是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

MySQL 2022-01-01 1184
如何使用JSON，jQuery将复杂对象数组发布到ASP.NET MVC Controller？

如何使用JSON，jQuery将复杂对象数组发布到ASP.NET MVC Controller？

dotnet 2022-01-01 1127
在Spring MVC控制器中反序列化单属性JSON有效负载

在Spring MVC控制器中反序列化单属性JSON有效负载

Java 2022-01-01 1081

Spark DataFrame方法“ toPandas”实际上在做什么？

撰写回答

推荐问题

我应该在Spring Boot项目上的哪里存储开发凭证？

JsonResult在ASP.NET CORE 2.1中返回Json

如何在Spring MVC中使用AJAX渲染视图

当我尝试在Spring Boot应用程序中将自定义错误传递给客户端时发生异常

Java Import package.* vs import package.SpecificType

在mysql sproc中使用变量作为表名

在JavaScript中删除数组元素-Delete与Splice

使用Spring Functional Web Framework的REST端点的背压

Spring Boot Jersey和监视URL

带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

Spring JdbcTemplate“插入..选择...”不起作用

JasperReports fillReport太慢且消耗资源

Spring JSP页面未评估

Spring Security自定义过滤器

Spring MVC验证继承的类

Spring Boot CSS被剥离

spring同步方法NOT SYNCHRONIZED

是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

如何使用JSON，jQuery将复杂对象数组发布到ASP.NET MVC Controller？

在Spring MVC控制器中反序列化单属性JSON有效负载

分类汇总

您的鼓励是对我最大的支持