您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

如何在PySpark中将数据框保存到Elasticsearch?

如何在PySpark中将数据框保存到Elasticsearch?

使用pyspark --packages org.elasticsearch:elasticsearch- hadoop:7.2.0和使用format("es"),以引用连接器。

从Elasticsearch for Apache Hadoop产品的官方文档中引用安装

就像其他库一样,elasticsearch-hadoop必须在Spark的类路径中可用。

以及稍后在受支持的Spark SQL版本中

elasticsearch-hadoop通过两个不同的jar支持Spark sql 1.3-1.6版本和Spark sql 2.0版本:elasticsearch-spark-1.x-<version>.jarelasticsearch- hadoop-<version>.jar

elasticsearch-spark-2.0-<version>.jar 支持Spark sql 2.0

这看起来像是文档的问题(因为它们使用jar文件的两个不同版本),但这确实意味着您必须在Spark应用程序的CLASSPATH上使用正确的jar文件

然后在同一文档中

可以在org.elasticsearch.spark.sql软件包下获得Spark sql支持

这仅表示(中的df.write.format('org.elasticsearch.spark.sql'))格式正确。

在@L_403_3@更下方,您甚至可以使用别名df.write.format("es")(!)。

我在GitHub上的项目存储库中找到了Apache Spark部分,更具可读性和最新性。

其他 2022/1/1 18:18:49 有436人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶