使用pyspark --packages org.elasticsearch:elasticsearch- hadoop:7.2.0
和使用format("es")
,以引用连接器。
从Elasticsearch for Apache Hadoop产品的官方文档中引用安装:
就像其他库一样,elasticsearch-hadoop必须在Spark的类路径中可用。
以及稍后在受支持的Spark SQL版本中:
elasticsearch-hadoop通过两个不同的jar支持Spark sql 1.3-1.6版本和Spark sql 2.0版本:elasticsearch-spark-1.x-<version>.jar
和elasticsearch- hadoop-<version>.jar
elasticsearch-spark-2.0-<version>.jar
支持Spark sql 2.0
这看起来像是文档的问题(因为它们使用jar文件的两个不同版本),但这确实意味着您必须在Spark应用程序的CLASSPATH上使用正确的jar文件。
然后在同一文档中:
可以在org.elasticsearch.spark.sql软件包下获得Spark sql支持。
这仅表示(中的df.write.format('org.elasticsearch.spark.sql')
)格式正确。
在@L_403_3@更下方,您甚至可以使用别名df.write.format("es")
(!)。
我在GitHub上的项目存储库中找到了Apache Spark部分,更具可读性和最新性。