捆绑用于PySpark的Python3软件包会导致导入丢失

：有一个内聚的回购，其中包含一个示例项目，该项目非常出色。您应该看一下，尤其是如果下面的示例对您不起作用时。仓库在这里：https : //github.com/massmutual/sample-pyspark- application 并包括在YARN上运行的以下示例：https ://github.com/massmutual/sample-pyspark-application/blob/master/setup -and- submit.sh 要求您首先导出几个环境变量。（我提供的值特定于EMR，因此您的值可能有所不同。）

export HADOOP_CONF_DIR="/etc/hadoop/conf"
export PYTHON="/usr/bin/python3"
export SPARK_HOME="/usr/lib/spark"
export PATH="$SPARK_HOME/bin:$PATH"

如此处所述：我似乎无法在Spark上使–py- files正常工作，有必要使用诸如virtualenv之类的东西（或者conda可能起作用），以避免遇到与Python包的C库编译相关的问题（（例如Numpy）依赖于底层硬件体系结构，其方式由于依赖项和/或任务节点中的硬链接可能与主节点实例的硬件不同而无法成功移植到群集中的其他计算机。

--archives和–py- files之间的一些区别在这里讨论：在pyspark作业中运送和使用virtualenv

我建议将–archives与virtualenv一起使用，以提供包含程序包依赖项的压缩文件，以避免我上面提到的某些问题。

例如，在Amazon Elastic Map Reduce（EMR）集群中，虽然将它ssh到了主实例中，但是我能够成功地使用spark- submit从virtualenv环境中执行测试python脚本，如下所示：

pip-3.4 freeze | egrep -v sagemaker > requirements.txt
# Above line is just in case you want to port installed packages across environments.
virtualenv -p python3 spark_env3
virtualenv -p python3 --relocatable spark_env3
source spark_env3/bin/activate
sudo pip-3.4 install -U pandas boto3 findspark jaydebeapi
# Note that the above libraries weren't required for the test script, but I'm showing how you can add additional dependencies if needed.
sudo pip-3.4 install -r requirements.txt
# The above line is just to show how you can load from a requirements file if needed.
cd spark_env3
# We must cd into the directory before we zip it for Spark to find the resources. 
zip -r ../spark_env3_inside.zip *
# Be sure to cd back out after building the zip file. 
cd ..

PYSPARK_PYTHON=./spark_env3/bin/python3 spark-submit \ 
  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./spark_env3/bin/python3 \
  --master yarn-cluster \
  --archives /home/hadoop/spark_env3_inside.zip#spark_env3 \
  test_spark.py

，如下所述：在yarn上使用spark-submit的– archives选项上载zip文件。

我正在运行的测试脚本的来源来自这篇文章，该文章讨论了使用conda而不是virtualenv来运行pyspark作业：http ://quasiben.github.io/blog/2016/4/15/conda-spark/

并包含test_spark.py脚本的以下代码：

# test_spark.py
import os
import sys
from pyspark import SparkContext
from pyspark import SparkConf

conf = SparkConf()
conf.setAppName("get-hosts")

sc = SparkContext(conf=conf)

def noop(x):
    import socket
    import sys
    return socket.gethostname() + ' '.join(sys.path) + ' '.join(os.environ)

rdd = sc.parallelize(range(1000), 100)
hosts = rdd.map(noop).distinct().collect()
print(hosts)

如果您想要一些有关使用virtualenv执行pyspark作业的背景信息（如@Mariusz所述），此博客中有一个有用的示例：https ://henning.kropponline.de/2016/09/17/running-pyspark-with-virtualenv /（尽管它不能解释我在提供的其他链接中阐明的一些细微差别）。

这里提供的答案中还有一个示例：未在PySpark中加载的Elephas：没有名为elephas.spark_model的模块

这里还有另一个示例：https ://community.hortonworks.com/articles/104947/using-virtualenv-with- pyspark.html

python 2022/1/1 18:50:43 有532人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

捆绑软件激活器无效

捆绑软件激活器无效

其他 2022-01-01 695
捆绑软件不包括.min文件

捆绑软件不包括.min文件

其他 2022-01-01 608
如何将CA证书捆绑包拆分为单独的文件？

如何将CA证书捆绑包拆分为单独的文件？

其他 2022-01-01 739
OS X上的Java：如果.app软件包包含JVM捆绑包，则“ open”命令将无法运行

OS X上的Java：如果.app软件包包含JVM捆绑包，则“ open”命令将无法运行

java 2022-01-01 657
在Go程序中捆绑静态资源的最佳方法是什么？

在Go程序中捆绑静态资源的最佳方法是什么？

Go 2022-01-01 506
将资产从捆绑包复制到文件系统

将资产从捆绑包复制到文件系统

其他 2022-01-01 551
Python-使用PyInstaller捆绑数据文件（--onefile）

Python-使用PyInstaller捆绑数据文件（--onefile）

python 2022-01-01 514
cx_freeze和捆绑文件

cx_freeze和捆绑文件

其他 2022-01-01 675
使用选项卡式活动中的捆绑将值从活动传递到片段

使用选项卡式活动中的捆绑将值从活动传递到片段

其他 2022-01-01 514
捆绑多个工件进行部署？

捆绑多个工件进行部署？

其他 2022-01-01 592
我将rasterio捆绑到可执行文件中时出了点问题

我将rasterio捆绑到可执行文件中时出了点问题

其他 2022-01-01 604
如何将所有python代码捆绑到一个zip文件中？

如何将所有python代码捆绑到一个zip文件中？

python 2022-01-01 536
配置Eclipse以将App Engine类预先捆绑到单个JAR中，以加快预热时间

配置Eclipse以将App Engine类预先捆绑到单个JAR中，以加快预热时间

其他 2022-01-01 636
捆绑包正在等待名称空间处理程序[http://camel.apache.org/schema/blueprint]

捆绑包正在等待名称空间处理程序[http://camel.apache.org/schema/blueprint]

其他 2022-01-01 638
更新捆绑的资源文件

更新捆绑的资源文件

其他 2022-01-01 559
如何在cx_freeze msi捆绑包中设置快捷方式工作目录？

如何在cx_freeze msi捆绑包中设置快捷方式工作目录？

其他 2022-01-01 507
pyinstaller捆绑python应用程序后，如何修复“ ImportError：在PATH上找不到Qt5Core.dll”

pyinstaller捆绑python应用程序后，如何修复“ ImportError：在PATH上找不到Qt5Core.dll”

python 2022-01-01 571
我可以在其他捆绑软件发布的Blueprint服务之前注入代理吗？

我可以在其他捆绑软件发布的Blueprint服务之前注入代理吗？

其他 2022-01-01 517
捆绑用于PySpark的Python3软件包会导致导入丢失

捆绑用于PySpark的Python3软件包会导致导入丢失

python 2022-01-01 532
Django相当于PHP的表单值数组/关联数组

Django相当于PHP的表单值数组/关联数组

php 2022-01-01 895
Mac上的Python中的Selenium-Geckodriver可执行文件必须位于PATH中

Mac上的Python中的Selenium-Geckodriver可执行文件必须位于PATH中

python 2022-01-01 599
相当于php的hmac-SHA1的java

相当于php的hmac-SHA1的java

php 2022-01-01 688
用于Python和C ++应用程序的简单但快速的IPC方法？

用于Python和C ++应用程序的简单但快速的IPC方法？

python 2022-01-01 735
适用于PHP的健壮成熟的HTML解析器

适用于PHP的健壮成熟的HTML解析器

php 2022-01-01 470
UTF-8安全等效于PHP中的ord或charCodeAt（）

UTF-8安全等效于PHP中的ord或charCodeAt（）

php 2022-01-01 592
WebDriverException：消息：通过Selenium Chromedriver Phyton设置UserAgent时，“ chromedriver”可执行文件必须位于PATH中

WebDriverException：消息：通过Selenium Chromedriver Phyton设置UserAgent时，“ chromedriver”可执行文件必须位于PATH中

其他 2022-01-01 599
Java相当于PHP的preg_replace_callback

Java相当于PHP的preg_replace_callback

php 2022-01-01 655
类似于python matplotlib的Java绘图库

类似于python matplotlib的Java绘图库

python 2022-01-01 621
相当于Python中变量的`final`关键字吗？

相当于Python中变量的`final`关键字吗？

python 2022-01-01 786
关于Python3.4.1客户端中的char b前缀连接到Redis

关于Python3.4.1客户端中的char b前缀连接到Redis

python 2022-01-01 720
如何使用python pandas从Docker容器访问CSV文件（位于pc hdd中）？

如何使用python pandas从Docker容器访问CSV文件（位于pc hdd中）？

python 2022-01-01 672
VisibilityOfElementLocated相对于presentOfElementLocated

VisibilityOfElementLocated相对于presentOfElementLocated

其他 2022-01-01 647
MySQL等同于PostgreSQL的EXPLAIN ANALYZE

MySQL等同于PostgreSQL的EXPLAIN ANALYZE

MySQL 2022-01-01 594
适用于PHP的parse and process的HTML解析器

适用于PHP的parse and process的HTML解析器

php 2022-01-01 509
Spring Boot中的HTML模板类似于play框架

Spring Boot中的HTML模板类似于play框架

Java 2022-01-01 557
用于python脚本的shell启动/停止

用于python脚本的shell启动/停止

python 2022-01-01 523
405不允许用于POST的方法

405不允许用于POST的方法

其他 2022-01-01 524
reCAPTCHA-错误代码：在验证用户的响应时（缺少关于POST的详细信息），“缺少输入响应”，“缺少输入秘密”

reCAPTCHA-错误代码：在验证用户的响应时（缺少关于POST的详细信息），“缺少输入响应”，“缺少输入秘密”

其他 2022-01-01 794
关于putenv（）和setenv（）的问题

关于putenv（）和setenv（）的问题

其他 2022-01-01 493

捆绑用于PySpark的Python3软件包会导致导入丢失

撰写回答

推荐问题

分类汇总

您的鼓励是对我最大的支持