您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

配置Spark以与Jupyter Notebook和Anaconda一起使用

配置Spark以与Jupyter Notebook和Anaconda一起使用

Conda可以帮助正确管理很多依赖项…

安装火花。假设spark安装在/ opt / spark中,请将其包含在?/ .bashrc中:

export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH

创建一个conda环境,其中包含除spark之外的所有必需依赖项:

conda create -n findspark-jupyter-openjdk8-py3 -c conda-forge python=3.5 jupyter=1.0 notebook=5.0 openjdk=8.0.144 findspark=1.1.0

激活环境

$ source activate findspark-jupyter-openjdk8-py3

启动Jupyter Notebook服务器:

$ jupyter notebook

在浏览器中,创建一个新的python3笔记本

试着用下面的脚本(从借来的计算PI这个

import findspark
findspark.init()
import pyspark
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()
其他 2022/1/1 18:50:49 有382人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶