开发手册 欢迎您!
软件开发者资料库

PySpark - 环境设置

PySpark环境设置 - 从简单和简单的步骤学习PySpark,从基本到高级概念,包括简介,环境设置,SparkContext,RDD,广播和累积器,SparkConf,SparkFiles,StorageLevel,MLlib,Serializers。

在本章中,我们将了解PySpark的环境设置.

注意 : 这是考虑到您的计算机上安装了Java和Scala.

现在让我们按照以下步骤下载并设置PySpark.

第1步 : 转到官方的Apache Spark 下载页面,下载最新版本的Apache Spark.在本教程中,我们使用 spark-2.1.0-bin-hadoop2.7 .

第2步 : 现在,解压缩下载的Spark tar文件.默认情况下,它将下载到下载目录中.

 #tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7. tgz

它将创建一个目录 spark-2.1.0-bin-hadoop2.7 .在启动PySpark之前,您需要设置以下环境来设置Spark路径和 Py4j路径.

  export SPARK_HOME =/home/hadoop/spark-2.1.0-bin-hadoop2.7  export PATH = $ PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin  export PYTHONPATH = $ SPARK_HOME/python:$ SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$ PYTHONPATH  export PATH = $ SPARK_HOME/python:$ PATH

或者,要全局设置上述环境,请将它们放在 .bashrc文件中.然后运行以下命令以使环境起作用.

 #source .bashrc

现在我们已经设置了所有环境,让我们转到Spark目录并通过运行以下命令调用PySpark shell :

 #./bin/pyspark

这将启动你的PySpark shell.

Python 2.7.12 (default, Nov 19 2016, 06:48:10) [GCC 5.4.0 20160609] on linux2Type "help", "copyright", "credits" or "license" for more information.Welcome to      ____              __     / __/__  ___ _____/ /__    _\ \/ _ \/ _ `/ __/  '_/   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0      /_/Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)SparkSession available as 'spark'.<<<