pyspark下载与环境设置
前提: 安装pyspark之前,要检查电脑是否安装了JAVA环境,可以用命令java -version
来查看。
参考链接:Centos下JDK的安装与卸载
Centos下JDK的安装
- 查看yum库中有哪些可用的JDK版本:
yum search java | grep jdk
。 - 选择版本安装JDK,可以用
yum install java-1.8.0-openjdk-devel.x86_64
命令来安装JAVA环境。
- 查看yum库中有哪些可用的JDK版本:
Centos下JDK的卸载
- 先查看系统中安装了哪些rpm软件包,查看相关Java包的信息:
rpm -qa | grep java
- 卸载已安装的JDK:
yum -y remove java <包名>
,比如yum -y remove java java-1.6.0-openjdk-1.6.0.38-1.13.10.0.el7_2.x86_64
。
- 先查看系统中安装了哪些rpm软件包,查看相关Java包的信息:
在清华大学镜像源http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz下载pyspark安装包。
遇到的问题
- 在
./bin/pyspark
启动pyspark时,报以下错误:1
Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/spark/launcher/Main : Unsupported major.minor version 52.0
出错原因是:pyspark 2.1需要Java 1.7以上的版本,而安装的Java版本是1.6的。
- 在python代码中调用pyspark报错:
1
ModuleNotFoundError: No module named 'py4j'
这是因为~/.bashrc
中py4j的版本与实际的版本不同。修改~/.bashrc
中py4j的版本为实际的版本即可。
参考链接:https://blog.csdn.net/skyejy/article/details/90690742