pyspark下载与环境设置

前提: 安装pyspark之前,要检查电脑是否安装了JAVA环境,可以用命令java -version来查看。
参考链接:Centos下JDK的安装与卸载

  • Centos下JDK的安装

    1. 查看yum库中有哪些可用的JDK版本:yum search java | grep jdk
    2. 选择版本安装JDK,可以用yum install java-1.8.0-openjdk-devel.x86_64命令来安装JAVA环境。
  • Centos下JDK的卸载

    1. 先查看系统中安装了哪些rpm软件包,查看相关Java包的信息:
      rpm -qa | grep java
    2. 卸载已安装的JDK: yum -y remove java <包名>,比如yum -y remove java java-1.6.0-openjdk-1.6.0.38-1.13.10.0.el7_2.x86_64

在清华大学镜像源http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz下载pyspark安装包。

遇到的问题

  1. ./bin/pyspark启动pyspark时,报以下错误:
    1
    Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/spark/launcher/Main : Unsupported major.minor version 52.0

出错原因是:pyspark 2.1需要Java 1.7以上的版本,而安装的Java版本是1.6的。

  1. 在python代码中调用pyspark报错:
    1
    ModuleNotFoundError: No module named 'py4j'

这是因为~/.bashrc中py4j的版本与实际的版本不同。修改~/.bashrc中py4j的版本为实际的版本即可。
参考链接:https://blog.csdn.net/skyejy/article/details/90690742

参考链接