在本教程中,我们将向您展示如何安装 Apache Debian 10 上的 Spark。对于那些不知道的人, Apache Spark 是一个快速且通用的集群计算系统。 它提供 Java、Scala 和 Python 中的高级 API,以及支持整体执行图表的优化引擎。 它还支持一组丰富的高级工具,包括用于 SQL 和结构化信息处理的 Spark SQL、用于机器学习的 MLlib、用于图形处理的 GraphX 和 Spark Streaming。
本文假设您至少具备 Linux 的基本知识,知道如何使用 shell,最重要的是,您将网站托管在自己的 VPS 上。 安装非常简单,假设您在 root 帐户下运行,如果不是,您可能需要添加 ‘sudo
‘ 到命令以获取 root 权限。 我将向您展示逐步安装 Apache Spark 在 Debian 10 (Buster) 上。
安装 Apache Debian 10 Buster 上的 Spark
第 1 步。在运行下面的教程之前,重要的是通过运行以下命令确保您的系统是最新的 apt
终端中的命令:
sudo apt update
步骤 2. 安装 Java。
Apache Spark 需要 Java 才能运行,让我们确保我们的 Debian 系统上安装了 Java:
sudo apt install default-jdk
使用以下命令验证 Java 版本:
java -version
步骤 3. 安装 Scala。
现在我们在 Debian 系统上安装 Scala 包:
sudo apt install scala
检查 Scala 的版本:
scala -version
步骤 4. 安装 Apache Debian 上的 Spark。
现在我们可以下载 Apache 火花二进制:
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
接下来,提取 Spark tarball:
tar xvf spark-3.1.1-bin-hadoop2.7.tgz sudo mv spark-3.1.1-bin-hadoop2.7/ /opt/spark
完成后,设置 Spark 环境:
nano ~/.bashrc
在文件末尾,添加以下行:
SPARK_HOME=/opt/spark PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Save 变化和 close 编辑。 要应用更改运行:
source ~/.bashrc
现在开始 Apache Spark 使用这些命令,其中之一是集群的主控:
start-master.sh
要查看如下所示的 Spark Web 用户界面,请打开 Web 浏览器并在端口 8080 上输入 localhost IP 地址:
https://127.0.0.1:8080/
在这个单服务器独立设置中,我们将启动一个从属服务器和主服务器。 这 start-slave.sh
命令用于启动 Spark 工作进程:
start-slave.sh spark://ubuntu1:7077
现在一个 worker 已经启动并运行了,如果你重新加载 Spark Master 的 Web UI,你应该会在列表中看到它:
完成配置后,启动主从服务器,测试 Spark shell 是否工作:
spark-shell
恭喜! 您已成功安装 Spark。 感谢您使用本教程安装最新版本的 Apache Debian 系统上的 Spark。 如需更多帮助或有用信息,我们建议您查看 官方 Apache 星火网站.