如何安装 Apache Debian 10 上的 Spark

在本教程中，我们将向您展示如何安装 Apache Debian 10 上的 Spark。对于那些不知道的人， Apache Spark 是一个快速且通用的集群计算系统。它提供 Java、Scala 和 Python 中的高级 API，以及支持整体执行图表的优化引擎。它还支持一组丰富的高级工具，包括用于 SQL 和结构化信息处理的 Spark SQL、用于机器学习的 MLlib、用于图形处理的 GraphX 和 Spark Streaming。

本文假设您至少具备 Linux 的基本知识，知道如何使用 shell，最重要的是，您将网站托管在自己的 VPS 上。安装非常简单，假设您在 root 帐户下运行，如果不是，您可能需要添加 ‘sudo‘ 到命令以获取 root 权限。我将向您展示逐步安装 Apache Spark 在 Debian 10 (Buster) 上。

安装 Apache Debian 10 Buster 上的 Spark

第 1 步。在运行下面的教程之前，重要的是通过运行以下命令确保您的系统是最新的 apt 终端中的命令：

sudo apt update

步骤 2. 安装 Java。

Apache Spark 需要 Java 才能运行，让我们确保我们的 Debian 系统上安装了 Java：

sudo apt install default-jdk

使用以下命令验证 Java 版本：

java -version

步骤 3. 安装 Scala。

现在我们在 Debian 系统上安装 Scala 包：

sudo apt install scala

检查 Scala 的版本：

scala -version

步骤 4. 安装 Apache Debian 上的 Spark。

现在我们可以下载 Apache 火花二进制：

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

接下来，提取 Spark tarball：

tar xvf spark-3.1.1-bin-hadoop2.7.tgz sudo mv spark-3.1.1-bin-hadoop2.7/ /opt/spark

完成后，设置 Spark 环境：

nano ~/.bashrc

在文件末尾，添加以下行：

 SPARK_HOME=/opt/spark  PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Save 变化和 close 编辑。要应用更改运行：

source ~/.bashrc

现在开始 Apache Spark 使用这些命令，其中之一是集群的主控：

start-master.sh

要查看如下所示的 Spark Web 用户界面，请打开 Web 浏览器并在端口 8080 上输入 localhost IP 地址：

https://127.0.0.1:8080/

在这个单服务器独立设置中，我们将启动一个从属服务器和主服务器。这 start-slave.sh 命令用于启动 Spark 工作进程：

start-slave.sh spark://ubuntu1:7077

现在一个 worker 已经启动并运行了，如果你重新加载 Spark Master 的 Web UI，你应该会在列表中看到它：

完成配置后，启动主从服务器，测试 Spark shell 是否工作：

spark-shell

恭喜！您已成功安装 Spark。感谢您使用本教程安装最新版本的 Apache Debian 系统上的 Spark。如需更多帮助或有用信息，我们建议您查看官方 Apache 星火网站.

安装 Apache Debian 10 Buster 上的 Spark

Related Posts