Spark 1.6.0

在Amazon EC2上运行Spark

Spark的ec2目录下有一个spark-ec2脚本，可以帮助你在Amazon EC2上启动、管理、关闭Spark集群。该脚本能在EC2集群上自动设置好Spark和HDFS。本文将会详细描述如何利用spark-ec2脚本来启动和关闭集群，以及如何在集群提交作业。当然，首先你必须在Amazon Web Services site上注册一个EC2的账户。

spark-ec2可以管理多个命名集群。你可以用它来启动一个新集群（需要提供集群大小和集群名称），关闭一个已有的集群，或者登陆到一个集群。每一个集群的机器将会被划分到不同的EC2安全组（EC2 security groups）当中，而这些安全组的名字是由集群的名称派生而来。例如，对于一个命名为test的集群，其主节点（master）将被分到一个叫test-master的安全组，而其他从节点（slave）将被分配到test-slaves安全组。spark-ec2脚本会自动根据你提供的集群名称，来创建安全组。你可以在EC2的控制台（Amazon EC2 Console）中使用这些名字。

准备工作

首先，你需要创建Amazon EC2 key pair 。这需要登陆Amazon Web Services账号，在AWS控制台（AWS console）上点击侧边栏上的Key Pairs来创建，并下载。同时，你要确保给这私匙文件附上600权限（即：可读可写）以便使用ssh登陆。
使用spark-ec2的时候，一定要设置好这两个环境变量， AWS_ACCESS_KEY_ID 和AWS_SECRET_ACCESS_KEY，并使其指向你的Amazon EC2 access key ID 和 secret access key。这些都可以在AWS主页（AWS homepage）上，点击 Account > Security Credentials > Access Credentials获得。

启动集群

切换到你下载的spark的ec2目录下
运行命令./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>，其中<keypair>是你的Amazon EC2 key pair的名字（你创建Amazon EC2 key pair的时候所指定的名字），<key-file>是Amazon EC2 key pair的私钥（private key）文件，<num-slaves>是slave节点个数（至少是1），<cluster-name>是你指定的集群名称。

例如：

bash export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU /
export AWS_ACCESS_KEY_ID=ABCDEFG1234567890123

./spark-ec2 --key-pair=awskey /
--identity-file=awskey.pem /
--region=us-west-1 /
--zone=us-west-1a /
launch my-spark-cluster

集群启动完成后，检查一下集群调度器是否启动，同时，你可以在Web UI上查看是否所有的slave节点都正确的展示出来了，Web UI的链接在脚本执行完以后会打印在屏幕上（通常这个链接是 http://<master-hostname>:8080）

你可以运行./spark-ec2 –help 来查看更多的选项。以下是比较重要的一些选项：

–instance-type=<instance-type> 可以指定EC2机器的实例类型。目前，该脚本只支持64-bit的实例类型。
–region=<ec2-region>可以指定EC2集群部署于哪个地域，默认地域是 us-east-1。
–zone=<ec2-zone>可以指定EC2集群实例部署在哪些地区（EC2的可用地区）。指定这个参数时注意，有时候因为在某些地区可能出现容量不够，因此你可能需要在其他地区启动EC2集群。
–ebs-vol-size=<GB>可以在每个节点上附加一个EBS（弹性可持续存储）卷，并指定其总容量，这些存储时可持久化的，即使集群重启也不会丢失。
–spot-price=<price> 将启动竞价型实例（Spot Instances）工作节点，这些节点可以按需分配，可竞价，并且可以设定竞价最高价格（以美元计）。
–spark-version=<version> 可以在集群中预先加载指定版本的spark。<version>可以是一个版本号（如：0.7.3）或者是一个git hash值。默认会使用最新版本的spark。
–spark-git-repo=<repository url> 可以指定一个自定义的git库，从而下载并部署该git库中特定的spark构建版本。默认使用Apache Github mirror 。如果同时指定了spark版本，那么–spark-version参数值不能使用版本号，而必须是一个git提交对应的git commit hash（如：317e114）。
如果启动过程中由于某些原因失败了（如：没有给private key文件设定正确的文件权限），你可以用–resume选项来重启并继续已有集群的部署过程。

在VPC（Amazon Virtual Private Cloud）上启动集群

运行 ./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> –vpc-id=<vpc-id> -subnet-id=<subnet-id> launch <cluster-name>，其中，<keypair>是你的EC2 key pair（之前已经创建的），<key-file>是key pair中的私钥文件，<num-slaves> 是从节点个数（如果你是第一次用，可以先设成1），<vpc-id> 是VPC的名称，<subnet-id> 是你的子网名称，最后<cluster-name>是你的集群名称。

例如：

bash export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU /
export AWS_ACCESS_KEY_ID=ABCDEFG1234567890123 

./spark-ec2 --key-pair=awskey /
--identity-file=awskey.pem /
--region=us-west-1 /
--zone=us-west-1a /
--vpc-id=vpc-a28d24c7 /
--subnet-id=subnet-4eb27b39 /
--spark-version=1.1.0 /
launch my-spark-cluster

运行应用

转到你下载的spark的ec2目录下
执行 ./spark-ec2 -k <keypair> -i <key-file> login <cluster-name> 远程登录到你的EC2集群，其中，<keypair> 和<key-file> 的说明见本文上面（这里只是为了方便说明，你也可以使用EC2的控制台）
如果需要把代码或数据部署到EC2集群中，你可以在登录后，使用脚本 ~/spark-ec2/copy-dir，并指定一个需要RSYNC同步到所有从节点（slave）上的目录。
如果你的应用需要访问一个很大的数据集，最快的方式就是从Amazon S3或者Amazon EBS设备上加载这些数据，然后放到你集群中的HDFS上。spark-ec2脚本已经为你设置好了一个HDFS，其安装目录为/root/ephemeral-hdfs，并且可以使用该目录下的bin/hadoop脚本访问。需要特别注意的是，这个HDFS上的数据，在集群停止或重启后，会被自动删掉。
集群中也有可以持久的HDFS，其安装路径为/root/persistent-hdfs，这个HDFS保存的数据即使集群重启也不会丢失。但一般情况下，这个HDFS在每个节点上可使用的空间较少（约为3GB），你可以用spark-ec2的选项–ebs-vol-size来指定每个节点上持久化HDFS所使用的空间大小。
最后，如果你的应用出错，你可以看看改应用在slave节点的日志，日志位于调度器工作目录下（/root/spark/work）。当然，你也可以通过web UI（http://<master-hostname>:8080）查看一下集群状态。

配置

你可以编辑每个节点上的/root/spark/conf/spark-env.sh文件来设置Spark配置选项（如：JVM选项参数）。这个文件一旦更改，你必须将其复制到集群中所有节点上。最简单的方式仍然是使用 copy-dir 这个脚本。首先，编辑主节点（master）上的spark-env.sh文件，然后，运行 ~/spark-ec2/copy-dir /root/spark/conf 将conf目录RSYNC到所有工作节点上。

configuration guide 这一边文档说明了有哪些可用的选项配置。

终止集群

请注意，如果EC2节点被关闭后，是没有办法恢复其数据的！所以，请务必确保在关闭节点之前，将所有重要的数据复制出来，备份好。

切换到spark下的ec2目录
运行命令 ./spark-ec2 destroy <cluster-name>

暂停和重启集群

spark-ec2脚本同样支持暂停集群。这种情况下，集群实例所使用的虚拟机都是被停止，但不会销毁，所以虚拟机上临时盘数据都会丢失，但root分区以及持久HDFS（persistent-hdfs）上的数据不会丢失。停止机器实例不会多花EC2周期（意味着不用为机器实例付费），但会持续EBS存储的计费。

要停止一个集群，你需要切到ec2目录下，运行 ./spark-ec2 –region=<ec2-region> stop <cluster-name>
如果过后又要重启，请运行 ./spark-ec2 -i <key-file> –region=<ec2-region> start <cluster-name>
如果需要最终销毁这个集群，并且不再占用EBS存储空间，需要运行 ./spark-ec2 –region=<ec2-region> destroy <cluster-name>（如前一小节所述）

限制

对“集群计算”的支持有个限制 – 无法指定一个局部群组。不过，你可以在<cluster-name>-slaves群组中手工启动一些slave节点，然后用 spark-ec2 launch –resume 这个命令将手工启动的节点组成一个集群。

如果你发现一些新的限制或者有什么建议，欢迎贡献（contribute）到社区。

访问S3上的数据

Spark文件接口允许你通过相同的URI格式访问所有在Amazon S3上的数据，当然这些数据格式必须是Hadoop所支持的。你可以通过这种URI格式指定S3路径 s3n://<bucket>/path。在启动Spark集群的时候，可以使用选项–copy-aws-credentials来指定访问S3的AWS证书。更完整的访问S3所需的Hadoop库可以在这里查看 Hadoop S3 page.

另外，访问S3的时候，你不仅可以将单个文件路径作为输入，同时也可以将整个目录路径作为输入。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/117339.html

《Spark 官方文档》在Amazon EC2上运行Spark

在Amazon EC2上运行Spark

准备工作

启动集群

在VPC（Amazon Virtual Private Cloud）上启动集群

运行应用

配置

终止集群

暂停和重启集群

限制

访问S3上的数据

发表回复

《Spark 官方文档》在Amazon EC2上运行Spark

在Amazon EC2上运行Spark

准备工作

启动集群

在VPC（Amazon Virtual Private Cloud）上启动集群

运行应用

配置

终止集群

暂停和重启集群

限制

访问S3上的数据

相关推荐

发表回复