亚马逊网络服务 - 弹性MapReduce

Amazon Web Services Elastic MapReduce - 从基本概念到高级概念，简单易学地学习Amazon Web Services，其中包括云计算，基础架构，管理控制台，控制台移动应用程序，帐户，弹性计算云，Auto Scaling，WorkSpaces，Lambda，虚拟私有云，Route 53，Direct Connect，Amazon S3，Elastic Block Store，Storage Gateway，CloudFront，Relational Database Service，DynamoDB，Redshift，Amazon Kinesis，Elastic MapReduce，Data Pipeline，Machine Learning，Simple WorkFlow Service，WorkMail。

Amazon Elastic MapReduce(EMR)是一种Web服务，它提供了一个托管框架，可以轻松，经济高效地运行数据处理框架，如Apache Hadoop，Apache Spark和Presto方式.

它用于数据分析，网络索引，数据仓库，财务分析，科学模拟等.

如何设置亚马逊EMR？

按照以下步骤设置Amazon EMR :

步骤1 : 登录AWS账户并在管理控制台上选择Amazon EMR.

步骤2 : 为群集日志创建Amazon S3存储桶&输出数据. (程序在Amazon S3部分详细说明)

第3步 : 启动Amazon EMR集群.

以下是创建集群并将其启动到EMR的步骤.

使用此链接打开Amazon EMR控制台 : https://console.aws.amazon.com/elasticmapreduce/home
选择create cluster并在Cluster Configuration页面上提供所需的详细信息.

群集配置

将"标签"部分选项保留为默认值
在"软件配置"部分，将选项调整为默认值.

Spark

开在"文件系统配置"部分中，默认情况下保留EMRFS的选项. EMRFS是HDFS的一种实现，它允许Amazon EMR集群在Amazon S3上存储数据.

服务器端加密

在"硬件配置"部分，选择EC2实例中的m3.xlarge键入字段并将其他设置保留为默认值.单击下一步按钮.

硬件配置

在安全和访问部分，对于EC2密钥对，从EC2密钥对字段中的列表中选择该对并保留其他设置默认情况下.
在"引导操作"部分，保留默认设置的字段，然后单击"添加"按钮.引导操作是在Hadoop在每个群集节点上启动之前在设置期间执行的脚本.
在"步骤"部分，将设置保留为默认值并继续.
单击"创建群集"按钮，将打开"群集详细信息"页面.这是我们应该将Hive脚本作为集群步骤运行并使用Hue Web界面查询数据的地方.

第4步 : 使用以下步骤运行Hive脚本.

打开Amazon EMR控制台并选择所需的群集.
移至"步骤"部分并展开它.然后单击"添加"步骤按钮.
将打开"添加步骤"对话框.填写必填字段，然后单击"添加"按钮.

流程序

要查看Hive脚本的输出，请使用以下步骤 :

打开Amazon S3控制台并选择用于输出数据的S3存储桶.
选择输出文件夹.
查询将结果写入单独的文件夹.选择 os_requests .
输出存储在文本文件中.此文件可以下载.

Amazon EMR的好处

以下是亚马逊EMR的好处&减去;

容易使用 : Amazon EMR易于使用，即可以轻松设置群集，Hadoop配置，节点配置等.
可靠 &减去;它在重试失败的任务并自动替换性能不佳的实例的意义上是可靠的.
弹性 : Amazon EMR允许计算大量实例以处理任何规模的数据.它可以轻松增加或减少实例数量.
安全 : 它会自动配置Amazon EC2防火墙设置，控制对实例的网络访问，在Amazon VPC中启动集群等.
灵活&minus ;它允许完全控制集群和对每个实例的root访问权限.它还允许安装其他应用程序并根据要求自定义您的群集.
经济高效 : 它的定价很容易估算.它每小时收取一次使用的费用.