Amazon Elastic MapReduce(EMR)是一种Web服务,它提供了一个托管框架,可以轻松,经济高效地运行数据处理框架,如Apache Hadoop,Apache Spark和Presto方式.
它用于数据分析,网络索引,数据仓库,财务分析,科学模拟等.
如何设置亚马逊EMR?
按照以下步骤设置Amazon EMR :
步骤1 : 登录AWS账户并在管理控制台上选择Amazon EMR.
步骤2 : 为群集日志创建Amazon S3存储桶&输出数据. (程序在Amazon S3部分详细说明)
第3步 : 启动Amazon EMR集群.
以下是创建集群并将其启动到EMR的步骤.
使用此链接打开Amazon EMR控制台 : https://console.aws.amazon.com/elasticmapreduce/home
选择create cluster并在Cluster Configuration页面上提供所需的详细信息.
将"标签"部分选项保留为默认值
在"软件配置"部分,将选项调整为默认值.
开在"文件系统配置"部分中,默认情况下保留EMRFS的选项. EMRFS是HDFS的一种实现,它允许Amazon EMR集群在Amazon S3上存储数据.
在"硬件配置"部分,选择EC2实例中的m3.xlarge键入字段并将其他设置保留为默认值.单击下一步按钮.
在安全和访问部分,对于EC2密钥对,从EC2密钥对字段中的列表中选择该对并保留其他设置默认情况下.
在"引导操作"部分,保留默认设置的字段,然后单击"添加"按钮.引导操作是在Hadoop在每个群集节点上启动之前在设置期间执行的脚本.
在"步骤"部分,将设置保留为默认值并继续.
单击"创建群集"按钮,将打开"群集详细信息"页面.这是我们应该将Hive脚本作为集群步骤运行并使用Hue Web界面查询数据的地方.
第4步 : 使用以下步骤运行Hive脚本.
打开Amazon EMR控制台并选择所需的群集.
移至"步骤"部分并展开它.然后单击"添加"步骤按钮.
将打开"添加步骤"对话框.填写必填字段,然后单击"添加"按钮.
要查看Hive脚本的输出,请使用以下步骤 :
打开Amazon S3控制台并选择用于输出数据的S3存储桶.
选择输出文件夹.
查询将结果写入单独的文件夹.选择 os_requests .
输出存储在文本文件中.此文件可以下载.
Amazon EMR的好处
以下是亚马逊EMR的好处&减去;
容易使用 : Amazon EMR易于使用,即可以轻松设置群集,Hadoop配置,节点配置等.
可靠 &减去;它在重试失败的任务并自动替换性能不佳的实例的意义上是可靠的.
弹性 : Amazon EMR允许计算大量实例以处理任何规模的数据.它可以轻松增加或减少实例数量.
安全 : 它会自动配置Amazon EC2防火墙设置,控制对实例的网络访问,在Amazon VPC中启动集群等.
灵活&minus ;它允许完全控制集群和对每个实例的root访问权限.它还允许安装其他应用程序并根据要求自定义您的群集.
经济高效 : 它的定价很容易估算.它每小时收取一次使用的费用.