+86 13541016684Mon. - Fri. 10:00-22:00

AWS EMR上搭建HBase环境

  • 使用 Amazon Web Services 分析大数据

    以下教程介绍如何使用 Amazon Web Services 处理大数据: 教程:情绪分析 — 如何使用 Hadoop 评估 Twitter 数据 教程:Web 服务器日志分析 — 如何使用 Hive 查询 Apache Web 服务器日志 适用于大数据的主要 AWS 服务 借助 AWS,您仅需为实际使用的资源付费。您可以在需要时再创建资源,而无需维护物理服务器和存储设备集群以备不时之需。AWS 还支持 Hadoop、Hive 和 Pig 等热门工...

    Continue reading »

  • AWS EMR Spark on yarn 使用记录

    1. Dynamic Resource Allocation在AWS EMR Spark中已经默认配置好了。因此–num-executors只是job启动时的一个初始值,cluster会根据可用资源情况再自动分配。不要设置成太大,因为如果初始申请的资源超过现有资源,就会提交job失败。   2. CPU的申请和使用:yarn是hadoop 2的资源管理框架。在默认配置下,它和mesos (hadoop V1提供的资源管理框架)一样,只将内存作为可...

    Continue reading »

  • AWS EMR 使用Instance Profile 限制 S3 访问权限

    AWS EMR 可以指定 EC2 instance profile 来限制 EMR 节点中的程序的权限. 注意: 这里说的是 EC2 instance profile, 不是 EMR role, 这两个容易混淆. 但可以肯定的是: 如果想限制在 EMR 集群中的 EC2 节点上运行的程序的 AWS 相关资源的权限, 应该使用 EC2 instance profile EC2 instance profile 而今天遇到这样一个需求: 一个 EMR 集群需要仅仅开放对 hive 的 test 数据库的读写...

    Continue reading »

  • AWS EMR上搭建HBase环境

    0. 概述 AWS的EMR服务为客户提供的托管 Hadoop 框架可以让您轻松、快 速、经济高效地在多个动态可扩展的 Amazon EC2 实例之间分发和处理 大量数据。您还可以运行其他常用的分发框架(例如 Amazon EMR 中的 Spark 和 Presto)与其他 AWS 数据存储服务(例如 Amazon S3 和 靠地处理大数据使用案例,包括日志分析、Web 索引、数据仓库、机器 学习、财务分析、科学模拟和生物信息。 通过EMR...

    Continue reading »