Posted in: AWS EMR上搭建HBase环境
使用 Amazon Web Services 分析大数据
以下教程介绍如何使用 Amazon Web Services 处理大数据:
- 教程:情绪分析 — 如何使用 Hadoop 评估 Twitter 数据
- 教程:Web 服务器日志分析 — 如何使用 Hive 查询 Apache Web 服务器日志
适用于大数据的主要 AWS 服务
借助 AWS,您仅需为实际使用的资源付费。您可以在需要时再创建资源,而无需维护物理服务器和存储设备集群以备不时之需。AWS 还支持 Hadoop、Hive 和 Pig 等热门工具,并且可以轻松部署、配置和监控集群以便运行这些工具。
下表显示了 AWS 如何帮助解决常见的大数据挑战。
挑战 | 解决方案 |
---|---|
数据集可能非常庞大。存储可能变得很昂贵,而且数据损坏和丢失可能会造成深远的影响。 | Amazon S3 可以存储大量数据,其容量可以根据您的需要而扩展。它具有高度的冗余性和安全性,可防范数据丢失和未授权使用。Amazon S3 还具有一系列有意为之的小功能,可使费用保持在较低水平。 |
维护一个物理服务器集群来处理数据既昂贵又耗时。 | 当您在虚拟 Amazon EC2 服务器上运行应用程序时,您只需支付此应用程序运行期间的服务器费用,而且可以在几分钟(而不是几小时或几天)内增加服务器数量,从而满足您的应用程序的处理需求。 |
Hadoop 及其他开源大数据工具可能难以配置、监控和操作。 | Amazon EMR 可以处理集群配置、监控和管理任务。Amazon EMR 还可以将开源工具与其他 AWS 服务集成,从而简化大规模数据处理,以便您专注于分析数据和发掘价值。 |
有关更多信息,请参阅大数据。