Hay tutoriales disponibles ya hace algún tiempo detallando la forma de ejecutar el popular Apache Hadoop MapReduce framework en Amazon EC2. Hoy Amazon comienza a adherir al padrón ofreciendo soporte oficial a través de Amazon Elastic MapReduce. Desde la página del producto:
Amazon Elastic MapReduce automáticamente incrusta una implementación de MapReduce framework en las instancias de Amazon EC2, sub-dividiendo los datos de un flujo de trabajo en pequeñas partes, de forma que ellos puedan ser procesados (la función "map") en paralelo y, eventualmente, recombinando los datos en una solución final (la función "reduce"). Amazon S3 sirve como fuente para los datos que se están analizando, así también como el destino para el resultado final.
Amazon Elastic MapReduce se cobra 15% mas, sobre el valor de EC2. El FAQ tiene una lista completa con detalles de precio y uso. El blog oficial de AWS también hizo la cobertura:
.......Precisamente Elastic MapReduce se centra en el concepto de un flujo de Trabajo. Cada Flujo de Trabajo puede contener uno o más pasos. Cada paso recibe un paquete de datos de Amazon S3, distribuye los datos a un determinado número de instancias de EC2 que están funcionando con Hadoop (aumento las instancias si es necesario), se hace todo el trabajo y, a continuación, escribe los resultados nuevamente en S3. Cada paso debe hacer referencia a un código "mapper" o un "reducer" específico de la aplicación (JAR o codigo de script para uso via streaming model). También incluimos el Aggregate Package con soporte built-in para diversas operaciones comunes como Sum, Min, Max, Histogram, y Count. Usted puede hacer varias cosas antes de empezar a escribir código!
Ofrecemos tres diferentes vías de acceso a Elastic MapReduce. Tiene el control total a través de Elastic MapReduce API, puede utilizar las herramientas de línea de comandos de Elastic MapReduce o puede apuntar y hacer clic en la pestaña Elastic MapReduce en la Consola de administración de AWS! Veamos cada uno ...
Dana Gardner de ZDNet especula acerca de las implicaciones de la nueva oferta de Amazon para el mercado de Business Intelligence.