Llega Hadoop, la solución para el análisis de millones de datos

En los últimos años se ha reconocido la importancia la data en la toma de decisiones; esto ha llevado a las empresas a emprender diferentes iniciativas que les permitan disponer de su información para apalancar los objetivos estratégicos de las líneas de negocio.

Sin embargo, aunque la tarea de analizar millones de datos pueda sonar simple en una era denominada justamente como la del Big Data, no existe una receta clara de cómo almacenarlos, cómo asegurar su calidad y cómo aprovecharlos. La respuesta está en el Hadoop.

Desde su creación, Hadoop se ha convertido en una de las tecnologías más reconocidas gracias a su capacidad para manejar grandes cantidades de datos rápidamente, sin importar su tipo. “Este sistema no es más que un marco para software de código abierto que permite almacenar y procesar grandes volúmenes de datos de forma distribuida en un gran número de productos de hardware. En esencia, Hadoop cumple con dos tareas específicas: almacenamiento masivo y procesamiento más rápido de datos”, explica Alex Infazon, experto de SAS

Según IDC, el mercado de soluciones de big data y analítica en América Latina representó 661 millones de dólares en 2014. Se espera que la adopción de las soluciones de analítica y big data se incremente como resultado de la madurez del ecosistema de Hadoop y el incremento en el uso de herramientas y aplicaciones analíticas como las ofrecidas por empresas especializadas en big data analytics, como SAS.

Una simple búsqueda en el internet nos regresa varios casos de uso. En Colombia, el banco Davivienda ha tomado técnicas emergentes de big data para analizar los comportamientos típicos de grupos de clientes similares y controlar o rechazar usos atípicos en productos como el de DaviPlata. En Argentina Arcos Dorado, la mayor cadena de restaurantes de servicio rápido de América, analiza los recibos de las cajas, recolectando los datos de las ventas realizadas en todos los restaurantes, para saber quién come qué, cuándo, con quién, y después evaluar las nuevas ofertas a ofrecer en función de menús, recetas, regiones, horarios, etcétera.

La adopción de la analítica y big data en América Latina ha estado llena de incertidumbres. El trabajo realizado por los diferentes proveedores para educar y capacitar al mercado no ha sido tan exitoso. El número de empresas que iniciaron proyectos de este tipo es muy bajo basado en la información de IDC. La principal razon es la complejidad de este tipo de proyectos. Probada su efectividad, la gran pregunta que c-levels de organizaciones de todo tipo se hacen en la actualidad es ¿cómo iniciarse con Hadoop?

Sas, la empresa líder en soluciones de big data analytics en el mundo comparte la siguiente guía para ayudar a las empresas a sacar mayor provecho a su activo más valioso de la actualidad: sus datos.

Los inicios. Para iniciar un proyecto de este tipo lo primero es preguntarse ¿Por qué hacerlo? Debe existir un caso de uso convincente, un conductor competitivo, un factor de costo, o algún otro tema que ha sido identificado para la aplicación de tecnologías de big data y analítica.

En una fase inicial también es importante seleccionar a los integrantes del equipo antes que a la tecnología. La selección de personal es la variable más importante en el éxito del proyecto sobre todo cuando se trata de tecnologías emergentes.

Por lo tanto es recomendable dar pasos pequeños, con un alcance bien definido y acotado. Tomar un caso de uso real con un retorno de inversión (ROI) claro que fundamente el proyecto. Por ejemplo, utilizar Hadoop como un repositorio centralizado de datos con el fin de abatir el costo de almacenamiento e incrementar la capacidad de procesamiento de grandes volúmenes de datos.

Pasos pequeños. Es muy importante moverse lento y seguro. SAS recomienda dar “pequeños pasos” y “aprender haciendo”, pues está demostrado que esa es la clave del éxito. A la fecha existen en Hadoop aproximadamente 133 proyectos en diferentes categorías que van desde sistemas de archivos distribuidos, los modelos de base de datos, machine learning, benchmarking, seguridad y aplicaciones.

Con tantas opciones es fácil perderse y desperdiciar los escasos presupuestos y recursos de Tecnología de la Información (TI) si tratamos de abarcar todos ellos. Por lo que es recomendable definir y acotar nuestro proyecto y seleccionar del ecosistema el o los proyectos que mejor se adecuen a nuestros objetivos.

Alcance definido y acotado. Un factor fundamental de éxito es la definición de objetivos del proyecto, previo a la planificación del mismo. ¿Por qué son importantes los objetivos? Principalmente por tres razones:

Ayudan a acotar el alcance real
Permiten monitorear la evolución
Validan la satisfacción de expectativas

Una técnica frecuentemente utilizada para poder evaluar si los objetivos están correctamente definidos es verificar si son “SMART”, acrónimo en ingles de:

Specific (Específicos): Claros sobre qué, quién, dónde, cuándo y cómo van a conseguirse.
Measurable (Medibles): que sea posible cuantificarlos.
Achievable (Realizables): debe ser posible lograrlos con los medios y capacidades disponibles.
Realistic (Realistas): que sea posible alcanzarlos en el tiempo y forma previsto.
Time bound (Límite de tiempo): debe fijarse el periodo de tiempo en el que se debe completar cada uno de ellos.

Retorno de inversión. Los proyectos de big data son complejos, de alto riesgo y el retorno de la inversión es difícil de cuantificar. Definitivamente este es el nuevo tipo de aplicaciones que se requieren. Sin embargo, en la fase de aprendizaje lo mejor es iniciar creando un fundamento sólido para su desarrollo. Los proyectos mencionados en la sección anterior tienen en común el acceso a un volumen de datos adecuado en forma oportuna y con la calidad suficiente para su análisis.

Las empresas exitosas en este tipo de proyectos han empezado evolucionando su almacenamiento de datos y su forma de extraerlos y procesarlos hacia un esquema de big data y herramientas de analítica avanzada para aprovechar la información lo mejor posible.

Un factor clave ha sido la escalabilidad y el bajo costo de Hadoop. Por ejemplo, un clúster Hadoop con un petabyte de capacidad para almacenamiento, requiere entre 125 y 250 nodos que cuestan aproximadamente $ 1 millón de dólares. El costo de una distribución comercial de Hadoop tiene costos similares (aprox. $ 4.000 Dólares por nodo), que es una pequeña fracción del costo de una bodega de datos ($10-$100s de millones de dólares) utilizando una base de datos relacional y almacenamiento tradicional. Las empresas innovadoras tienen hoy Hadoop – la pregunta es ¿cómo van a aprovecharlo y que tan rápido se convertirá en una tecnología de misión-crítica?

Beneficios tangibles. Con Hadoop las empresas pueden almacenar los datos en diferentes formatos. Por lo que se reduce la inversión de tiempo y dinero para procesarlos en comparación con el tiempo requerido para configurar las bases de datos relacionales y sus tablas rígidas. Hadoop es la plataforma perfecta, ya que el crecimiento es más sencillo y económico, además de facilitar la captura de datos procedentes de múltiples fuentes.

Con SAS se adquiere la experiencia de una compañía líder en analítica. Así como un número de herramientas para habilitar proyectos de inteligencia y gestión de datos a nivel empresarial y servicios, SAS ayuda a sus clientes en más de 75,000 sitios a tomar mejores decisiones más rápido.

Con SAS y Hadoop el tipo de análisis de datos que antes estaba sólo disponible para las empresas más grandes en el mundo ahora está disponible para la pequeña y mediana empresa.

Son muchos los campos donde el big data es utilizado. En empresas del sector financiero, bancario, salud, automotriz, gubernamental, farmacéutico, y otros sectores económicos en todos los continentes. Hoy por hoy, organizaciones de todos los tamaños están siguiendo los pasos de los gigantes corporativos que han utilizado Hadoop para su beneficio, entre ellos: Google, Yahoo, eBay, Twitter. Es por eso que todo el mundo está hablando de Hadoop, analítica y big data en la actualidad.

Tags: hadoop