Big data y cloud computing: cómo la nube está cambiando todo

290

La nube está convirtiendo almacenes en lagos. Maravilloso pero real. Claro que cuando hablamos de nube nos referimos a las tecnologías cloud y cuando hablamos de almacenes y lagos nos referimos a modelos de almacenamiento de big data.

¿Por qué el uso de almacenamiento en la nube está cambiando radicalmente cómo las empresas generan, usan y guardan sus datos? ¿Cuáles son las ventajas? Para responder estas preguntas primero debemos conocer los dos modos más comunes en que se genera el big data: ETL y ELT. La diferencia va mucho más allá de la posición de una letra.

Modelo ETL y ELT: ¿qué los diferencia y cuáles son sus ventajas?

ETL significa extract, transform & load (extraer, transformar y cargar). El proceso comienza con la extracción de los datos desde las distintas fuentes de las que dispone la empresa. Dada la variedad de las mismas y sus distintos formatos, estos datos son catalogados como ‘no estructurados’.

Existen diversos tipos de datos que necesitás conocer, podés encontrar un resumen acá.

Para convertirlos en ‘estructurados’, los ingenieros de datos deben ordenarlos, homogeneizarlos y corregir errores. Esto se realiza en la etapa transform.

Por último, los datos se cargan a los denominados data warehouses (almacenes de datos), donde se presentan listos para que los analistas puedan extraer insights relevantes.

El modelo ETL tiene ventajas y desventajas. Por un lado, los analistas disponen de un banco de información ordenada y fácil de acceder. Por otro, debido a que los datos deben ser transformados antes de resultar útiles, el proceso puede ser un tanto lento. En situaciones en las que la rentabilidad de la información decrece rápidamente con el tiempo, este es un factor clave.

En cambio, el modelo ELT aprovecha las tecnologías de almacenamiento en la nube para acelerar el proceso y reducir costos. La carga se realiza antes de la transformación y en vez de usar data warehouses se guarda en data lakes (lagos de datos) en la nube.

En los data lakes se almacenan datos no estructurados a medida que se generan. Los analistas deben buscar insights en un creciente lago de información desordenada. Aunque parezca caótico y poco práctico, con el uso de distintas herramientas y la ayuda del machine learning, el trabajo puede llevarse a cabo muy bien.

big data y cloud computing - imagen ilustrativaBig data y cloud computing: el efecto que tiene la nube

Pero un lago de datos puede ser muchísimo más pesado que un almacén, donde la información ya fue ordenada y depurada. ¿Cómo hacer para guardar tantos datos en un mismo lugar? ¿Cómo acceder a ellos de forma eficiente?

Afortunadamente la tecnología de almacenamiento en la nube avanzó tanto que hoy es la respuesta a ambas preguntas. Los data lakes existen en la nube, su tamaño escala a medida que lo requieren y los datos se descargan con la velocidad necesaria como para no entorpecer el trabajo.

Esto permite acceder a los datos a medida que se generan, sin necesidad de transformar datasets enteros antes de poder usarlos. El modelo ELT sea ideal para casos en los que se necesita extraer insights con velocidad. En cambio, si las fuentes de los datos son muy complejas, los formatos muy distintos o caóticos, conviene recurrir al ETL, ya que es más estable.

Claro que para aprovechar los beneficios del ELT hace falta contar con un servicio de cloud computing eficiente y confiable. El producto debe ser escalable para adaptarse al crecimiento de las bases de datos y el proveedor debe estar disponible para responder ante cualquier inconveniente que surja.