Big Data: todo lo que necesitás saber para entenderlo

170

Big Data es uno de los términos más usados en la actualidad. Al punto de que se hace difícil saber de qué hablamos específicamente cuando lo usamos. ¿Refiere los datos mismos o a su uso? ¿Qué hay del Machine Learning o el procesamiento de lenguaje natural (NLP)?

Y, aunque en una conversación casual pueden no importar mucho los matices, en el mundo profesional y académico la precisión de los términos y conceptos utilizados es clave.

Por eso, nos ocupamos de traer una definición precisa de Big Data, de los términos que la rodean y de todo lo que NO es Big Data.

¿Qué es Big Data?

Big Data hace referencia a conjuntos de datos de al menos 40 o 50 Terabytes (un Terabyte equivale a 1.024 Gigabytes) y que pueden llegar hasta los Petabytes. Estos datos pueden presentar diferentes grados de orden y provenir de muchas fuentes diversas.

Para facilitar su comprensión, se suele definir Big Data según 5 V’s. Cada V representa una de sus cualidades principales.

Además, los datos son divididos en estructurados, no estructurados y semiestructurados. Esto tiene directa relación con el proceso de Data Mining que se usan para analizarlos y que suele denominarse ETL o ELT.

El resultado de estos procesos es utilizado en el Business Intelligence para influir en las decisiones de negocios.

Si todo esto te resultó complejo no te preocupes. A continuación repasamos y definimos cada uno de los términos utilizados.

Las 5 V’s del Big Data

En 2001 Doug Laney, un ingeniero de Gartner, ideó una definición de Big Data. Por aquel entonces, con solo 3 V’s alcanzaba.

En el paper donde introdujo las 3 V’s, Laney escribió:

“Big Data son recursos de información de gran volumen, velocidad y variedad que demandan técnicas de procesamiento económicas e innovadoras para mejorar los insights (hallazgos) y la toma de decisiones”.

Con el tiempo a esta definición se le sumaron dos V’s más (veracidad y valor). Como veremos, las adiciones son más bien una consecuencia deseada del buen uso del Big Data.

Hoy las 5 V’s del Big Data son:

  • Volumen: son conjuntos de datos de gran tamaño (se cuentan por Terabytes o hasta Petabytes) que provienen de una enorme cantidad de fuentes y que suelen ser no estructurados.
  • Velocidad: los datos son generados a una gran velocidad. Esto supone un desafío especial para las tecnologías de almacenamientos y procesamiento de la información.
  • Variedad: al provenir de diversas fuentes, los datos suelen tener una gran variedad de formatos diferentes. Esto dificulta su procesamiento y requiere de una etapa de homologación de los mismos.
  • Veracidad: refiere a el grado de fidelidad de los datos con respecto a la realidad que intentan reflejar. O sea, es una medida directa de su calidad. En ocasiones lograr esta veracidad requiere de una extensiva limpieza de los datos.
  • Valor: los datos pueden cumplir todas las condiciones anteriores y aún así no servir de nada. Valor significa que los datos tengan una utilidad concreta. En esencia “para mejorar los insights y la toma de decisiones”.

Las 5 V’s del Big Data están muy bien. Pero aún hace falta aclarar muchas cosas para entender el concepto del todo. ¿Qué es un insight? ¿Qué son los datos no estructurados y cómo se estructuran? ¿Dónde está el Big Data y cómo se obtiene? ¿El Big Data es responsable de la cancelación de mi serie favorita?

Puede ser. Vayamos por partes y revisemos los conceptos de a uno.

Datos estructurados y no estructurados… ¿y los semiestructurados?

No queremos marearte, pero en realidad hay un montón de tipos de datos. Muchos.

A grandes rasgos podemos decir que los datos vienen en tres formas distintas: estructurados, no estructurados y semiestructurados. En definitiva todo tiene que ver su el grado de desorden (o entropía, para quienes quieren hacerlo sonar un poco más cool).

Datos estructurados: 

Son los datos que se adaptan a un modelo de datos predefinido. Se organizan de forma tabular con relaciones predecibles y constantes entre filas y columnas.
O sea, son datos ordenados.

Esto nos permite filtrar o reordenar los datos según nuestra necesidad y encontrar insights de valor para la toma de decisiones.

Ejemplos clásicos de este tipo de data son las tablas de Excel o las bases de datos SQL. Lamentablemente se calcula que tan solo el 20% de los datos son estructurados.

Datos no estructurados: 

El terror de los ingenieros de datos.

Es toda la data que no puede ser prolijamente ordenada en filas y columnas.

Y no hace falta abstraerse mucho para encontrar ejemplos. Son nuestros mails, las fotos, los mensajes de texto, el contenido de esta nota, la música y un larguísimo etcétera de datos que no obedecen a un modelo predefinido.

Cada letra en un texto o pixel en una foto es un dato esperando a ser recolectado. El desafío en este caso es ordenarlos, o sea covnertirlos en restucturados.

Datos semiestructurados: 

En medio de los datos estructurados y los no estructurados hay una tercera categoría.

Son datos ordenados que no se adecúan a los modelos de datos tabulares. O sea que tienen metadatos que los describen. Por ejemplo, los datos asociados a un mensaje de texto que describen cuándo se envió, cuándo fue recibido, etc.

En general estos metadatos vienen en formato JSON o XML y muchas soluciones de Big Data se adaptan para leerlos y procesarlos.

Cómo se obtiene el Big Data

Todo muy lindo. Tenemos cantidades de fuentes que arrojan datos en distintos formatos a una velocidad pasmosa y llenando Teras y Teras de espacio. ¿Qué hacemos con todo esto?

Como dijimos antes, el valor de los datos y de las conclusiones que podemos extraer a partir de ellos es resultado de cómo se procesan. Para eso se usa el Data Mining (Minería de Datos)

¿Qué es el Data Mining?

imagen ilustrativa data miningSu nombre es una clara metáfora del desafío que debe enfrentar. El Big Data por sí mismo no es más que una pila de bits inútiles. La tarea del Data Mining es introducirse en esa montaña de datos para encontrar y extraer insights de valor para los negocios.

¿Cómo lo hace?

El primer paso es entender el problema. En sí mismos, todos los datos tienen el mismo valor: nulo. Su importancia varía según la necesidad de las organizaciones.

Definir el problema es una tarea compleja que pone a prueba equipos interdisciplinarios de profesionales. No sólo hace falta saber de Ingeniería de Datos, también es necesario saber qué preguntas hacerse.

De ello depende las respuestas que habrán de encontrarse.

El segundo paso es la extracción y el preparamiento de los datos. En esta etapa se suele usar un proceso denominado ETL (extraer, transformar y cargar) y su variante ELT.

Por último se pasa a la etapa de modelamiento donde, en base a los datos disponibles y los objetivos planteados, se eligen los algoritmos necesarios para la resolución del problema.

Proceso ETL y ELT: la nube marca la diferencia entre un almacén y un lago

imagen ilustrativa big data y cloud computing - imagen ilustrativaPara pasar de datos no estructurados o semiestructurados a estructurados hace falta extraerlos, transformarlos y almacenarlos.

El proceso ETL realiza esa tarea en ese orden. Los datos “crudos” se extraen de una data pool (pileta de datos compuesta por todas las fuentes a utilizar) y se guardan en un almacenaje temporal.

Luego son depurados, transformados y estructurados para que se adapten al modelo de datos a usar.

Finalmente los datos estructurados se guardan en data warehouses (almacenes de datos) para que los los encargados del Business Intelligence (no te preocupes, ahora explicamos ese término) los usen para encontrar insights.

Ese es el proceso tradicional.

Pero el rápido avance de las tecnologías de almacenamiento en la nube están cambiando todo.

Hoy muchas empresas eligen guardar los datos en la nube incluso antes de procesarlos y depurarlos. Desde allí son estructurados solo en la medida en que se los necesita.

Este “lugar” donde se guardan enormes cantidades de datos no estructurados o semiestructurados se llama data lake (lago de datos).

El proceso ELT no solo ahorra mucho trabajo sino que reduce el tiempo de espera hasta que los datos están disponibles, alcanzando velocidades prácticamente de tiempo real.

Para esto hizo falta no solo que almacenar en la nube sea más barato que nunca sino que la capacidad de los servidores crezca exponencialmente y que las velocidades de carga y descarga se multipliquen.

 

Para qué sirve el Big Data: sobre insights, Business Intelligence y empresas data driven

Si llegaste hasta esta parte de la nota te estarás preguntando “¿para qué sirve todo esto?”. Si bien ya mencionamos que se usa en objetivos de negocios, ¿qué significa esto en términos concretos? ¿Qué buscan las empresas y cómo influye esto en sus decisiones?

Esas preguntas son mucho más difíciles de responder de lo que parecen. Las empresas no suelen revelar qué hacen con los datos que usan y los algoritmos suelen estar protegidos bajo estrictas leyes de propiedad intelectual.

Pero eso no significa que no haya casos para analizar y conceptos para entender. Empecemos con la teorías y después veremos un ejemplo concreto.

¿Qué es un insight?

Traducido como hallazgos, los insights son información novedosa y relevante que se obtiene tras cruzar los datos obtenidos en el proceso ETL. O sea, son lo que marca el valor del Big Data.

Estos hallazgos están necesariamente construidos en función de los objetivos del proceso. Por eso es tan importante la primer etapa del Data Mining: las conclusiones obtenidas son siempre una consecuencia de las preguntas realizadas.

¿Qué es Business Intelligence?

Traducido como Inteligencia Empresarial, es el proceso mediante el cual se usan los datos disponibles para la toma de decisiones en una empresa.

Para esto utiliza una gran variedad de herramientas, incluido el Big Data.

Pero su objetivo no es la creación de los datos en sí, sino su utilización para conocer el ambiente en que se encuentra actualmente una organización y cómo puede cambiar a futuro para tomar mejores decisiones.

Las empresas que realizan esta tarea son llamadas empresas data-driven (guiadas por datos).

Ejemplo del uso del Big Data en empresas: el caso Netflix

¿El Big Data es responsable de que Netflix haya cancelado tu serie favorita? La respuesta corta es NO.

Como vemos más adelante, el Big Data es solo eso, datos. Lo que se hace con esos datos en relación a una empresa se llama Business Intelligence. Ahí tenés al culpable.

Netflix monitorea todos los aspectos de tu consumo dentro de la plataforma: qué ves, durante cuánto tiempo, dónde pausas, cuándo abandonás, qué actores o directores preferís, etc.

Además practican otras estrategias de social listening (escucha de redes sociales) para saber qué hacen los usuarios mientras o después de consumir contenido y qué opinan de los productos.

Esto impacta en qué series se producen, cuáles se cancelan y hasta cómo se ve la página principal y los thumbnails de cada usuario en función de sus preferencias.

Y aunque no se sabe mucho de su algoritmo, recientemente recibimos algunas pistas de cómo funciona.

A raíz de las críticas de creadores como Lisa Hanawalt (escritora de Tuca and Bertie, serie recientemente cancelada) y algunas indagaciones del Parlamento Británico, Netflix reveló cómo cataloga a sus usuarios.

Los hogares que miran tan solo dos minutos de una película o de un capítulo de una serie son llamados Starters.

Los que miran el 70% de una película o de un capítulo se llaman Watchers.

Y quienes miran el 90% de una película o de una temporada son catalogados como Completers.

En su informe para inversores de 2018, Netflix detalla que utiliza los Watchers como medida de la popularidad de un producto.

O sea que la tercer temporada de Stranger Things fue vista al menos en un 70% por 64 millones de personas tras su estreno.

Con todo esto Netflix intenta determinar dos cosas: la relevancia de un producto para la audiencia y su capacidad de generar o expulsar suscriptores.

Evidentemente Tuca and Bertie no cumplió con una o ambas condiciones.

A pesar de las críticas que surgieron tras la cancelación, Netflix nunca reveló datos certeros sobre cuántas personas la vieron o si se hablaba de ella en redes sociales.

Pero ante el descontento de los seguidores de la serie, su creadora y muchos otros autores que están insatisfechos con el modo en que Netflix cancela sus productos sin decirles en qué se “equivocaron”, la empresa prometió comenzar a ser más abierta con sus datos.

Para ver otros casos prácticos podés leer esta nota.

Lo que NO es Big Data

Como toda palabra de moda, Big Data suele ser confundido con otras definiciones cercanas.

El problema es que esto puede causar que ya no sepamos de qué habla la gente cuando dice Big Data.

Para que no caigas en el mismo error armamos una lista con algunas de las cosas que NO son Big Data:

  • Inteligencia Artificial y Machine Learning: si bien el Machine Learning se nutre de grandes bases de datos para entrenarse, no es lo mismo que Big Data. En cambio, el Big Data es un input y las predicciones y los insights son el output del Machine Learning.
  • Data Mining: esta es una de las confusiones más habituales. Big Data son los datos, no el proceso mediante el cual se los obtiene o analiza. Eso se llama Data Mining y es una técnica propia de la disciplina llamada Ingeniería de Datos.
  • Big Data Analytics: como ya dijimos, Big Data son los datos y no el proceso. A este se lo suele llamar por varios nombres. Uno es Big Data Annalytics. Acá entran en juego herramientas como Hadoop que se usan para conseguir valor. Al ser un proceso tan importante, es vital contar con la ayuda de profesionales capacitados en el área. La división dcomo Luca se distinguen por su trayectoria.
  • Procesamiento de lenguaje natural: NLP, por sus siglas en inglés, es una forma de Inteligencia Artificial que permite a las computadoras “leer” lo que escriben los humanos. De esta lectura surgen Teras y Teras de datos para analizar que pueden ser considerados Big Data.

Referencias

Alexander, J. (2019, 21 octubre). Netflix tracks shows by measuring ‘starters,’ ‘watchers,’ and ‘completers’. Recuperado de https://www.theverge.com/2019/10/21/20924954/netflix-viewers-numbers-metrics-data-stranger-things-tuca-bertie-oa-renew-cancel

Avinoam, R. (2017, 17 enero). ETL vs ELT: The Difference is in the How. Recuperado de https://blog.panoply.io/etl-vs-elt-the-difference-is-in-the-how

Big Data Framework. (2019, 22 marzo). Data Types: Structured vs. Unstructured Data | Big Data Framework©. Recuperado de https://www.bigdataframework.org/data-types-structured-vs-unstructured-data/

Laney, D. (2001, 6 febrero). 3D Data Management: Controlling Data Volume, Velocity, and Variety.. Recuperado de https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf

Marr, B. (2019, 18 octubre). What’s The Difference Between Structured, Semi-Structured And Unstructured Data? Recuperado de https://www.forbes.com/sites/bernardmarr/2019/10/18/whats-the-difference-between-structured-semi-structured-and-unstructured-data/