Si bien la popularidad del término “Big Data” es inmensamente mayor que los que refieren a otros tipos de datos, es importante conocerlos a todos para saber cuál se necesita en cada situación. Small Data, Dark Data, Open Data, cada uno tiene sus particularidades y sus aspectos a aprovechar o evitar para tomar mejores decisiones de negocio.

Big Data

El niño mimado de la lista, al que todos conocen y con el que todos quieren llevarse bien. Y no es para menos, la importancia del Big Data y los resultados que se pueden obtener con su uso quedaron demostrados más allá de toda duda.

Big Data refiere a un volumen de datos inmenso que se generan a gran velocidad y de fuentes y formatos variados (esto se conoce como las 3V del Big Data). Es la base sobre la que se construye el Machine Learning y los enormes avances en materia de Inteligencia Artificial que cambian nuestra relación con el mundo.

Pero convertirse es una empresa data-driven no es sencillo. Elegir qué fuente de datos utilizar, las métricas a priorizar y cómo interpretarlas requiere un know-how extenso en la materia. Por eso, aliarse con expertos de probada experiencia como Luca C&A es esencial. De este modo se puede acceder a capacitaciones orientadas a cambiar la cultura y los procesos dentro de la organización e implementar una estrategia basada en datos de valor.

Data estructurada, no estructurada y semiestructurada

Antiguamente casi toda la información estaba estructurada en modelos predefinidos. Esto era posible porque las fuentes de dicha información eran menos variadas y se podía ejercer mayor control sobre ellas.

Ahora las cosas son muy distintas. Millones de dispositivos conectados a través de IoT, miles de servicios generando datos, diversas preferencias de los usuarios, normativas legales y un largo etcétera de factores hacen más compleja la recolección de datos. Lo que antes se almacenaba en filas y columnas hoy está contenido dentro de objetos compuestos por código, muchas veces con enormes niveles de complejidad.

Por eso, aunque todavía hay fuentes estructuradas, la mayoría vienen con diverso grado de “desorden”. Saber ordenar las bases de datos es una de las habilidades básicas para manejar grandes volúmenes de información.

Time-Stamped Data (marca temporal)

Estos datasets están ordenados por tiempo, ya sea el momento en que se recolectaron los datos o cuando fueron procesados. Por esto son ideales para evaluar el comportamiento de los usuarios, ya que ofrecen información sobre la sucesión de sus acciones. Por ejemplo, podemos conocer qué parte de nuestro sitio los atrae, cómo lo navegan y a qué otros sitios visitan cuando se van.

Una variante de esto es la Spatiotemporal Data (espacio temporal) que agrega ubicación geográfica a los datos. Esto es usado, por ejemplo, para monitorear flotas de vehículos o  para controlar flujos de tránsito.

Open Data

Estos datos están disponibles para que el público los analice, procese y publique libremente. Existen diversas fuentes gubernamentales y privadas que nos acercan datasets. Y aunque seguramente no sean tan útiles como  fuentes personalizadas, se pueden lograr interesantes hallazgos. Por ejemplo, Kaggle tiene una enorme colección que podés aprovechar.

Real Time Data (tiempo real)

Si bien nunca es completamente en tiempo real, estos datos nos proveen información valiosa para tomar decisiones rápidas. Por ejemplo, las empresas pueden usarlas para ofrecer promociones actualizadas a los intereses de los usuarios o para subir contenido basado en las tendencias de búsqueda del momento. En definitiva, permite una conexión más  cercana entre el público y las organizaciones.

Dark Data

El peor tipo de data, por lejos. Datos Oscuros, como su nombre lo sugiere, son aquellos que las empresas poseen pero no aprovechan. Ya sea porque no los procesan, no identifican su valor o por simple desidia, el potencial de esta información está siendo desechado.

Unverified or outdated data (sin verificar o desactualizada)

Otro mal a evitar. Son datos cuya fuente no es confiable o que no fueron aprovechados a tiempo y ya perdieron su validez. Confiar en este tipo de fuentes es un mal hábito que probablemente también nos indique algo importante: los hábitos de nuestra organización deben cambiar.

Small Data

Es la contracara al Big Data. Aunque muchas veces se la promueva disminuyendo el valor real de su contraparte, lo cierto es que equilibrar ambas nos permite lograr un enfoque mucho más holístico.

Small Data son los datos que se obtienen con métodos tradicionales sobre pequeñas cantidades de clientes en lugares y momentos limitados. Con ellos se puede inducir preferencias, gustos y oportunidades. Es, de cierto modo, el método “más humano”.

Por supuesto, esto tiene sus limitaciones. La principal es el mayor margen de error basado en la subjetividad del observador. Esto puede mitigarse con experiencia y habilidad, algo difícl de lograr. Por eso, de la misma forma que el pensamiento inductivo y el deductivo se complementan, el Small Data y el Big Data deben servirse mutuamente para tomar mejores decisiones de negocio.