¿Conoces las 10 v´s del Big Data?
14.03.2023
Hoy, 14 de marzo Día Internacional de las Matemáticas, analizamos las variables más importantes en la ciencia de datos: el Big Data.
Big Data, Inteligencia Artificial, Internet de las Cosas, Blockchain y una gran cantidad de conceptos que han traído mucha confusión en las organizaciones. Hay 10 aspectos que se necesita tener en cuenta para entender el concepto del Big Data, son las 10 v´s del Big Data.
1 - Volumen
El volumen es la cantidad masiva de datos que se generan cada segundo, minuto, hora o cualquier otra cifra de tiempo estimada. Tienen que ser grandes cifras de datos para considerarse Big Dat, un ejemplo sería como cada minuto, se suben a YouTube 500 horas de nuevos contenidos.
2 - Velocidad
La velocidad a la que se generan o actualizan los datos. Un ejemplo de ello es Google, que procesa aproximadamente 63.000 consultas de búsqueda por segundo, lo que se traduce en 5.600 millones de búsquedas por día y aproximadamente 2 billones de búsquedas globales por año.
3 - Variedad
Cuando se trata de Big Data, no solo manejamos datos estructurados, también semiestructurados y principalmente no estructurados.
Es decir, son un conjunto masivo de datos que no tienen ningún valor hasta que se identifican y almacenan de forma organizada.
Por ejemplo: archivos de audio, imagen, video, actualizaciones de redes sociales y otros formatos de texto, hasta archivos de registro, datos de clics, de máquinas y sensores, etc.
4 - Variabilidad
La variabilidad en el contexto de Big data tiene dos significados:
-Uno es el número de inconsistencias en los datos. Estos deben ser encontrados por métodos de detección de anomalías y valores atípicos para que ocurra cualquier análisis significativo.
-Otro es la multitud de dimensiones de datos que resultan de múltiples tipos y fuentes de datos dispares. La variabilidad también puede referirse a la velocidad inconsistente a la que se cargan grandes datos en bases de datos.
5 - Veracidad
La confianza en los datos cae cuando las propiedades anteriores aumentan, la veracidad en concreto del origen de los datos y de la relevancia que su análisis implica.
6 – Validez
Se refiere a la limpieza que tienen los datos, a cuán precisos y correctos son para su uso. El beneficio del análisis de Big Data es tan bueno como sus datos subyacentes, por lo que se deben adoptar buenas prácticas de gobernanza de datos para garantizar una calidad de datos coherente, definiciones comunes y metadatos.
7 - Vulnerabilidad
Seguridad respecto a los datos. Se han dado muchos casos de hackeo y sustracción de macrodatos para posteriores actividades ilegales.
8 - Volatilidad
Tiempo que deben almacenarse los datos. Antes del Big Data, se tendía a guardar datos indefinidamente debido a que en pequeños volumenes apenas suponía gastos. Incluso podía mantenerse en una base de datos en vivo sin causar problemas de rendimiento. Sin embargo, en la actualidad hay que establecer reglas para la disponibilidad y la vigencia de estos datos, así como para garantizar una recuperación rápida de la información cuando sea necesario.
9 - Visualización
Complejidad para visualizar datos. No se puede confiar en los gráficos tradicionales para trazar un billón de puntos de datos, por ejemplo, por lo que son necesarias diferentes formas de representarlos, como la agrupación o el uso de mapas, las coordenadas, los diagramas, etc.
10 - Valor
Por último y posiblemente el más importante de todos. Las otras características no tienen sentido si no se obtiene un valor, como puede ser: comprender mejor a los clientes, optimizar procesos, mejorar el rendimiento, …
En Afi Escuela el próximo 16 de Octubre comienza el Máster en Data Science y Big Data un programa de postgrado orientado a aquellas personas que quieran desarrollar o fortalecer las capacidades técnicas y analíticas necesarias para una carrera de éxito en analítica de negocio o Big Data. Solicita información: bit.ly/4253WE1