Estás en: Home Diferencia entre Big Data y Data Science

Diferencia entre Big Data y Data Science

04.01.2018

La concepción de la sociedad acerca del significado de Big Data es que el Big Data es como el Gran Hermano (el de George Orwell, no el de la tele), y lo llevamos en el bolsillo, y te vigila. Y la sociedad no se equivoca.

Generamos Terabytes de información que nacen al interactuar con nuestros dispositivos de uso cotidiano: el ordenador, el móvil y hasta el mando de la televisión. Esa huella digital se transmite a través de múltiples canales: navegadores, aplicaciones web, redes sociales, la multitud de apps que infestan el teléfono, …  Viajan en tiempo real a bases de datos de empresas que tienen libertad de hacer con ellos lo que puedan, respetando estrictas leyes de protección de datos.

Una vez que tu personalidad se protege, pasas a ser un registro anónimo en un set de datos, una insípida fila de una matriz con múltiples columnas que describen tus números, acciones (consumadas y en grado de tentativa), hábitos de comportamiento, mensajes, localizaciones GPS, etc. Datos explotables en beneficio del negocio. Explotables, sí, pero nos hacen la vida más fácil.

Cuando a un IT se le pregunta por Big Data, saca su jerga particular y empieza a hablar de sistemas de ficheros distribuidos, entornos virtuales, Cloudera, Hadoop, Spark, etc. La traducción del concepto técnico de Big Data es casi literal, es el dato gordo, dato que no se puede engullir de una vez, esos terabytes de los que hablábamos antes. Divide y vencerás, decía Julio César, Napoléon y también Google con su white paper de MapReduce en 2004. Y esa es la filosofía para engullirlos: distribuye el dato gordo en una red de ordenadores, ataca el problema en ese mapa distribuido, y reduce, combinando la solución. Solución que es pequeña, manejable y nos da información.

El discurso anterior es deliberadamente vago, porque faltan conceptos por aclarar. Nos queda pensar:

  • Qué problema es el que queremos solucionar.
  • Cómo lo solucionamos.
  • Para qué nos sirve la solución.

Aún a riesgo de ser tendencioso, una base de datos sin un procedimiento de Analítica no vale ni los bytes que ocupa (ya sean kilos, megas, teras o petas). Ahí entra la Ciencia de DatosEl Data Science plantea métodos de análisis de los datos: desde unos estadísticos descriptivos, unas gráficas para visualizarlos (desde histogramas y boxplots, hasta mapas dinámicos) culminando en sofisticados modelos predictivos. Modelos que se heredan de técnicas estadísticas. Técnicas de regresión, que permiten estimar respuestas cuantitativas; y de clasificación, que clasifican los datos según categorías de comportamiento.

En el contexto del Machine Learning, o aprendizaje automático, con ayuda de las ciencias de la computación, se han desarrollado algoritmos avanzados de análisis que instrumentalizan estas técnicas (random forest, redes neuronales, métodos de ensembles). Modelos que aprenden automáticamente de los datos y son capaces de dar respuestas predictivas, a multitud de preguntas:

  • ¿Cuál es la probabilidad de que mi cliente haga un impago?
  • ¿Cómo debo hacer la segmentación de mi cartera de clientes?
  • ¿Cuál es la mejor oferta que debo hacerle?
  • ¿Qué precio debo ponerle a este producto?
  • ¿Cuáles son los grupos de competencia de mi empresa?
  • ¿Cuál va a ser la demanda de mi tienda mañana?

Las técnicas y tecnologías necesarias para responder a estas preguntas se imparten en los másteres Afi EscuelaMásteres de Ciencia de Datos, que presentan una zambullida en las técnicas analíticas modernas desde el punto de vista fundamental pero sin perder la perspectiva aplicada, aterrizada a negocio; pero también de Big Data, disciplina que proporciona las herramientas tecnológicas a los Data Scientists para abordar eficientemente problemas en las bases de datos actuales, tan ricas en información y variedad.

 

Autor: Mario Encinar 

Asesor Académico Data Science en Afi Escuela
Consultor Área de Analytics, Afi
MDSF por Afi
PhD en Física por UCM