El arte de navegar a través de un océano de datos y llegar a buen puerto
El concepto de Big Data ha estado sonando cada vez más fuerte en los últimos años. Y no es para menos: la revolución tecnológica ha traído consigo una catarata de información que cada vez se hace más difícil de procesar. Hoy día, se manejan volúmenes de datos tan grandes que no es posible procesarlos y analizarlos con herramientas tradicionales. Es entonces cuando aparece el concepto de Big Data: grandes datos. Pero no solamente son muchos; son, además muy variados.
Así expuesto, parece algo muy abstracto. ¿De qué hablamos cuando hablamos de muchos datos muy variados? Hablamos, por ejemplo, del conjunto de Tweets bajo cierto hashtag. O de conductas de consumo de un determinado sector de la sociedad. De bases de datos de miles de Terabytes, como Wikileaks o Panamá Papers, de las transacciones de una empresa o de un censo poblacional. Hablamos de estructuras moleculares, de patrones de migración de personas, de las mediciones que puede recoger un termómetro, segundo a segundo, a lo largo de un año. Hablamos de muchos de datos que, en apariencia, no siguen ninguna lógica. Pero la lógica está oculta, y ahí es cuando entran en juego las herramientas de Big Data. Para descubrir las puntos de vista e historias que cuenta esa enorme y amorfa masa de información.
Copando la academia
El uso de las soluciones Big Data ya está completamente instalado en el mundo de la ciencia y la tecnología. Existen muchos proyectos de investigación de toda clase de áreas del conocimiento. Por ejemplo, en el terreno de la lingüística, el Language, Interaction and Computation Laboratory (CLIC) en conjunto con la Universidad de Trento, en Italia, se dedica al estudio de la comunicación verbal y no verbal, utilizando métodos cognitivos y también computacionales. Y existen muchos otros casos más de estudios que utilizan herramientas de Big Data para soportar sus investigaciones.
El Lineberger Comprehensive Cancer Center – Bioinformatics Group utiliza Hadoop y HBase, dos herramientas de software libre que permiten trabajar con grandes volúmenes de información, para analizar datos producidos por investigaciones relacionadas con el cáncer. En Colombia, la Universidad Distrital Francisco José de Caldas utiliza Hadoop para apoyar su proyecto de investigación relacionado con el sistema de inteligencia territorial de la ciudad de Bogotá. Y como estos, hay centenares de ejemplos en los que el uso de soluciones Big Data está ocupando un lugar central en la generación de conocimiento.
No todo es color de rosa en el mundo del Big Data
El potencial del Big Data es tan grande como su capacidad para manejar datos. Sin embargo, todavía existen muchos desafíos a enfrentar en los próximos años en los que, además, la cantidad de datos seguirá aumentando de forma exponencial. La problemática del Big Data se puede definir con las llamadas “5 V”: Volumen, Velocidad, Variedad, Veracidad y Valor. Las “5 V” resumen la problemática que enfrentan las instituciones a la hora de extraer información real y de alta calidad a partir de conjuntos de datos masivos, cambiantes y complejos. El primer desafío se asocia al enorme volumen de datos recolectados, lo cual hace difícil su organización y posterior limpieza. Pero no es el único.
Otro gran desafío tiene que ver con que los datos son muy cambiantes y su período de validez suele ser muy corto. Esto puede fácilmente producir conclusiones erróneas, que a su vez pueden llevar a tomar decisiones incorrectas. Es mucho lo que está en juego y por eso es de vital importancia la precisión y rigurosidad en el manejo de los datos. Un tercer desafío tiene que ver con que todavía no existen estándares de calidad de datos unificados. Recién en el 2011, la Organización Internacional de Normalización (ISO) publicó las normas de calidad de datos ISO 8000, pero dado que son relativamente recientes, todavía necesitan madurar y perfeccionarse. Además, la investigación sobre la calidad de datos de big data ha comenzado hace poco y aún no hay resultados tangibles.
Saber es poder
Pero, sin duda alguna, el mayor desafío del Big Data tiene que ver con la democratización de la información y, especialmente, con el uso ético de los datos. Hoy día, solo un puñado de gobiernos y empresas tienen la capacidad para analizar los hábitos, las preferencias, las creencias y más de las personas que componen la sociedad digital. Este conocimiento, que impacta directamente en la vida de los individuos, no es abierto, ni público, ni genera beneficios directos a los productores de los datos. De hecho, en la mayoría de los casos esos dueños ni siquiera saben quién posee sus datos ni qué uso se les está dando.
No solamente nos preguntamos con qué nivel de exactitud y rapidez seremos capaces de procesar la gran masa de datos que se registran día y noche. Lo que está en juego es algo más profundo. Es la privacidad misma. El conocimiento y el uso que se le da a ese conocimiento. Los grandes monopolios de la información, como Facebook y Google, ya están constituidos y tienen bases sólidas. Pero, ¿alcanzaremos un nivel de conciencia tal que nos permita empoderarnos de nuestra propia información y utilizarla en favor del bienestar social?
De cara al 2030, el desafío no es únicamente responder esa pregunta. El desafío es lograr que la respuesta sea un rotundo “sí”.