Tendencias en el manejo de los datos

Desde hace varios años el manejo de los datos se ha vuelto cada vez mas desafiante, lo anterior debido a la inmensa cantidad de estos que se deben procesar para el análisis respectivo.
Big data es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Se considera un conjunto de datos que crecen rápidamente y que no pueden ser manipulados por las herramientas de gestión de bases de datos tradicionales.
Es tanta la información que se genera a diario en la web mediante las redes sociales, los buscadores, el almacenamiento de datos en la nube, etc., que resulta abrumador; y solo el hecho de saber cómo se consigue captar y analizar dicha información es sorprendente.
También se sabe que las redes sociales, hoy en día, aportan mucha información relevante que los usuarios comparten libre y públicamente en la web. Todo esto puede ser aprovechado por las empresas para detectar tendencias en el mercado y enfocar las acciones que se van a llevar a cabo, algo que ayuda a tomar mejores decisiones y a obtener mejores resultados.
Hoy en día también se habla de lagos de datos, debido a que los datos se han acumulado en las empresas a un ritmo acelerado durante años. Tal es el caso del internet de las cosas, que ha venido para agilizar aún más la creación de datos a medida que las fuentes se trasladan de la web a los dispositivos móviles, y luego a las máquinas. Todos esos datos generados hay que analizarlos de manera adecuada para poder tomar decisiones acertadas. Las ventajas las obtendrán aquellas empresas que sepan cómo hacerlo, al utilizar herramientas que faciliten el procesamiento masivo de información en el menor tiempo posible.
Por otro lado, están los dataset públicos, que son archivos que se encuentran alojados en la nube para ser consultados sin restricciones, los cuales están en distintos formatos; y es allí donde también surge el problema, pues los datos ya no son estructurados como comúnmente están en las bases de datos relacionales tradicionales para su utilización acostumbrada, pues estos se encuentran en formatos tales como JSON, CSV, DAT, ARFF, NCOL, etc. En estos casos, se hace necesario el uso de herramientas que permitan almacenar y procesar ese tipo de ficheros.
Las empresas, a escala mundial, han atacado esta problemática desde diferentes ángulos. Todas esas montañas de información generan un costo al no descubrir el valor asociado. Actualmente, quien tiene el liderazgo en términos de popularidad para analizar enormes cantidades de información es la plataforma de código abierto Hadoop, el cual es utilizado por numerosas compañías para satisfacer sus necesidades de procesado de big data. Algunas de las grandes compañías que emplean Hadoop son Yahoo!, que lo emplea para realizar los cálculos requeridos por su motor de búsqueda; Facebook, que presume de tener el clúster más grande de Hadoop, con más de 100 PB de datos; la NASA, para gestionar sus datos, e Intel, entre otras.
Hadoop está inspirado en el proyecto de Google File System y en el paradigma de programación MapReduce, el cual consiste en dividir en dos tareas (mapper-reducer) para manipular los datos distribuidos a nodos de un clúster, logrando un alto paralelismo en el procesamiento.
Tipos de datos que debe explorar big data
- Web y redes sociales
- Maquina a Maquina (M2M)
- Grandes transacciones de datos
- Biometría
- Internet de las cosas
Herramientas big data mas utilizadas
- Mongo DB (base de datos NoSQL)
- Hadoop (Hive, pig, Cloudera, MapR)
- Elasticsearch
- Apache Spark
- Apache Storm
- Lenguaje R
- Python
Para poder utilizar estas herramientas, es recomendable recibir capacitación en cualquiera de las que la empresa seleccione para el manejo de los datos; y deben ser profesionales en el área para lograr obtener el mejor aprendizaje. Porque en la medida en que se puedan utilizar adecuadamente, los análisis de los datos incidirán en las mejores decisiones que se tengan que tomar en cualquier momento. En El Salvador existen carreras universitarias en el manejo de datos que son relativamente nuevas; una de ellas es Ingeniería en Gestión de Base de Datos, incluida en la oferta educativa de la Utec.
Ing. Verónica Idalia Rosa de Rivera
Docente a tiempo completo Utec
Revista Enlaces – Publicado en revista enlaces edición °50 Marzo 2019