Qué herramientas hacen posible el Big Data y el BI
Antes de adentrarnos en cómo podemos utilizar el Big Data para la mejora de la movilidad y la toma de decisiones en el ámbito logístico, vamos a dar un repaso muy superficial a las principales herramientas que se utilizan en este campo.
Tal y como vimos en el primer artículo, hasta ahora y en la mayoría de las empresas el tratamiento de los datos lo engloba el Departamento de Data Science a través del Data Analytics, el Business Intelligence y el Data Mining, dónde se analizan los datos históricos para dar respuesta a lo que ha venido sucediendo y, en el mejor de los casos, intentar predecir a corto plazo lo que puede suceder. Los datos son tratables en cuanto a cantidad, y la mayoría son generados internamente por las empresas.
Actualmente la evolución de estos análisis pasa por el Big Data, al intentar llegar al procesamiento de la información en tiempo real para la toma de decisiones, y a la gran cantidad de datos que pueden llegar a tratar, tanto de fuentes internas (Programas de Software de la empresa, ERP) como externas (Internet, Redes Sociales, Archivos provenientes de Open Data, dispositivos IoT), incorporando el Aprendizaje Automático (Machine Learning) para trabajar en escenarios de lo que puede ocurrir, además de automatizar las decisiones en base a modelos que aprenden en base a un entrenamiento.
Empresas como IBM (con su herramienta Watson), Google (con TensorFlow), Amazon (en su entorno Cloud Amazon) y Microsoft (en su entorno Azure) están poniendo a disposición de las empresas soluciones enfocadas al procesamiento y tratamiento de la información, con herramientas de AI (Inteligencia Artificial), Interfaces de reconocimiento del lenguaje natural, o soluciones Machine Learning o Deep Learning.
Para la visualización de los datos actualmente se posicionan en el mercado las herramientas Power BI, Qlik y Tableu (http://www.goomspain.com/es/cuadrante-magico-gartner-2017-microsoft/), si hacemos referencia a la última clasificación que hace el diagrama de Garntner (http://www.solopiensoentic.com/cuadrante-magico-de-gartner/). Todos ellos tienen versión gratuita de escritorio, Estas herramientas tienen la capacidad de representar la información, ya sea de forma descriptiva o a través de la inferencia (predicción) aplicando las metodologías anteriormente comentadas para la toma de decisiones. Todas ellas conectan con herramientas básicas para la inferencia de los datos como Python y el paquete estadístico R.
Python es un lenguaje de programación que tiene desarrolladas muchas librerías para extraer información de grandes cantidades de datos, como librerías de Redes Neuronales, Maching Learning, algoritmos de regresión, series temporales, etc, al igual que R, siendo éste más específico como software estadístico. Python además tiene la potencia y particularidad de ser un buen lenguaje de programación, sobre el que se podría programar pequeños aplicaciones para conectarse a páginas web y extraer información que no estaría accesible de una forma directa, sino a través de pequeñas consultas sobre la web, por ejemplo si queremos extraer de una web de reserva de habitaciones de un hotel los precios de un determinado mes.
Hasta ahora hemos visto las principales herramientas para el análisis de grandes cantidades de datos, que permiten aplicar diferentes técnicas de análisis para extraer la información que esconden los datos, así como visualizadores para la representación de los resultados y la toma de decisiones. Pero nos encontramos con un problema, el cómo tratarlos y cómo procesarlos, pues cuando hablamos de Big Data se necesita mucho almacenamiento y mucha capacidad de procesamiento.
Para ello existen herramientas como Apache Spark o Hadoop - Map Reduce, las cuales han permitido almacenar, procesar y analizar grandes volúmenes de datos. Digamos que estas herramientas son los verdaderos motores del Big Data.
Estas herramientas de Software permiten distribuir los ficheros en nodos, que no son otra cosa que ordenadores, y hacen posible la capacidad de ejecutar procesos en paralelo de una forma sencilla para los programadores, de forma que el esfuerzo de procesar la información de un determinado fichero, se distribuye en todos aquellos nodos (ordenadores) que componen la red Hadoop o Spark.
En este artículo hemos realizado un pequeño recorrido a gran altitud de una serie de herramientas que no son más que la punta del iceberg que ha hecho posible la gran incursión en la actualidad del Big Data y el BI.
Y no son las únicas, de hecho, la gran expansión del Big Data parte por un lado de la gran cantidad de herramientas que existen para el análisis cómo para dar solución al reto del almacenamiento y tratamiento de grandes cantidades de datos, asequibles en cuanto a coste, y que no requieren de una gran inversión en Hardware para empezar a explotarlas.
Sobre el Autor
Ginés León
Licenciado en Estadística, ha centrado la carrera profesional en el campo de la logística, la gestión de equipos y la eficiencia de procesos. Alta formación en Investigación Operativa, Métodos de Predicción, Programación, Análisis y Explotación de Datos mediante diferentes Técnicas Estadísticas.
Además de la licenciatura, su formación cuenta con un Máster de Logística, un Máster en Matemáticas Aplicadas, un MBA, un Máster en Big Data y Business Intelligence y un Experto en Blockchain.
Ha trabajado y organizado operativas y procesos con los departamentos logísticos de diferentes empresas como Nespresso, La Caixa, Canal +, Disa, Bimbo, Endesa, y otras de calado internacional como Amway y NuSkin. En el ámbito público, ha colaborado y desarrollado operativas especiales con el Servicio Canario de Salud, especialmente el HUNSC y Gerencia de Atención Primaria de Tenerife.
Durante su etapa en el Grupo Valora, fue el responsable del desarrollo e implantación del Proyecto GDP, motivado por el cambio de normativa que regula el Transporte de Medicamentos a Temperatura Ambiente (15ºC - 25ºC), desde la valoración y decisión de compra de los equipos, a las operativas, Cuadros de Mando Integrales (CDMI) y Kpi.
Después de una carrera profesional de más de 9 años en los puestos de Subdirector de Operaciones para Canarias de SEUR y la Dirección Logística de 3 empresas del Grupo Valora, se plantea un nuevo reto en TITSA, empresa de transporte interurbano de Tenerife.
Durante el primer año desempeñó su trabajo como responsable de la Zona Sur de Tenerife. A partir del segundo año, Octubre 2017, ejerce como responsable de un nuevo departamento en Titsa, el departamento de Big Data & Data Science.
El Dpto. de Big Data & Data Science de TITSA fue reconocida como la Mejor Iniciativa Empresarial o de Administración Pública de Big Data de España en la cuarta edición de los Data Science Awards, que organiza anualmente, LUCA, la unidad de datos e Inteligencia Artificial de Telefónica.