Hackeando el dato, descubriendo la verdad

Existen tal cantidad de dispositivos que continuamente están recogiendo datos, y muchos de ellos poniéndolos a disposición del público en general, que decir hoy en día que no se tienen datos es casi como decir que no se sabe dónde buscarlos.

Porque datos, los hay, y muchos, y en muchas fuentes, de pago, gratuitos, propios, externos, e incluso, se podrían cosechar de internet con algún web scraping, que no son más que herramientas para la extracción automatizada de datos que contienen las páginas web.

logistica hackeando el dato descubriendo la verdad cajasiete

Pero cuando ya tenemos los datos, tenemos que hackearlo, y sacar su valor, no el que contiene el dato individual, sino lo que dicen todos ellos juntos.

Cuando se obtienen unos datos por primera vez se realiza una limpieza básica, depurando lo más evidente y que casi se realiza sin esfuerzo, como es normalizar los datos (igualar formatos), descartar los campos que no aportan valor, como identificadores únicos del registro, dar formato a las variables (fechas, enteros, precisión en decimales, otros), o eliminar los registros innecesarios, como duplicados o registros que contienen datos que corresponden a pruebas o de forma categórica no reales.

Una vez realizadas estas tareas básicas de limpieza, los datos malos o no reales van a seguir escabulléndose, y la primera forma con la que los datos nos van a intentar engañar son dándonos información que no es real, mezclándose los datos buenos con los malos o erróneos, de tal forma que aparentemente todos parecen buenos hasta que la información que se genera dista de la percepción que se tiene y empieza a buscarse que es lo que está pasando.

Es ahí dónde empieza una de las partes más complicadas, más ardua y menos visible de un analista, y que nunca se ve y muchas veces se sobreentiende. Y es la limpieza del dato que aparentemente es bueno.

El 85% del tiempo de trabajo de un analista o de un departamento se dedica a estas labores, ya que si no se realizan las conclusiones que se extraigan de los datos pueden ser nefastas para la toma de decisiones, y peor aún, puede hacer perder la confianza en los datos y del análisis que se hace sobre ellos, desaprovechando una oportunidad de marcar la diferencia con respecto a otras empresas a través de la información que contienen los datos buenos.

business analytics

Una vez realizada esa limpieza de “quitar el polvo por arriba”, hay que profundizar en los datos, e intentar ver si son congruentes, tomar muestras, llegar al dato atómico y contrastarlo, ya sea con la realidad, otros informes ya dados por fiables o la consistencia de lo que el conjunto de datos está representando. Hay muchísimas técnicas y muchas formas para filtrar y depurar el dato, de forma que podamos identificar los correctos o reales.

Pero aun teniendo todos los datos reales, no garantizamos la inmunidad a los errores, las deficiencias y los fallos en la calidad de la información. Pues aunque todos los datos sean los correctos, el dato erróneo puede ser un dato correcto, real, pero tan inesperado y tan poco frecuente que podría tergiversar las conclusiones del análisis.

Son los que los estadísticos denominan como los Outlier o valores atípicos, que no son más que una observación que es numéricamente muy distante del resto de los datos, por lo que los análisis derivados de los conjuntos de datos que contienen este tipo de valores atípicos serán frecuentemente engañosos.

Un mal dato siempre nos la puede jugar, por lo que hay que ser cautelosos con ellos, desconfiados y sobre todo no confiarse hasta que tengamos la seguridad de que aunque haya datos erróneos, estos no son significativos.

Google Plus
LinkedIn

Artículos Relacionados

Sobre el Autor

Ginés León

Ginés León

Licenciado en estadística, ha centrado la carrera profesional en el campo de la logística, la gestión de equipos y la eficiencia de procesos.

Además de la licenciatura, su formación cuenta con un Máster de Logística, un Máster en Matemáticas Aplicadas, cuyo PFM se basó en la modelización de las recogidas de las muestras hematológicas en la isla de Tenerife, la cual lleva implantada desde el año 2011, un MBA, cuyo PFM tuvo que ver con la Smart City y la gestión de parking, y en el año 2017 tuvo la oportunidad de realizar un Máster en Big Data y Business Intelligence.

Ha trabajado y organizado operativas y procesos con los departamentos logísticos de diferentes empresas como Nespresso, La Caixa, Canal +, Disa, Bimbo, Endesa, y otras de calado internacional como Amway y NuSkin.

En el ámbito público, ha colaborado y desarrollado operativas especiales con el Servicio Canario de Salud, especialmente el HUNSC y Gerencia de Atención Primaria de Tenerife, operativas que a día de hoy se siguen ejecutando. En su última etapa en el Grupo Valora, lideraba el desarrollo e implantación del Proyecto GDP, motivado por el cambio de normativa que regula el Transporte de Medicamentos a Temperatura Ambiente (15ºC - 25ºC), desde la valoración y decisión de compra de los equipos, a las operativas, Cuadros de Mando Integrales (CDMI) y Kpi.

Alta formación en Investigación Operativa, Métodos de Predicción, Programación y Explotación de Datos mediante diferentes Técnicas Estadísticas.

Después de 9 años progresando y alcanzado la Dirección Logística de 3 empresas de un Grupo Empresarial, se plantea un nuevo reto, que desde principios de Septiembre de 2016 está en TITSA, empresa de transporte interurbano de Tenerife.

Durante el primer año su desempeño fue como responsable de la Zona Sur de Tenerife, en la qe basándose en el modelo de gestión EFQM, su desempeño se ajustó a una visión más estratégica de la empresa con la implantación de CDM de Gestión, Explotación, y Kpi.

A partir del segundo año, Octubre 2017, ejerce como responsable de un nuevo departamento en Titsa, el departamento Data Science, el cual llevará la estrategia de los datos, actualizará las herramientas BI, diseñará los CDMI para el control y el seguimiento de la estrategia de la empresa y empezará a utilizar el Big Data para la predicción y la valoración del riesgo, entre otras cosas.

Deja un comentario

Estás comentando como invitado.
Cajasietecontunegocio
Comprometidosconnuestragente

Suscríbete a nuestra Newsletter