Hackeando el dato, descubriendo la verdad

Existen tal cantidad de dispositivos que continuamente están recogiendo datos, y muchos de ellos poniéndolos a disposición del público en general, que decir hoy en día que no se tienen datos es casi como decir que no se sabe dónde buscarlos.

Porque datos, los hay, y muchos, y en muchas fuentes, de pago, gratuitos, propios, externos, e incluso, se podrían cosechar de internet con algún web scraping, que no son más que herramientas para la extracción automatizada de datos que contienen las páginas web.

logistica hackeando el dato descubriendo la verdad cajasiete

Pero cuando ya tenemos los datos, tenemos que hackearlo, y sacar su valor, no el que contiene el dato individual, sino lo que dicen todos ellos juntos.

Cuando se obtienen unos datos por primera vez se realiza una limpieza básica, depurando lo más evidente y que casi se realiza sin esfuerzo, como es normalizar los datos (igualar formatos), descartar los campos que no aportan valor, como identificadores únicos del registro, dar formato a las variables (fechas, enteros, precisión en decimales, otros), o eliminar los registros innecesarios, como duplicados o registros que contienen datos que corresponden a pruebas o de forma categórica no reales.

Una vez realizadas estas tareas básicas de limpieza, los datos malos o no reales van a seguir escabulléndose, y la primera forma con la que los datos nos van a intentar engañar son dándonos información que no es real, mezclándose los datos buenos con los malos o erróneos, de tal forma que aparentemente todos parecen buenos hasta que la información que se genera dista de la percepción que se tiene y empieza a buscarse que es lo que está pasando.

Es ahí dónde empieza una de las partes más complicadas, más ardua y menos visible de un analista, y que nunca se ve y muchas veces se sobreentiende. Y es la limpieza del dato que aparentemente es bueno.

El 85% del tiempo de trabajo de un analista o de un departamento se dedica a estas labores, ya que si no se realizan las conclusiones que se extraigan de los datos pueden ser nefastas para la toma de decisiones, y peor aún, puede hacer perder la confianza en los datos y del análisis que se hace sobre ellos, desaprovechando una oportunidad de marcar la diferencia con respecto a otras empresas a través de la información que contienen los datos buenos.

business analytics

Una vez realizada esa limpieza de “quitar el polvo por arriba”, hay que profundizar en los datos, e intentar ver si son congruentes, tomar muestras, llegar al dato atómico y contrastarlo, ya sea con la realidad, otros informes ya dados por fiables o la consistencia de lo que el conjunto de datos está representando. Hay muchísimas técnicas y muchas formas para filtrar y depurar el dato, de forma que podamos identificar los correctos o reales.

Pero aun teniendo todos los datos reales, no garantizamos la inmunidad a los errores, las deficiencias y los fallos en la calidad de la información. Pues aunque todos los datos sean los correctos, el dato erróneo puede ser un dato correcto, real, pero tan inesperado y tan poco frecuente que podría tergiversar las conclusiones del análisis.

Son los que los estadísticos denominan como los Outlier o valores atípicos, que no son más que una observación que es numéricamente muy distante del resto de los datos, por lo que los análisis derivados de los conjuntos de datos que contienen este tipo de valores atípicos serán frecuentemente engañosos.

Un mal dato siempre nos la puede jugar, por lo que hay que ser cautelosos con ellos, desconfiados y sobre todo no confiarse hasta que tengamos la seguridad de que aunque haya datos erróneos, estos no son significativos.

Google Plus

Artículos Relacionados

Sobre el Autor

Ginés León

Ginés León

Licenciado en Estadística, ha centrado la carrera profesional en el campo de la logística, la gestión de equipos y la eficiencia de procesos. Alta formación en Investigación Operativa, Métodos de Predicción, Programación, Análisis y Explotación de Datos mediante diferentes Técnicas Estadísticas.

Además de la licenciatura, su formación cuenta con un Máster de Logística, un Máster en Matemáticas Aplicadas, un MBA, un Máster en Big Data y Business Intelligence y un Experto en Blockchain.

Ha trabajado y organizado operativas y procesos con los departamentos logísticos de diferentes empresas como Nespresso, La Caixa, Canal +, Disa, Bimbo, Endesa, y otras de calado internacional como Amway y NuSkin. En el ámbito público, ha colaborado y desarrollado operativas especiales con el Servicio Canario de Salud, especialmente el HUNSC y Gerencia de Atención Primaria de Tenerife.

Durante su etapa en el Grupo Valora, fue el responsable del desarrollo e implantación del Proyecto GDP, motivado por el cambio de normativa que regula el Transporte de Medicamentos a Temperatura Ambiente (15ºC - 25ºC), desde la valoración y decisión de compra de los equipos, a las operativas, Cuadros de Mando Integrales (CDMI) y Kpi.

Después de una carrera profesional de más de 9 años en los puestos de Subdirector de Operaciones para Canarias de SEUR y la Dirección Logística de 3 empresas del Grupo Valora, se plantea un nuevo reto en TITSA, empresa de transporte interurbano de Tenerife.

Durante el primer año desempeñó su trabajo como responsable de la Zona Sur de Tenerife. A partir del segundo año, Octubre 2017, ejerce como responsable de un nuevo departamento en Titsa, el departamento de Big Data & Data Science.

El Dpto. de Big Data & Data Science de TITSA fue reconocida como la Mejor Iniciativa Empresarial o de Administración Pública de Big Data de España en la cuarta edición de los Data Science Awards, que organiza anualmente, LUCA, la unidad de datos e Inteligencia Artificial de Telefónica.

Deja un comentario

Estás comentando como invitado.
He leído y acepto la Politica de privacidad y el Aviso legal.
Cajasietecontunegocio
Comprometidosconnuestragente

Suscríbete a nuestra Newsletter

¿Quién es el Responsable de tratamiento de sus datos? El responsable es Cajasiete, Caja Rural, S.C.C. Puede contactar con el Responsable de Protección de datos a través del correo electrónico dpo_cajasiete@cajasiete.com. ¿Con qué finalidad tratamos sus datos personales? Los datos facilitados serán utilizados para el envío periódico de nuestra newsletter, así como noticias e información de interés para el desarrollo y ayuda a negocios. No se tomarán decisiones automatizadas. Los datos personales facilitados se mantendrán hasta que revoque su consentimiento. ¿Cuál es la legitimación para el tratamiento de sus datos? La base legal para el tratamiento de los datos facilitados es su consentimiento prestado mediante la suscripción a la newsletter. ¿A qué destinatarios se comunicarán sus datos? Los datos únicamente se tratarán por el responsable y, no se realizarán cesiones de datos a terceros salvo obligación legal. No se prevén cesiones de datos a terceros países. ¿Cuáles son sus derechos cuando nos facilita sus datos?  Como titular de los datos usted tiene derecho a acceder, actualizar, rectificar y suprimir los datos, así como otros derechos, dirigiéndose a CAJASIETE en La dirección de correo electrónico dpo_cajasiete@cajasiete.com, acreditando su identidad.