La limpieza de datos: una tarea imprescindible

En este artículo nos centraremos en las acciones que podemos realizar en la limpieza de datos. Ya sean con datos propios o datos recogidos de otra entidad o institución, sin duda necesitaremos una fase inicial para limpiar y adecuar los datos a nuestras necesidades y más si es un proyecto basado en datos.

Estudios recientes hablan que entre el 60 y 80% del tiempo empleado en la realización de un proyecto sobre datos es empleado en la limpieza y preparación de dichos datos.

Obviaremos ahora la importancia de que los datos sean encontrables (y no solamente desde la propia web o portal donde se sirven) y que además sea haga por medio de una experiencia de usuario gratificante donde además de fácilmente accesibles, los datos estén claramente documentados y bien estructurados. Es responsabilidad del propietario o proveedor de los datos cuidar en el tiempo tanto la calidad de cada conjunto de datos como de su publicación en su repositorio o portal ya sea en aspectos legales, técnicos, documentales incluso comunicativos.

Acciones de limpieza

Entre las acciones de limpieza más importantes a realizar con nuestros datos para evitar problemas posteriores con su explotación y visualización son:

– Validación de los datos

Podemos realizar la validación de fechas (puede incrementarse el problema si además se mezclan formatos de distintos idiomas) o la validación de datos cuantitativos.

En este caso podemos encontrarnos datos en distintos formatos dependiendo del idioma donde el separador de miles y de decimales pueden ser distintos (coma o punto) y provocar problemas de interpretación. Además, en muchos casos debe verificarse que cumplan un determinado rango o intervalo numérico, por ejemplo, para la edad de personas. Hay que tener cuidado porque este tipo de error puede haberse producido simplemente al anonimizar los datos.

– La normalización de los valores

Uno de los problemas más comunes es la representación de un mismo concepto de diferentes formas o idiomas. Las abreviaturas son un ejemplo donde podríamos encontrarnos valores como UK, U.K. para Reino Unido o USA, EE.UU. para Estados Unidos o incluso valores correctos en distintos idiomas oficiales en una misma región o país (Valencia, València).
Deberíamos igualmente detectar también los errores ortográficos y corregirlos fácilmente (tildes, espacios en blanco antes, después y en medio de palabras, letras cambiadas, mayúsculas y minúsculas).

Otro problema parecido es la mezcla de escalas que han podido utilizarse para hacer más legibles cantidades de dinero por ejemplo en un presupuesto. Podemos tener 3.500.000 o 3,5M. para indicar la misma cantidad. En estos casos deberías uniformar los formatos para ser representados en la misma escala.

– Eliminación de información redundante que no aporta ningún valor.

Es muy recomendable la eliminación de columnas si posteriormente no las vamos a utilizar. Además de permitirnos trabajar más cómodamente luego podrían incrementar nuestro espacio de almacenamiento si utilizamos determinadas herramientas de visualización donde tengamos limitados este aspecto.

Finalmente podemos encontrar otros problemas más técnicos que podrían requerir:

  • Eliminación de registros (filas) duplicados que nos podemos encontrar si accedemos a gran cantidad de información desde varios sistemas. Es posible que cierta misma información esté presente en varios dominios con el fin de incrementar la velocidad de búsqueda.
  • Eliminación de campos (columnas) o filas enteras de información derivada de otros campos o filas (generalmente de funciones de agregado). Si bien no es un error es conveniente prescindir de ellos.
  • Detección de valores anómalos, outliers. Algunos son posibles de detectar a simple vista mientras que otros pueden ser necesarias técnicas estadísticas para identificarlos y valorar su eliminación o no.

Como veremos próximamente en una nueva entrada disponemos de herramientas adecuadas para estos fines y que además son usables y asequibles para cualquier ciudadano sin necesidad de capacidades científicas ni de requerir el manejo de un potente software de explotación de datos. Además, estas herramientas nos permitirán a su vez otras tareas en la adecuación de nuestros datos como son la creación de columnas basadas en otrasdivisión de valores en distintas filas o acciones que faciliten la explotación de nuestros datos como el filtrado o facetado.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Responsable de los datos: Nuria Portillo Poblador.
Finalidad: Controlar el spam, gestión de comentarios.
Legitimación: Tu consentimiento expreso.
Destinatario: Nuria Portillo Poblador. No se cederán datos a terceros, salvo obligación legal.
Derechos: Acceso, rectificación, supresión, anonimato, portabilidad y olvido de sus datos.