Estandarización de datos: definir, probar y transformar

Estandarización de datos

Si bien las organizaciones se orientan hacia el establecimiento de una cultura de datos en toda la empresa, muchas todavía luchan por obtener los datos correctos. Extraer datos de fuentes dispares y obtener diferentes formatos y representaciones de lo que se supone que es la misma información provoca serios obstáculos en su viaje de datos.

Los equipos experimentan retrasos y errores mientras realizan sus operaciones de rutina o extraen información de los conjuntos de datos. Estos problemas obligan a las empresas a introducir un mecanismo de estandarización de datos, que garantiza que los datos estén presentes en una vista coherente y uniforme en toda la organización. 

Echemos un vistazo más profundo al proceso de estandarización de datos: qué significa, los pasos que implica y cómo puede lograr una vista de datos estándar en su empresa.

¿Qué es la estandarización de datos?

En pocas palabras, la estandarización de datos es el proceso de transformar valores de datos de un formato incorrecto a uno correcto. Para habilitar una vista de datos estandarizada, uniforme y consistente en toda la organización, los valores de los datos deben cumplir con el estándar requerido, en el contexto de los campos de datos a los que pertenecen.

Ejemplo de errores de estandarización de datos

Por ejemplo, el registro del mismo cliente que reside en dos ubicaciones diferentes no debe contener discrepancias en el nombre y apellido, la dirección de correo electrónico, el número de teléfono y la dirección residencial:

Nombre Correo electrónico Número de teléfono Fecha de nacimiento Género Dirección residencial
Juan Oneel juan.neal@gmail.com 5164659494 14/2/1987 M 11400 W Olímpico BL # 200
1 Fuente

Nombre Apellidos Correo electrónico Número de teléfono Fecha de nacimiento Género Dirección residencial
John O'neal juan.neal_gmail.com +1 (516) 465-9494 2/14/1987 Hombre 11400 W Olímpico 200
2 Fuente

En el ejemplo anterior, puede ver los siguientes tipos de inconsistencias:

  1. Estructural: La primera fuente cubre el Nombre del cliente como un solo campo, mientras que la segunda lo almacena como dos campos: Nombre y Apellido.
  2. Patrón: La primera fuente tiene una patrón de correo electrónico válido en el campo de la dirección de correo electrónico, mientras que al segundo le falta visiblemente el @ símbolo. 
  3. Tipo de datos: La primera fuente solo permite dígitos en el campo Número de teléfono, mientras que la segunda tiene un campo de tipo cadena que también contiene símbolos y espacios.
  4. Formato: La primera fuente tiene la fecha de nacimiento en formato MM/DD/AAAA, mientras que la segunda la tiene en formato DD/MM/AAAA. 
  5. Valor del dominio: La primera fuente permite que el valor de género se almacene como M o F, mientras que la segunda fuente almacena el formulario completo: masculino o femenino.

Tales inconsistencias de datos lo llevan a cometer errores graves que pueden hacer que su empresa pierda mucho tiempo, costos y esfuerzo. Por esta razón, implementar un mecanismo de extremo a extremo para la estandarización de datos es crucial para mantener la higiene de sus datos.

¿Cómo estandarizar los datos?

La estandarización de datos es un proceso simple de cuatro pasos. Pero dependiendo de la naturaleza de las inconsistencias presentes en sus datos y de lo que está tratando de lograr, los métodos y técnicas utilizados para la estandarización pueden variar. Aquí, presentamos una regla general genérica que cualquier organización puede usar para superar sus errores de estandarización. 

  1. Definir cuál es el estándar

Para alcanzar cualquier estado, primero debe definir cuál es realmente el estado. El primer paso de cualquier proceso de estandarización de datos es identificar lo que se necesita lograr. La mejor manera de saber lo que necesita es comprender los requisitos comerciales. Debe escanear sus procesos comerciales para ver qué datos se requieren y en qué formato. Esto le ayudará a establecer una línea de base para sus requisitos de datos.

Una definición estándar de datos ayuda a identificar:

  • Los activos de datos cruciales para su proceso comercial, 
  • Los campos de datos necesarios de esos activos,
  • El tipo de datos, el formato y el patrón al que deben ajustarse sus valores,
  • El rango de valores aceptables para estos campos, etc.

  1. Probar conjuntos de datos contra el estándar definido

Una vez que tenga una definición estándar, el siguiente paso es probar qué tan bien se están desempeñando sus conjuntos de datos en comparación con ellos. Una forma de evaluar esto es usar perfil de datos herramientas que generan informes completos y encuentran información como el porcentaje de valores que se ajustan a los requisitos del campo de datos, tales como:

  • ¿Siguen los valores el tipo de datos y el formato requeridos?
  • ¿Están los valores fuera del rango aceptable?
  • ¿Los valores utilizan formas abreviadas, como abreviaturas y apodos?
  • sí hay direcciones estandarizadas según sea necesario, como estandarización de USPS para direcciones de EE.UU.?

  1. Transformar valores no conformes

Ahora es el momento de transformar los valores que no se ajustan al estándar definido. Echemos un vistazo a las técnicas comunes de transformación de datos que se utilizan.

  • Análisis de datos – Algunos campos de datos deben analizarse primero para obtener los componentes de datos necesarios. Por ejemplo, analizar el campo de nombre para separar el nombre, el segundo nombre y el apellido, así como cualquier prefijo o sufijo presente en el valor.
  • Tipo de datos y conversión de formato – Es posible que deba eliminar los caracteres no conformes durante la conversión, por ejemplo, eliminar símbolos y letras de un número de teléfono de solo dígitos.
  • Coincidencia y validación de patrones – La conversión de patrones se realiza configurando una expresión regular para el patrón. Para los valores de dirección de correo electrónico que se ajustan a una expresión regular, deben analizarse y transformarse en el patrón definido. una dirección de correo electrónico se puede validar usando la expresión regular:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Expansión de abreviaturas – Los nombres de empresas, direcciones y nombres de personas a menudo contienen formas abreviadas que pueden hacer que su conjunto de datos contenga representaciones diferentes de la misma información. Por ejemplo, es posible que deba expandir los estados del país, como convertir NY en New York.
  • Eliminación de ruido y corrección ortográfica – Ciertas palabras realmente no agregan ningún significado a un valor y, en cambio, introducen mucho ruido en un conjunto de datos. Dichos valores se pueden identificar en un conjunto de datos comparándolo con un diccionario que contiene estas palabras, marcándolos y decidiendo cuáles eliminar de forma permanente. El mismo proceso se puede ejecutar para encontrar faltas de ortografía y errores tipográficos.

  1. Vuelva a probar el conjunto de datos contra el estándar definido

En el paso final, el conjunto de datos transformado se vuelve a probar con el estándar definido para averiguar el porcentaje de errores de estandarización de datos que se corrigieron. Para los errores que aún permanecen en su conjunto de datos, puede ajustar o reconfigurar sus métodos y ejecutar los datos a través del proceso nuevamente. 

Envolver

La cantidad de datos que se generan hoy, y la variedad de herramientas y tecnologías que se utilizan para capturar estos datos, está llevando a las empresas a enfrentar el terrible desorden de datos. Tienen todo lo que necesitan, pero no están muy seguros de por qué los datos no están presentes en una forma aceptable y utilizable. La adopción de herramientas de estandarización de datos puede ayudar a corregir tales inconsistencias y habilitar una cultura de datos muy necesaria en toda su organización.

¿Qué piensas?

Este sitio usa Akismet para reducir el correo no deseado. Descubra cómo se procesan los datos de sus comentarios.