Tortura de agua: una analogía analítica va demasiado lejos

análisis de goteo

Los datos, como el agua, se presentan de muchas formas. La mente humana ha evolucionado para filtrar la mayoría de los datos que nos llegan porque simplemente hay muchos de ellos.

Cuando abres los ojos y los oídos, los datos están en todas partes. El color de la pared, el sonido del aire acondicionado y el olor del café de tu vecino se tratan como humedad. El agua está en el aire todo el tiempo, pero no es útil prestarle mucha atención.

Cuando el agua se condensa en niebla, te obliga a verla y hace que entender el mundo que te rodea sea aún más difícil. Los conjuntos de datos incompletos, los datos corruptos, la mala ciencia, las conclusiones falsas y el sesgo cognitivo te hacen perder el rumbo en la niebla.

Los datos caen como lluvia. Cuando solo hay un poco, es tremendamente insatisfactorio, lo suficiente como para ensuciar el auto y confundir la conversación. Te encuentras limpiando la mancha de tus lentes cuando alguien lanza algún dato aleatorio, obtenido de alguna fuente oscura.

  • Agua estancada en un estanque poco profundo es peligroso. Los datos, recopilados de un suministro no confiable, ni depurados ni normalizados y que se dejen estancados, pueden llevar fácilmente a conclusiones erróneas.
  • A goteo constante de agua puede ser suficiente para llenar una cantimplora o mantener un ecosistema boscoso. Solo tres puntos de datos (la cantidad de correos electrónicos enviados, versus abiertos, versus clics) pueden sostener un programa de marketing.
  • A flujo más saludable de datos en forma de un pequeño arroyo se puede utilizar para bañarse. Un flujo de datos continuo permite la evaluación comparativa y la comparación histórica. La optimización de la página de destino se puede lograr con datos de conversión constantes.
    A río modesto Puede alimentar un molino para aserrar madera o moler trigo. Un motor de recomendaciones solo necesita la contribución confiable de un puñado de afluentes para proporcionar un aumento en el valor de los carritos de compras.
  • A cascada de puede impulsar una enorme rueda hidráulica y una afluencia suficiente de información puede impulsar un sistema de contenido dinámico en tiempo real.
  • A río que sea lo suficientemente ancho y profundo puede soportar toda una industria del transporte. Una cantidad suficiente de datos puede hacer flotar barcazas y buques de carga en forma de una colección de cookies de redes publicitarias, agregadores de datos de programas de tarjetas de fidelización y corredores de datos.

Cuando los datos llegan en cantidades esperadas en momentos previstos, se pueden capturar, canalizar y poner en uso. Los sistemas de riego, las presas y los embalses brindan una sensación de control y permiten la construcción de una infraestructura en constante expansión con canales, esclusas y presas. Los almacenes de datos se han construido sobre flujos menos confiables.

La limpieza es junto a la piedad

El agua limpia es vital para el éxito de la vida, el riego, el funcionamiento de plantas de energía, etc. La definición de "limpia" podría cambiar para este propósito; está bien si hay algas en el agua que enfría una planta de energía y no es aceptable si hay más de 10 partes por billón de arsénico en el agua potable.

Los datos son los mismos. En una solicitud de correo directo, si tiene el título de una persona (Sr., Sra., Sra.) Es intrascendente ... a menos que esté enviando un correo a los médicos. Pero los datos sucios te harán tropezar cada vez.

Como científico jefe de datos de EE. UU., DJ Patil, póngalo en una Cumbre de CTO de la Primera Ronda, “Si no está pensando en cómo mantener sus datos limpios desde el principio, está jodido. Lo garantizo. Tratar de limpiarlo después del hecho llevará al menos meses ".

Si calienta el agua hasta el punto de ebullición, puede impulsar una revolución industrial completa. Los datos parecen estar haciendo lo mismo. Desde el momento en que las computadoras pueden almacenar y calcular, los datos se han recopilado tan rápido como se pudo crear el equipo de almacenamiento para hacerlo.

El lago de datos

A medida que los datos de estos afluentes se filtran a través de los motores de los molinos, todo termina en el lago, detrás de la presa. A medida que los datos se emiten de forma controlada, alimentan las turbinas de la industria de datos; esos motores gigantes de procesamiento de datos con nombres como Google y Facebook. Aquí no habrá sequía.

Y, finalmente, hay un charco de agua profundo, esperando que el analista se sumerja. Equipo de buceo y arpón en la mano, el analista investiga las profundidades, mapea nuevos terrenos y descubre nuevas especies. Es un momento muy emocionante para ser un explorador de datos.

Es por eso que muchos de ellos se han presentado al Cumbre eMetrics desde 2002. La próxima oportunidad está en Boston, del 27 de septiembre al 1 de octubre de 2015.

Registro de eMetrics Summit

Un puente lejano

¿Y qué hay del poder de los datos para esculpir el próximo Gran Cañón? ¿Qué pasa con el derretimiento glacial de datos estructurados? ¿Cómo tratamos las aguas residuales en un mundo cada vez más consciente de la privacidad?

Son preguntas para otro momento y agua bajo el puente.

¿Qué piensas?

Este sitio usa Akismet para reducir el correo no deseado. Descubra cómo se procesan los datos de sus comentarios.