La importancia de construir un ETL de Calidad

Podríamos decir que es la parte de BI que los usuarios no ven reflejado directamente, sino que se nota indirectamente. El esfuerzo que se debe poner en el ETL es MAYÚSCULO porque la calidad en este desarrollo puede garantizar el éxito en el análisis de la información y presentación.

En el ETL se debe poner el mayor esfuerzo tanto en la fase de Diseño, como en la fase de construcción. Suele ocurrir que los usuarios se desesperen y suelan intentar acelerar el desarrollo del ETL, pero para cualquier profesional que esté trabajando en esta parte de BI, mi mejor consejo es que por nada del mundo negocie tiempos en ETL.

La construcción del ETL se puede dividir en varias partes:

  1. Un excelente diseño. Este es para mi el punto fundamental de todo, en mi experiencia he tenido la oportunidad de trabajar y entender los mejores desarrollos que he podido ver y siempre se han basado en el buen diseño y siempre el que se ha encargado de esto ha pensado en el futuro. No solo es saciar la necesidad actual, es lograr entender objetos que se pueden reutilizar. Algún día pondré pequeños tips de excelentes cosas que he visto y creado.
  2. Construcción. Se ha hablado en muchos lugares de este importante punto en el ETL, sin embargo se debe resaltar en la construcción algo y son las pruebas con datos, típicos y atípicos. Cuando se construye un ETL lo más importante no es construir un programa, es lograr probar el programa durante su construcción de tal forma que nos devuelva la información que necesitamos y que se cubran los mayores escenarios posibles. Digo los mayores escenarios posibles porque van a existir escenarios atípicos que no van a ser fácilmente detectables. Otro aspecto importante en la construcción y que viene del diseño es tener claro el mapeo de datos, para los que no conozcan mucho este término, lo estaré explicando en una próxima entrada.
  3. Pruebas. Es vital que se hagan pruebas, no solo por parte del usuario, antes de el usuario debería hacer pruebas otro ingeniero que pueda detectar problemas técnicos en los datos y de visualización. Este punto es vital y es en un 95% factible que se tengan que corregir los programas porque siempre va a existir algo que se debe cambiar, una transformación principalmente o incluir algo nuevo.
  4. Automatización. Este es un punto que comúnmente se olvida o se pone dentro de Construcción y se le asigna poco tiempo. Este es un punto muy importante porque se debe pensar en varias cosas, la carga inicial; la carga incremental; la estrategia para ir corriendo las fechas. A veces ocurre que se construye un ETL y no se hace la automatización o no se piensa en esto y se tienen grandes problemas, toca correr la información manualmente o simplemente se deba reconstruir una parte del ETL. Asignen tiempo para este ítem, es importante.
  5. Mantenimiento y Mejora. Esto es lo que mas olvida la gente de BI. Nadie cree que debe actualizar o mejorar algo que ya está construido y la verdad hay dos razones para que este punto se cumpla. Lo primero es que la tecnología avanza y las bases de datos cada vez proporcionan mas herramientas para hacer las cosas más eficientes y lo que funciona en una versión del RDBMS o de la tecnología utilizada, en la siguiente es algo no tan óptimo, un ejemplo de esto es por ejemplo los cursores y el Bulk en Oracle, hace varios años que el cursor es sobrepasado por el Bulk. La segunda razón es que se tiene que revisar las necesidades de negocios, las empresas de hoy en día cambian constantemente y son como niños en crecimiento, por tal motivo tenemos que estar cambiando también los programas que soportan el negocio y es obvio que los ETL's son un soporte grande para la toma de decisiones.
La calidad en el ETL garantiza buena visualización de la información, buen análisis, buena toma de decisiones, óptima explotación de los datos con minería de datos, confianza en la solución BI, usuarios contentos o sea FELICIDAD.

Comentarios

Entradas populares de este blog

Como Construir la dimension tiempo en SQL SERVER

Modelo en Copo de Nieve

Reiniciar el Intelligence Server de Microstrategy