Cada día, las empresas acumulan una mayor cantidad de documentación debido al aumento de procesos que pueden gestionarse desde un sistema informático. Por lo tanto, se produce una descentralización aún mayor en la toma de decisiones basada en datos.
Según diversos estudios, el 92% de las empresas invierten en almacenamiento, analítica e inteligencia artificial para sacar provecho de su información. Sin embargo, solo el 19% considera que toman las decisiones estratégicas adecuadas y fundamentadas en datos (Data Driven companies).
El problema, en numerosas ocasiones, reside en la diversa procedencia de los datos. Estos son recopilados desde diferentes fuentes, ya sea desde un sistema de producción y almacenaje, desde los diferentes departamentos de ventas, o incluso, desde diferentes departamentos financieros y de recursos humanos.
Además, hay que sumar que no todos los datos mantienen el mismo formato (XML, JSON, XLS…), lo que dificulta aún más su comparación. De este modo, surge la necesidad de crear ETLs.
¿QUÉ ES UNA ETL?
Una ETL, por sus siglas en inglés (Extract, Transform, Load) surge como una herramienta capaz de centralizar la información, extraerla de diferentes fuentes, transformar todos aquellos criterios deseados para su mejor comprensión o eliminación de erratas y posterior carga a un data warehouse de destino.
Estos movimientos de datos pueden programarse de forma regular o activarse para que se produzcan periódicamente. Los tipos de proyectos para los que se utilizan las herramientas ETL varían mucho, ya que estas herramientas están diseñadas para ser muy flexibles.
Algunos proyectos comunes serían:
- Migración de datos de aplicaciones de sistemas antiguos a nuevos
- Integración de datos de fusiones y adquisiciones corporativas recientes
- Integración de datos de proveedores y socios externos
- Recopilación de datos de transacciones para que trabajen personas de negocio, lo que comúnmente llamamos Data Marts o Data Warehouses
Una vez que una organización se decanta por una ETL, la compañía queda «casada» con esa herramienta en específico, ya que, se diseñará una gran cantidad de lógica en los procesos de movimiento de datos y se convertirá en parte vital para administrar su negocio. Por lo tanto, la compra y el uso de una herramienta ETL es un movimiento muy estratégico, incluso si, para empezar, está destinado a un pequeño proyecto táctico.
¿QUÉ FASES TIENE UNA ETL?
Fase de Extracción:
La mayoría de empresas cuenta con numerosas fuentes de datos y usa un sin fin de herramientas de análisis para producir business intelligence. La extracción consiste en traer data «cruda» de diferentes fuentes y transferirla a un repositorio único.
Algunos ejemplos de data sources pueden ser:
- Sistemas legacy o heredados
- Bases de datos relacionales
- Archivos XML
- Sistemas CRM
- Archivos XLS
- Aplicaciones de negocio
- Herramientas de analíticas
- JSON
Tener fuentes de datos diferentes representa un reto muy importante para las organizaciones, dado que al almacenar información de distinta naturaleza, los costes de gobierno del dato y de almacenamiento aumentan significativamente.
Adicionalmente, hay ecosistemas que no son compatibles con otras soluciones de forma nativa, lo que dificulta aún más el entrelazar información con diferentes orígenes y diferentes formatos entre sí.
Fase de Transformación:
La etapa de limpieza y organización es la etapa en la que todos los datos procedentes de múltiples sistemas de origen se normalizan y se convierten a un formato de conveniencia, lo que mejora su calidad, su gobierno y su explotación. Durante esta etapa, los datos pueden someterse a diversas operaciones: limpieza, filtrado, desacople, combinación, reorganización, duplicación….
Algunas de las principales ventajas de la transformación automática frente a la manual es garantizar que se realicen cambios globales en los conjuntos de datos de manera sistemática, por ejemplo, se pueden eliminar los caracteres especiales y cambiar completamente la disposición de los datos una vez completado el proceso de transformación de datos, se pueden eliminar elementos que se encuentren duplicados, modificar el formato de los campos, suprimir filas y columnas en blanco o que sean redundantes, y mantener únicamente aquellos datos que sean interesantes almacenar para su posterior explotación.
Fase de Carga:
Tras tener esta nueva vista, con una nueva perspectiva, se deben cargar esos nuevos datos seleccionados en un almacén de datos. La carga de una gran cantidad de datos en un data warehouse por ejemplo, facilita el acceso y el uso de la información, independientemente de cuántos tipos de datos diferentes hayan pasado por el proceso de ETL.
El resultado es un conjunto limpio de datos, estructurados y correctamente clasificados, que están listos para ser utilizados, lo que ayudará a las organizaciones a tomar decisiones críticas de negocio y a realizar análisis posteriores de manera eficaz.
¿QUÉ VENTAJAS TIENE UNA ETL?
- Permite un repositorio de datos común
- Mejora la toma de decisiones
- Permite la comparación de datos de muestra entre el sistema de origen y el de destino
- Ayuda a mejorar la productividad, ya que codifica y reutiliza sin necesidad de conocimientos técnicos adicionales. Las ETL ofrecen un contexto histórico profundo para el negocio
- Ayuda a identificar patrones y conocimientos significativos
- Convierte datos variados en un formato coherente
- Ayuda a obtener business intelligence a partir de los datos
- Contiene componentes fácilmente utilizables
- Gestiona sin esfuerzo la compleja transformación
- Ofrece la máxima rentabilidad de la inversión, es decir, roi
A pesar de que estas herramientas se pueden programar con cualquier lenguaje (Java, C, C++, PHP…) están programadas principalmente en Python debido a la gran cantidad de librerías existentes, y se suelen ejecutar con Apache Spark y PySpark
ALTERYX
Sin embargo, existe una brecha importante entre los programadores y los analistas de datos, ya que los primeros tienen el conocimiento técnico, para llevarlo a cabo, y los segundos son quien deben “jugar” con los datos para llegar a conclusiones válidas para el desarrollo de negocio. Esto supone una coordinación y una pérdida de eficiencia valorada en millones de € anuales que puedes calcular gracias a la Alteryx APA Platform™.
Es por ello que durante los últimos años, han surgido herramientas Low code que han revolucionado los procesos ETL, dando potestad a los usuarios finales (Data analysts) de hacer sus propias extracciones, transformaciones y carga de datos para su posterior análisis.
Estas herramientas van más allá, dando la posibilidad de aplicar diferentes módulos que permiten el análisis mediante Inteligencia Artificial (machine y Deep learning) y obtener las conclusiones.
En este video mostramos cómo en menos de 5 minutos creamos una ETL para la extracción de un set de datos XML y posterior transformación y carga a una bbdd relacional con nuestra herramienta ALTERYX.
Alteryx facilita el acceso a datos dispares, el análisis y la ciencia de datos a través de una plataforma sin código y amigable con el código. Permite empoderar a los analistas de negocio para que puedan automatizar sus flujos de analíticas y de procesos completos en el contexto del resultado comercial deseado.
La plataforma cuenta con una interfaz intuitiva que permite arrastrar y soltar bloques que permiten la conectividad con diferentes fuentes de información y su posterior transformación y análisis.
Alteryx está presente en todas las áreas de la empresa:
RRHH | FINANZAS | MARKETING & VENTAS | OPERACIONES | CADENA DE SUMINISTRO |
---|---|---|---|---|
Retención del empleado | Automatización de impuestos | Segmentación | Gestión de incidencias | Previsión de demanda |
EGS | Auditoria y cumplimiento | Previsión | Análisis de tiempo de respuesta | Optimización de inventario |
Reclutamiento | Reconciliación diaria | Clientes 360 | Análisis del centro de llamadas | Mantenimiento predictivo |
Rendimiento | Planificación y análisis financiero | Rotación | Sentimiento del cliente | Planificación de capacidad |
Gestión | ||||