Descripción
• Desarrollo de procesos ETL para carga de datos procedentes de múltiples fuentes en el Data Lake del cliente
•Integración de nuevas fuentes de datos en los componentes de arquitectura de captura de datos: Metadata
•Gestión de la calidad de los datos, control de inventario de datos y Delta Management para asegurar que la captura se configura del mismo modo que el resto de fuentes que ya han sido cargadas/integradas en el Data Lake
•Diseño e implementación de tablas Hive para consultar los datos cargados y agregar datos
•Diseño e implementación de consultas usando HiveQL e Impala
•Diseño de procesos de workflow usando Spring Batch para coordinar la ejecución de diferentes componentes Java que han de correr en cluster Hadoop.
•Diseño e implementación de procesos de salida para exportar datos cluster a los consumidores.
•Análisis y diseño ETL
•Desarrollo y despliegue de procesos ETL (usando map/reduce, spark)
•Diseño e implementación de tables Hive
•Diseño y desarrollo de test de Unidad e integración
-
Tipo de contrato
Sin especificar
-
Salario