Puesto: Ingeniero de Datos Senior
Trabajo remoto: INDIA
*Solo son elegibles consultores locales en INDIA.
*Solo son elegibles consultores locales en INDIA.
*Sin patrocinio de visado
Responsabilidades principales:
- Diseñar, desarrollar y mantener canalizaciones de datos escalables usando Python, PySpark y otros lenguajes de programación modernos para soportar tanto cargas de trabajo por lotes como en streaming
- Construir y optimizar marcos de procesamiento de datos en plataformas en la nube como Databricks o Snowflake, garantizando rendimiento, fiabilidad y eficiencia en costes
- Diseñar e implementar modelos de datos robustos, incluyendo esquemas transaccionales (OLTP) y dimensionales (OLAP), para apoyar la analítica, la elaboración de informes y la integración de aplicaciones
- Desarrollar código SQL de alta calidad que incluya consultas complejas, procedimientos almacenados y vistas, con un enfoque en la optimización del rendimiento y patrones eficientes de acceso a los datos
- Crear y gestionar la orquestación de flujos de trabajo utilizando Apache Airflow o herramientas similares, asegurando una programación fiable, gestión de dependencias y monitorización
- Implementar y hacer cumplir la gobernanza de datos y los estándares de metadatos mediante herramientas como Microsoft Purview, incluyendo la línea de datos, clasificación, catalogación y políticas de seguridad
- Construir marcos automatizados de calidad y validación de datos para garantizar la precisión, completitud y fiabilidad de los conjuntos de datos de producción
- Colaborar con equipos multifuncionales, incluidos arquitectos de datos, analistas, científicos y partes interesadas del negocio, para comprender los requisitos y ofrecer soluciones de datos escalables y bien diseñadas
- Liderar sesiones de diseño técnico y revisiones de código, promoviendo las mejores prácticas de ingeniería, la reutilizabilidad y la mantenibilidad
- Soporte para infraestructuras cloud y prácticas DevOps, incluyendo pipelines CI/CD, control de versiones, automatización de pruebas y gestión del entorno
- Monitorizar y solucionar problemas en las canalizaciones de datos de producción, abordando proactivamente problemas, cuellos de botella de rendimiento y fallos del sistema
- Contribuir a la evolución de la plataforma de datos empresarial, recomendando herramientas, frameworks y arquitecturas para mejorar la escalabilidad y la eficiencia
Requisitos requeridos:
- 5+ años de experiencia en ingeniería de datos, ingeniería de software u otras disciplinas similares
- Experiencia práctica con Databricks o Snowflake
- Experiencia con herramientas de orquestación como Apache Airflow
- Experiencia trabajando con ecosistemas cloud (Azure preferido; AWS/GCP aceptable)
- Habilidades avanzadas en SQL y experiencia con OLTP y modelado de datos OLAP
- Sólido conocimiento del almacenamiento de datos moderno, los patrones de diseño de data lake y ELT/ETL
- Familiaridad con las herramientas de gobernanza de datos, especialmente Microsoft Purview
- Sólida experiencia en programación en Python, PySpark o lenguajes similares
Cualificaciones preferidas:
- Experiencia en el sector sanitario, incluyendo reclamaciones, clínicas, FHIR, HL7 o datos de proveedores
- Experiencia con la contenedorización (Docker, Kubernetes) para cargas de trabajo de datos
- Experiencia apoyando flujos de trabajo de aprendizaje automático o pipelines analíticos de ciencia de datos
- Conocimiento de conceptos de computación distribuida y ajuste de rendimiento
(si ya tienes un currículum en Indeed)
