Puesto: Ingeniero de Datos Senior
Trabajo remoto
Trabajo remoto
*Debe ser ciudadano estadounidense y tener pasaporte estadounidense
Responsabilidades principales:
- Diseñar, desarrollar y mantener canalizaciones de datos escalables usando Python, PySpark y otros lenguajes de programación modernos para soportar tanto cargas de trabajo por lotes como en streaming
- Construir y optimizar marcos de procesamiento de datos en plataformas en la nube como Databricks o Snowflake, garantizando rendimiento, fiabilidad y eficiencia en costes
- Diseñar e implementar modelos de datos robustos, incluyendo esquemas transaccionales (OLTP) y dimensionales (OLAP), para apoyar la analítica, la elaboración de informes y la integración de aplicaciones
- Desarrollar código SQL de alta calidad que incluya consultas complejas, procedimientos almacenados y vistas, con un enfoque en la optimización del rendimiento y patrones eficientes de acceso a los datos
- Crear y gestionar la orquestación de flujos de trabajo utilizando Apache Airflow o herramientas similares, asegurando una programación fiable, gestión de dependencias y monitorización
- Implementar y hacer cumplir la gobernanza de datos y los estándares de metadatos mediante herramientas como Microsoft Purview, incluyendo la línea de datos, clasificación, catalogación y políticas de seguridad
- Construir marcos automatizados de calidad y validación de datos para garantizar la precisión, completitud y fiabilidad de los conjuntos de datos de producción
- Colaborar con equipos multifuncionales, incluidos arquitectos de datos, analistas, científicos y partes interesadas del negocio, para comprender los requisitos y ofrecer soluciones de datos escalables y bien diseñadas
- Liderar sesiones de diseño técnico y revisiones de código, promoviendo las mejores prácticas de ingeniería, la reutilizabilidad y la mantenibilidad
- Soporte para infraestructuras cloud y prácticas DevOps, incluyendo pipelines CI/CD, control de versiones, automatización de pruebas y gestión del entorno
- Monitorizar y solucionar problemas en las canalizaciones de datos de producción, abordando proactivamente problemas, cuellos de botella de rendimiento y fallos del sistema
- Contribuir a la evolución de la plataforma de datos empresarial, recomendando herramientas, frameworks y arquitecturas para mejorar la escalabilidad y la eficiencia
Serás recompensado y reconocido por tu desempeño en un entorno que te desafiará y te dará una dirección clara sobre lo que se necesita para tener éxito en tu puesto, además de proporcionar desarrollo para otros puestos que te puedan interesar.
Requisitos requeridos:
- 7+ años de experiencia en ingeniería de datos, ingeniería de software o disciplinas similares
- Experiencia práctica con Databricks o Snowflake
- Experiencia con herramientas de orquestación como Apache Airflow
- Experiencia trabajando con ecosistemas cloud (Azure preferido; AWS/GCP aceptable)
- Habilidades avanzadas en SQL y experiencia con OLTP y modelado de datos OLAP
- Sólido conocimiento del almacenamiento de datos moderno, los patrones de diseño de data lake y ELT/ETL
- Familiaridad con las herramientas de gobernanza de datos, especialmente Microsoft Purview
- Sólida experiencia en programación en Python, PySpark o lenguajes similares
- Si te ofrecen este puesto, tendrás que proporcionar información personal extensa para obtener y mantener una idoneidad o determinación de elegibilidad para una autorización de seguridad Confidencial/Secreta o Top Secret como condición para tu empleo
- Ciudadanía estadounidense
Cualificaciones preferidas:
- Experiencia en el sector sanitario, incluyendo reclamaciones, clínicas, FHIR, HL7 o datos de proveedores
- Experiencia con la contenedorización (Docker, Kubernetes) para cargas de trabajo de datos
- Experiencia apoyando flujos de trabajo de aprendizaje automático o pipelines analíticos de ciencia de datos
- Conocimiento de conceptos de computación distribuida y ajuste de rendimiento
Este es un puesto remoto.
Compensación: 55,00 $ - 60,00 $ la hora
(si ya tienes un currículum en Indeed)
