Título del puesto: Arquitecto de IA/ML con Databricks, AWS
Ubicación: Los Ángeles, CA (Híbrido)
Tipo de contratación: FTE / CTH
Resumen del rol
Buscamos un arquitecto de IA/ML experimentado con profundo conocimiento práctico en Databricks en AWS para liderar el diseño e implementación de plataformas escalables y de aprendizaje automático de alto rendimiento. El candidato ideal combina el pensamiento arquitectónico con una sólida ejecución de ingeniería, demostrando la capacidad de construir sistemas modernos de casas de lago, optimizar tuberías a gran escala y fomentar capacidades analíticas y de aprendizaje automático en toda la organización.
Este puesto requiere trabajar con grandes conjuntos de datos de varios terabytes, análisis avanzados y gestión completa del ciclo de vida de ML utilizando Databricks, Python, PySpark y servicios nativos de AWS.
Debe demostrar (Competencias Críticas)
Diseño de arquitecturas de casas de lago basadas en Databricks en AWS (Delta Lake + S3 + Unity Catalog).
Separación clara de capas de cómputo frente a capas de servicio en arquitecturas distribuidas.
Estrategia de API de baja latencia donde Spark es insuficiente (por ejemplo, aprovechando servicios optimizados o caché).
Estrategias de caché para acelerar lecturas y reducir el coste de cómputo.
Partición de datos, ajuste del tamaño de archivo y estrategias de optimización para pipelines a gran escala.
Experiencia manejando cargas de trabajo estructuradas de series temporales de varios terabytes.
Capacidad para extraer significado arquitectónico a partir de requisitos empresariales ambiguos.
Fuerte curiosidad, cuestionamiento y mentalidad de indagar en los requisitos.
Enfoque jugador-entrenador: profundidad técnica práctica + capacidad para guiar el diseño.
Responsabilidades clave
IA/ML y Analítica Avanzada
Desarrollar, entrenar y optimizar modelos de aprendizaje automático usando Python, PySpark, MLflow y aprendizaje automático Databricks.
Realizar análisis exploratorios de datos (EDA) para identificar patrones, tendencias e ideas en grandes conjuntos de datos.
Despliega modelos de ML en producción usando MLflow, flujos de trabajo Databricks u otras pipelines MLOps.
Desarrolla soluciones analíticas como sistemas de predicción, detección de anomalías, segmentación o recomendación.
Diseñar arquitecturas de aprendizaje automático alineadas con Databricks Lakehouse en AWS.
Ingeniería de Datos y Arquitectura de Casas de Lago
Arquitecto y construcción de pipelines ETL/ELT escalables utilizando flujos de trabajo PySpark, SQL y Databricks.
Implementar las mejores prácticas de Delta Lake, incluyendo OPTIMIZE, ZORDER, particionamiento y evolución de esquemas.
Diseña capas tipo lakehouse (Bronce/Plata/Oro) con una fuerte separación entre capas de computación y de servicio.
Optimiza el rendimiento y los trabajos del clúster usando ajuste en Spark, caché y minimización de barajadores.
Trabajar con datos de alta velocidad de varios terabytes, series temporales y alta velocidad en un entorno distribuido.
Asegurar una disponibilidad robusta de datos para cargas de trabajo de ML y analítica posteriores.
Integración en la nube de AWS
Arquitecto soluciones de datos y ML de extremo a extremo utilizando servicios de AWS, incluyendo:
S3 para almacenamiento
IAM para identidad y acceso
Glue Catalog para la gestión de metadatos
Redes para un movimiento de datos seguro y de alto rendimiento
Integra Databricks con computación nativa de AWS, capas API y endpoints de baja latencia.
Colaboración empresarial y liderazgo
Traduce problemas de negocio en arquitecturas analíticas o de aprendizaje automático escalables.
Comunicar conceptos estadísticos y arquitectónicos complejos a los actores no técnicos.
Colaborar con líderes de producto, ingeniería y negocio para impulsar iniciativas basadas en datos.
Proporciona liderazgo en el diseño manteniendo la ejecución práctica.
Habilidades y Cualificaciones
Obligatorio
Grado o máster en Informática, Ciencia de Datos, Ingeniería, Estadística o campo relacionado.
10+ años de experiencia en ingeniería de datos, ingeniería de aprendizaje automático o roles de IA/arquitectura de ML.
Amplia experiencia en Databricks en AWS, incluyendo:
PySpark / Spark SQL
Cuadernos de Databricks
Lago Delta
Catálogo Unity
MLflow
Trabajos y flujos de trabajo de Databricks
Fuerte capacidad de programación en Python (pandas, numpy, scikit-learn).
Experiencia demostrada con procesamiento de datos a gran escala y varios terabytes.
Sólido conocimiento de algoritmos de aprendizaje automático, sistemas distribuidos y optimización de datos.
Preferido
Experiencia con MLOps y pipelines de despliegue en producción.
Sólido dominio de los servicios de datos y cómputo nativos de AWS.
Comprensión de CI/CD usando GitHub Actions, GitLab CI o similares.
Familiaridad con frameworks de aprendizaje profundo (TensorFlow, PyTorch).
Competencias clave
Fuertes habilidades analíticas y de resolución de problemas.
Capacidad para trabajar en entornos dinámicos y altamente colaborativos.
Excelentes habilidades de comunicación y presentación.
Autoconducido con una atención excepcional al detalle arquitectónico.
Opciones flexibles de teletrabajo disponibles.
Compensación: 60,00 $ - 70,00 $ la hora
(si ya tienes un currículum en Indeed)
