Puesto: Científico de Datos - INDIA
Ubicación: Hyderabad, INDIA
Ubicación: Hyderabad, INDIA
*Los consultores locales de INDIA son elegibles.
Categoría: Ciencia de Datos – Datos Estructurados / Datos de Texto (PLN y GenIA)
Sobre el puesto
Sobre el puesto
Buscamos un Científico de Datos altamente cualificado (con 3–7 años de experiencia) para unirse a nuestro equipo y trabajar en dos grandes dominios de ciencia de datos:
- Datos estructurados (80–90%) – Análisis predictivo, previsiones, estimación de costes, modelado de probabilidad y pipelines de aprendizaje automático orientados a lotes.
- Texto / Datos no estructurados (NLP y GenAI) – Construcción de sistemas en tiempo real de baja latencia usando aprendizaje profundo, LLMs, ingeniería de prompts y frameworks de IA agente.
Este puesto requiere una sólida experiencia en procesamiento de Big Data, herramientas modernas de aprendizaje automático y la capacidad de construir soluciones de ciencia de datos escalables y listas para producción.
Responsabilidades clave
Datos estructurados – Aprendizaje Automático y Analítica
- Construir, desplegar y optimizar modelos de aprendizaje automático para análisis predictivo, predicción, clasificación y regresión.
- Realizar ingeniería de características a gran escala utilizando herramientas de PySpark y Big Data.
- Trabajar en pipelines por lotes, versionado de modelos y seguimiento de experimentos.
- Desarrollar modelos de estimación de costes y de riesgo/verosimilitud utilizando técnicas estadísticas y de aprendizaje automático.
Datos de texto / PLN / GenAI
- Construye pipelines de PLN usando frameworks de aprendizaje profundo como PyTorch, TensorFlow o similares.
- Desarrollar sistemas de inferencia en tiempo real y baja latencia para clasificación de texto, incrustaciones, búsqueda semántica, resumen y recuperación.
- Crea prompts, gráficos de contexto y flujos de trabajo agentes para sistemas basados en LLM.
- Aplica conocimientos de ingeniería de prompts, ingeniería de contexto y marcos de agentes autónomos a los sistemas de producción.
Ingeniería Básica de Ciencia de Datos y MLOps
- Trabaja en Databricks para ETL, ingeniería de características, formación en ML y orquestación.
- Utiliza los servicios de Azure para el despliegue de modelos, canalizaciones de datos e infraestructura.
- Colaborar usando flujos de trabajo basados en Git; Aprovecha herramientas como GitHub Copilot, Claude Code, etc.
- Implementar monitorización de modelos, observabilidad, detección de deriva y seguimiento del rendimiento.
Habilidades y experiencia requeridas
✅ Habilidades básicas
- Amplia experiencia práctica con Databricks (Delta Lake, MLflow, Orquestación de Trabajos).
- Excelentes habilidades PySpark para procesamiento distribuido de datos a gran escala.
- Proficiency in Azure cloud services (ADF, Azure ML, AKS, Databricks on Azure).
- Sólido conocimiento de algoritmos de aprendizaje automático, métodos estadísticos y análisis de datos.
- Experiencia con frameworks de aprendizaje profundo :
- PyTorch
- TensorFlow
- Transformers (HuggingFace)
- Experiencia con monitorización de modelos y observabilidad de aprendizaje automático.
- Capacidad para escribir código limpio y optimizado y aprovechar asistentes de código con IA.
✅ Habilidades específicas de PLN / GenAI
- Ingeniería de prompts (prompts de tarea, cadena de pensamiento, llamada a herramientas, prompts de recuperación).
- Ingeniería de contexto (canalizaciones de recuperación, RAG, gestión de memoria, estructuración de contexto).
- Conocimiento de frameworks agenticos basados en LLM (LangChain, Semantic Kernel, CrewAI, AutoGen, etc.).
- La experiencia con bases de datos vectoriales y modelos de embedding es un punto a favor.
Bueno tener habilidades
- Experiencia con contenedores (Docker, Kubernetes, AKS).
- Experiencia desplegando modelos en producción (APIs REST, endpoints en tiempo real).
- Conocimiento de tecnologías de streaming (Kafka, EventHub, Spark Streaming).
- Comprensión de CI/CD para ML (Azure DevOps / GitHub Actions).
Quién eres
- Un solucionador de problemas que se siente cómodo trabajando tanto con datos estructurados como no estructurados.
- Alguien que disfruta usando herramientas modernas de IA para acelerar el desarrollo.
- Un científico de datos que escribe código limpio y de calidad de producción.
- Un colaborador que destaca en equipos multifuncionales y entornos dinámicos.
Opciones flexibles de teletrabajo disponibles.
Somos un empleador con igualdad de oportunidades y todos los candidatos calificados recibirán consideración por el empleo sin distinción de raza, color, religión, sexo, origen nacional, estado de discapacidad, estado de veterano protegido o cualquier otra característica protegida por la ley.
