IT Search Corp
Ingeniero certificado de infraestructura de IA NVIDIA y plataforma Kubernetes
Tiempo completo • new york city
Infraestructura de IA de NVIDIA e Ingeniero de Plataforma Kubernetes (DGX Systems) Remoto
Certificaciones relacionadas requeridas
6 meses a 1+ año
$open
Requisito de USC o GC
Títulos alternativos según el contexto:
- Arquitecto de Plataforma de IA – DGX & SuperPOD
- Ingeniero DevOps de Infraestructura de IA – NVIDIA DGX Stack
- Ingeniero Senior de Sistemas de IA – DGX | Kubernetes | InfiniBand
Descripción del puesto:
Buscamos un ingeniero altamente cualificado en Infraestructura de IA y Plataforma Kubernetes , con un historial probado en el despliegue y gestión de clústeres de IA basados en NVIDIA DGX, orquestar cargas de trabajo de IA contenedorizadas usando Kubernetes y garantizar operaciones seguras y de alto rendimiento en redes impulsadas por InfiniBand. El candidato ideal poseerá una combinación de certificaciones Kubernetes (CKA, CKAD, CKS) y certificaciones NVIDIA (NCA-AIIO, NCP-AIO, NCP-AII, NCP-AIN), junto con formación práctica en DGX, BlueField y operaciones de redes de alta velocidad.
Este puesto desempeña un papel clave en el apoyo a la infraestructura de IA/ML a gran escala, permitiendo una formación y inferencia eficientes para modelos complejos, e integrando las soluciones de computación, almacenamiento y fabric de vanguardia de NVIDIA con las prácticas modernas de DevOps.
Responsabilidades principales:
Operaciones de Infraestructura de IA
- Desplegar y gestionar NVIDIA DGX BasePODs y SuperPODs para cargas de trabajo de IA de alto rendimiento.
- Supervisa las operaciones del ciclo de vida del sistema DGX , incluyendo aprovisionamiento, monitorización, actualizaciones de firmware y planificación de capacidad.
- Opera Base Command Manager para gestionar clústeres de GPU, programar cargas de trabajo e integrar con herramientas MLOps.
- Realizar validación de salud de nodos DGX, pruebas de interconexión NCCL y verificación de topología NVLink tras nuevos despliegues o cambios de hardware.
Ingeniería de Plataformas Kubernetes
- Arquitecto clústeres Kubernetes seguros y escalables optimizados para cargas de trabajo aceleradas por GPU usando NVIDIA GPU Operator.
- Aprovecha la experiencia de CKA/CKAD/CKS para desarrollar, desplegar y proteger aplicaciones de IA en Kubernetes.
- Implementar pipelines CI/CD y metodologías GitOps para desplegar y gestionar flujos de trabajo ML.
Redes de alto rendimiento y DPUs
- Administrar redes InfiniBand y DPUs BlueField utilizando Unified Fabric Manager (UFM).
- Activa el rendimiento NVLink/NVSwitch en los nodos de la GPU y ajusta las configuraciones del tejido para una latencia mínima y máximo rendimiento.
- Utiliza BlueField para descargar almacenamiento, firewall y telemetría, mejorando la seguridad y el rendimiento de la carga de trabajo de la IA.
Seguridad y cumplimiento
- Aplica las mejores prácticas de la certificación CKS para entornos de IA contenedorizados seguros.
- Configura la seguridad en tiempo de ejecución, gestión de secretos, segmentación de red y auditoría utilizando despliegues de Kubernetes mejorados con DPU.
- Apoya iniciativas de arquitectura de confianza cero haciendo cumplir la identidad de carga de trabajo, las políticas RBAC y la integridad de la cadena de suministro en imágenes de contenedores de IA y artefactos de modelos.
Monitorización, Telemetría y Optimización
Monitoriza el rendimiento de la GPU, CPU y E/S usando las APIs NVIDIA DCGM, Prometheus, Grafana y Base Command.
- Ajustar el rendimiento del sistema y las canaletas de entrenamiento de modelos para obtener eficiencia en costes y rendimiento.
- Construir y mantener libros operativos de gestos, guías de respuesta a incidentes y paneles de informes SLA que cubran la utilización de GPU, los umbrales térmicos y la salud de la estructura.
Cualificaciones:
Certificaciones un plus:
- Administrador Certificado de Kubernetes (CKA)
- Desarrollador de Aplicaciones Kubernetes Certificado (CKAD)
- Especialista en Seguridad Kubernetes Certificado (CKS)
- Asociado Certificado NVIDIA: Infraestructura y Operaciones de IA (NCA-AIIO)
- Profesional certificado NVIDIA: Infraestructura de IA (NCP-AII)
- Profesional certificado NVIDIA: Operaciones de IA (NCP-AIO)
- Profesional certificado NVIDIA: Redes de IA (NCP-AIN)
Experiencia con:
- Administración de sistemas DGX, BasePOD y SuperPOD
- Configuración y Operaciones de la DPU de BlueField
- InfiniBand Fabric y gestión UFM
- Gestor de Mando de la Base para orquestación de cargas de trabajo
Habilidades técnicas:
- Kubernetes, Helm, GPU Operator, Kubeflow
- Herramientas DevOps: Ansible, Terraform, GitOps, canalizaciones CI/CD
- Almacenamiento: NFS, BeeGFS, Lustre
- Redes: RoCE, InfiniBand, descarga de DPU, gRPC, RDMA
- Programación/scripting: Python, YAML, Bash
Compensación: 100,00 $ - 130,00 $ la hora
(si ya tienes un currículum en Indeed)