IT Search Corp
4 Ingenieros Nvidia Remotos
Tiempo completo • Fully Remote - US
Infraestructura de IA de NVIDIA e Ingeniero de Plataforma Kubernetes (DGX Systems) Remoto
Se requiere certificación NVIDIA o no hay entrevista
6 meses a 1+ año
$open
Requisito de USC o GC
Títulos alternativos según el contexto:
- Arquitecto de Plataforma de IA – DGX & SuperPOD
- Ingeniero DevOps de Infraestructura de IA – NVIDIA DGX Stack
- Ingeniero Senior de Sistemas de IA – DGX | Kubernetes | InfiniBand
Descripción del puesto:
Buscamos un ingeniero altamente cualificado en Infraestructura de IA y Plataforma Kubernetes , con un historial probado en el despliegue y gestión de clústeres de IA basados en NVIDIA DGX, orquestar cargas de trabajo de IA contenedorizadas usando Kubernetes y garantizar operaciones seguras y de alto rendimiento en redes impulsadas por InfiniBand. El candidato ideal poseerá una combinación de certificaciones Kubernetes (CKA, CKAD, CKS) y certificaciones NVIDIA (NCA-AIIO, NCP-AIO, NCP-AII, NCP-AIN), junto con formación práctica en DGX, BlueField y operaciones de redes de alta velocidad.
Este puesto desempeña un papel clave en el apoyo a la infraestructura de IA/ML a gran escala, permitiendo una formación y inferencia eficientes para modelos complejos, e integrando las soluciones de computación, almacenamiento y fabric de vanguardia de NVIDIA con las prácticas modernas de DevOps.
Operaciones de Infraestructura de IA
- Desplegar y gestionar NVIDIA DGX BasePODs y SuperPODs para cargas de trabajo de IA de alto rendimiento.
- Supervisa las operaciones del ciclo de vida del sistema DGX , incluyendo aprovisionamiento, monitorización, actualizaciones de firmware y planificación de capacidad.
- Opera Base Command Manager para gestionar clústeres de GPU, programar cargas de trabajo e integrar con herramientas MLOps.
- Realizar validación de salud de nodos DGX, pruebas de interconexión NCCL y verificación de topología NVLink tras nuevos despliegues o cambios de hardware.
Ingeniería de Plataformas Kubernetes
- Arquitecto clústeres Kubernetes seguros y escalables optimizados para cargas de trabajo aceleradas por GPU usando NVIDIA GPU Operator.
- Aprovecha la experiencia de CKA/CKAD/CKS para desarrollar, desplegar y proteger aplicaciones de IA en Kubernetes.
- Implementar pipelines CI/CD y metodologías GitOps para desplegar y gestionar flujos de trabajo ML.
Redes de alto rendimiento y DPUs
- Administrar redes InfiniBand y DPUs BlueField utilizando Unified Fabric Manager (UFM).
- Activa el rendimiento NVLink/NVSwitch en los nodos de la GPU y ajusta las configuraciones del tejido para una latencia mínima y máximo rendimiento.
- Utiliza BlueField para descargar almacenamiento, firewall y telemetría, mejorando la seguridad y el rendimiento de la carga de trabajo de la IA.
Seguridad y cumplimiento
- Aplica las mejores prácticas de la certificación CKS para entornos de IA contenedorizados seguros.
- Configura la seguridad en tiempo de ejecución, gestión de secretos, segmentación de red y auditoría utilizando despliegues de Kubernetes mejorados con DPU.
- Apoya iniciativas de arquitectura de cero confianza haciendo cumplir la identidad de carga de trabajo, las políticas RBAC y la integridad de la cadena de suministro en imágenes de contenedores de IA y artefactos de modelos
Monitoriza el rendimiento de la GPU, CPU y E/S usando las APIs NVIDIA DCGM, Prometheus, Grafana y Base Command.
- Ajustar el rendimiento del sistema y las canaletas de entrenamiento de modelos para obtener eficiencia en costes y rendimiento.
- Construir y mantener libros operativos de gestos, guías de respuesta a incidentes y paneles de informes SLA que cubran la utilización de GPU, los umbrales térmicos y la salud de la estructura.
Experiencia con:
- Administración de sistemas DGX, BasePOD y SuperPOD
- Configuración y Operaciones de la DPU de BlueField
- InfiniBand Fabric y gestión UFM
- Gestor de Mando de la Base para orquestación de cargas de trabajo
Este es un puesto remoto.
Compensación: 110,00 $ - 135,00 $ la hora
(si ya tienes un currículum en Indeed)