4 Ingenieros Nvidia Remotos Fully Remote - US

IT Search Corp

4 Ingenieros Nvidia Remotos

Tiempo completo • Fully Remote - US
Infraestructura de IA de NVIDIA e Ingeniero de Plataforma Kubernetes (DGX Systems) Remoto
Se requiere certificación NVIDIA o no hay entrevista
6 meses a 1+ año
$open
Requisito de USC o GC

 Títulos alternativos según el contexto:
  • Arquitecto de Plataforma de IA – DGX & SuperPOD
  • Ingeniero DevOps de Infraestructura de IA – NVIDIA DGX Stack
  • Ingeniero Senior de Sistemas de IA – DGX | Kubernetes | InfiniBand 
Descripción del puesto:
 

Buscamos un ingeniero altamente cualificado en Infraestructura de IA y Plataforma Kubernetes , con un historial probado en el despliegue y gestión de clústeres de IA basados en NVIDIA DGX, orquestar cargas de trabajo de IA contenedorizadas usando Kubernetes y garantizar operaciones seguras y de alto rendimiento en redes impulsadas por InfiniBand. El candidato ideal poseerá una combinación de certificaciones Kubernetes (CKA, CKAD, CKS) y certificaciones NVIDIA (NCA-AIIO, NCP-AIO, NCP-AII, NCP-AIN), junto con formación práctica en DGX, BlueField y operaciones de redes de alta velocidad.
 
 
Este puesto desempeña un papel clave en el apoyo a la infraestructura de IA/ML a gran escala, permitiendo una formación y inferencia eficientes para modelos complejos, e integrando las soluciones de computación, almacenamiento y fabric de vanguardia de NVIDIA con las prácticas modernas de DevOps.
 
 

Operaciones de Infraestructura de IA
  • Desplegar y gestionar NVIDIA DGX BasePODs y SuperPODs para cargas de trabajo de IA de alto rendimiento.
  • Supervisa las operaciones del ciclo de vida del sistema DGX , incluyendo aprovisionamiento, monitorización, actualizaciones de firmware y planificación de capacidad.
  • Opera Base Command Manager para gestionar clústeres de GPU, programar cargas de trabajo e integrar con herramientas MLOps.
  • Realizar validación de salud de nodos DGX, pruebas de interconexión NCCL y verificación de topología NVLink tras nuevos despliegues o cambios de hardware.
Ingeniería de Plataformas Kubernetes
  • Arquitecto clústeres Kubernetes seguros y escalables optimizados para cargas de trabajo aceleradas por GPU usando NVIDIA GPU Operator.
  • Aprovecha la experiencia de CKA/CKAD/CKS para desarrollar, desplegar y proteger aplicaciones de IA en Kubernetes.
  • Implementar pipelines CI/CD y metodologías GitOps para desplegar y gestionar flujos de trabajo ML.
Redes de alto rendimiento y DPUs
  • Administrar redes InfiniBand y DPUs BlueField utilizando Unified Fabric Manager (UFM).
  • Activa el rendimiento NVLink/NVSwitch en los nodos de la GPU y ajusta las configuraciones del tejido para una latencia mínima y máximo rendimiento.
  • Utiliza BlueField para descargar almacenamiento, firewall y telemetría, mejorando la seguridad y el rendimiento de la carga de trabajo de la IA.
Seguridad y cumplimiento
  • Aplica las mejores prácticas de la certificación CKS para entornos de IA contenedorizados seguros.
  • Configura la seguridad en tiempo de ejecución, gestión de secretos, segmentación de red y auditoría utilizando despliegues de Kubernetes mejorados con DPU.
  • Apoya iniciativas de arquitectura de cero confianza haciendo cumplir la identidad de carga de trabajo, las políticas RBAC y la integridad de la cadena de suministro en imágenes de contenedores de IA y artefactos de modelos
 

Monitoriza el rendimiento de la GPU, CPU y E/S usando las APIs NVIDIA DCGM, Prometheus, Grafana y Base Command.
  • Ajustar el rendimiento del sistema y las canaletas de entrenamiento de modelos para obtener eficiencia en costes y rendimiento.
  • Construir y mantener libros operativos de gestos, guías de respuesta a incidentes y paneles de informes SLA que cubran la utilización de GPU, los umbrales térmicos y la salud de la estructura.

Experiencia con:
  • Administración de sistemas DGX, BasePOD y SuperPOD
  • Configuración y Operaciones de la DPU de BlueField
  • InfiniBand Fabric y gestión UFM
  • Gestor de Mando de la Base para orquestación de cargas de trabajo

Este es un puesto remoto.

Compensación: 110,00 $ - 135,00 $ la hora




(si ya tienes un currículum en Indeed)

O aplicar aquí.

* campos requeridos

Ubicación
Or
Or
If no code provided, add their name instead.