Ingeniero certificado de infraestructura de IA NVIDIA y plataforma Kubernetes new york city

IT Search Corp

Ingeniero certificado de infraestructura de IA NVIDIA y plataforma Kubernetes

Tiempo completo • new york city
 
Infraestructura de IA de NVIDIA e Ingeniero de Plataforma Kubernetes (DGX Systems) Remoto
Certificaciones relacionadas requeridas
6 meses a 1+ año
$open
Requisito de USC o GC

 Títulos alternativos según el contexto:
  • Arquitecto de Plataforma de IA – DGX & SuperPOD
  • Ingeniero DevOps de Infraestructura de IA – NVIDIA DGX Stack
  • Ingeniero Senior de Sistemas de IA – DGX | Kubernetes | InfiniBand 
Descripción del puesto:
 

Buscamos un ingeniero altamente cualificado en Infraestructura de IA y Plataforma Kubernetes , con un historial probado en el despliegue y gestión de clústeres de IA basados en NVIDIA DGX, orquestar cargas de trabajo de IA contenedorizadas usando Kubernetes y garantizar operaciones seguras y de alto rendimiento en redes impulsadas por InfiniBand. El candidato ideal poseerá una combinación de certificaciones Kubernetes (CKA, CKAD, CKS) y certificaciones NVIDIA (NCA-AIIO, NCP-AIO, NCP-AII, NCP-AIN), junto con formación práctica en DGX, BlueField y operaciones de redes de alta velocidad.
 
 
Este puesto desempeña un papel clave en el apoyo a la infraestructura de IA/ML a gran escala, permitiendo una formación y inferencia eficientes para modelos complejos, e integrando las soluciones de computación, almacenamiento y fabric de vanguardia de NVIDIA con las prácticas modernas de DevOps.
 
 
Responsabilidades principales:
 

Operaciones de Infraestructura de IA
  • Desplegar y gestionar NVIDIA DGX BasePODs y SuperPODs para cargas de trabajo de IA de alto rendimiento.
  • Supervisa las operaciones del ciclo de vida del sistema DGX , incluyendo aprovisionamiento, monitorización, actualizaciones de firmware y planificación de capacidad.
  • Opera Base Command Manager para gestionar clústeres de GPU, programar cargas de trabajo e integrar con herramientas MLOps.
  • Realizar validación de salud de nodos DGX, pruebas de interconexión NCCL y verificación de topología NVLink tras nuevos despliegues o cambios de hardware.
Ingeniería de Plataformas Kubernetes
  • Arquitecto clústeres Kubernetes seguros y escalables optimizados para cargas de trabajo aceleradas por GPU usando NVIDIA GPU Operator.
  • Aprovecha la experiencia de CKA/CKAD/CKS para desarrollar, desplegar y proteger aplicaciones de IA en Kubernetes.
  • Implementar pipelines CI/CD y metodologías GitOps para desplegar y gestionar flujos de trabajo ML.
Redes de alto rendimiento y DPUs
  • Administrar redes InfiniBand y DPUs BlueField utilizando Unified Fabric Manager (UFM).
  • Activa el rendimiento NVLink/NVSwitch en los nodos de la GPU y ajusta las configuraciones del tejido para una latencia mínima y máximo rendimiento.
  • Utiliza BlueField para descargar almacenamiento, firewall y telemetría, mejorando la seguridad y el rendimiento de la carga de trabajo de la IA.
Seguridad y cumplimiento
  • Aplica las mejores prácticas de la certificación CKS para entornos de IA contenedorizados seguros.
  • Configura la seguridad en tiempo de ejecución, gestión de secretos, segmentación de red y auditoría utilizando despliegues de Kubernetes mejorados con DPU.
  • Apoya iniciativas de arquitectura de confianza cero haciendo cumplir la identidad de carga de trabajo, las políticas RBAC y la integridad de la cadena de suministro en imágenes de contenedores de IA y artefactos de modelos.
Monitorización, Telemetría y Optimización
 

Monitoriza el rendimiento de la GPU, CPU y E/S usando las APIs NVIDIA DCGM, Prometheus, Grafana y Base Command.
  • Ajustar el rendimiento del sistema y las canaletas de entrenamiento de modelos para obtener eficiencia en costes y rendimiento.
  • Construir y mantener libros operativos de gestos, guías de respuesta a incidentes y paneles de informes SLA que cubran la utilización de GPU, los umbrales térmicos y la salud de la estructura.
Cualificaciones:
 

Certificaciones un plus:
  •  Administrador Certificado de Kubernetes (CKA)
  • Desarrollador de Aplicaciones Kubernetes Certificado (CKAD)
  • Especialista en Seguridad Kubernetes Certificado (CKS)
  • Asociado Certificado NVIDIA: Infraestructura y Operaciones de IA (NCA-AIIO)
  • Profesional certificado NVIDIA: Infraestructura de IA (NCP-AII)
  • Profesional certificado NVIDIA: Operaciones de IA (NCP-AIO)
  • Profesional certificado NVIDIA: Redes de IA (NCP-AIN)
Experiencia con:
  • Administración de sistemas DGX, BasePOD y SuperPOD
  • Configuración y Operaciones de la DPU de BlueField
  • InfiniBand Fabric y gestión UFM
  • Gestor de Mando de la Base para orquestación de cargas de trabajo
Habilidades técnicas:
  • Kubernetes, Helm, GPU Operator, Kubeflow
  • Herramientas DevOps: Ansible, Terraform, GitOps, canalizaciones CI/CD
  • Almacenamiento: NFS, BeeGFS, Lustre
  • Redes: RoCE, InfiniBand, descarga de DPU, gRPC, RDMA
  • Programación/scripting: Python, YAML, Bash
Compensación: 100,00 $ - 130,00 $ la hora




(si ya tienes un currículum en Indeed)

O aplicar aquí.

* campos requeridos

Ubicación
Or
Or
If no code provided, add their name instead.