4 Ingenieros Nvidia Remotos

Infraestructura de IA de NVIDIA e Ingeniero de Plataforma Kubernetes (DGX Systems) Remoto

Se requiere certificación NVIDIA o no hay entrevista

6 meses a 1+ año

$open

Requisito de USC o GC

Títulos alternativos según el contexto:

Arquitecto de Plataforma de IA – DGX & SuperPOD
Ingeniero DevOps de Infraestructura de IA – NVIDIA DGX Stack
Ingeniero Senior de Sistemas de IA – DGX | Kubernetes | InfiniBand

Descripción del puesto:

Buscamos un ingeniero altamente cualificado en Infraestructura de IA y Plataforma Kubernetes , con un historial probado en el despliegue y gestión de clústeres de IA basados en NVIDIA DGX, orquestar cargas de trabajo de IA contenedorizadas usando Kubernetes y garantizar operaciones seguras y de alto rendimiento en redes impulsadas por InfiniBand. El candidato ideal poseerá una combinación de certificaciones Kubernetes (CKA, CKAD, CKS) y certificaciones NVIDIA (NCA-AIIO, NCP-AIO, NCP-AII, NCP-AIN), junto con formación práctica en DGX, BlueField y operaciones de redes de alta velocidad.

Este puesto desempeña un papel clave en el apoyo a la infraestructura de IA/ML a gran escala, permitiendo una formación y inferencia eficientes para modelos complejos, e integrando las soluciones de computación, almacenamiento y fabric de vanguardia de NVIDIA con las prácticas modernas de DevOps.

Operaciones de Infraestructura de IA

Desplegar y gestionar NVIDIA DGX BasePODs y SuperPODs para cargas de trabajo de IA de alto rendimiento.
Supervisa las operaciones del ciclo de vida del sistema DGX , incluyendo aprovisionamiento, monitorización, actualizaciones de firmware y planificación de capacidad.
Opera Base Command Manager para gestionar clústeres de GPU, programar cargas de trabajo e integrar con herramientas MLOps.
Realizar validación de salud de nodos DGX, pruebas de interconexión NCCL y verificación de topología NVLink tras nuevos despliegues o cambios de hardware.

Ingeniería de Plataformas Kubernetes

Arquitecto clústeres Kubernetes seguros y escalables optimizados para cargas de trabajo aceleradas por GPU usando NVIDIA GPU Operator.
Aprovecha la experiencia de CKA/CKAD/CKS para desarrollar, desplegar y proteger aplicaciones de IA en Kubernetes.
Implementar pipelines CI/CD y metodologías GitOps para desplegar y gestionar flujos de trabajo ML.

Redes de alto rendimiento y DPUs

Administrar redes InfiniBand y DPUs BlueField utilizando Unified Fabric Manager (UFM).
Activa el rendimiento NVLink/NVSwitch en los nodos de la GPU y ajusta las configuraciones del tejido para una latencia mínima y máximo rendimiento.
Utiliza BlueField para descargar almacenamiento, firewall y telemetría, mejorando la seguridad y el rendimiento de la carga de trabajo de la IA.

Seguridad y cumplimiento

Aplica las mejores prácticas de la certificación CKS para entornos de IA contenedorizados seguros.
Configura la seguridad en tiempo de ejecución, gestión de secretos, segmentación de red y auditoría utilizando despliegues de Kubernetes mejorados con DPU.
Apoya iniciativas de arquitectura de cero confianza haciendo cumplir la identidad de carga de trabajo, las políticas RBAC y la integridad de la cadena de suministro en imágenes de contenedores de IA y artefactos de modelos

Monitoriza el rendimiento de la GPU, CPU y E/S usando las APIs NVIDIA DCGM, Prometheus, Grafana y Base Command.

Ajustar el rendimiento del sistema y las canaletas de entrenamiento de modelos para obtener eficiencia en costes y rendimiento.
Construir y mantener libros operativos de gestos, guías de respuesta a incidentes y paneles de informes SLA que cubran la utilización de GPU, los umbrales térmicos y la salud de la estructura.

Experiencia con:

Administración de sistemas DGX, BasePOD y SuperPOD
Configuración y Operaciones de la DPU de BlueField
InfiniBand Fabric y gestión UFM
Gestor de Mando de la Base para orquestación de cargas de trabajo

Este es un puesto remoto.

Compensación: 110,00 $ - 135,00 $ la hora

(si ya tienes un currículum en Indeed)

O aplicar aquí.

* campos requeridos

Nombre de Pila*

Apellido*

Correo Electrónico*

Teléfono*

Yes, Text Me!

I consent to receiving text messages about this hiring process and, if hired, future job related information from IT Search Corp.

Message and data rates may apply. Message frequency varies. Reply STOP to opt out. Reply HELP for help. See our User Terms of Service and Privacy Policy for details.

Get faster updates with texting!

Message and data rates may apply. Message frequency varies. Reply STOP to opt out. Reply HELP for help. See our User Terms of Service and Privacy Policy for details.

Ubicación

Dirección

Ciudad

States

Código Postal

Currículum/Calificaciones *

Type/Paste Text

Carta de Presentación

Type/Paste Text

Título de Trabajo Reciente

Empleador Reciente

¿Tienes certificación Nvida?*

Debes tener una certificación Nvidia, ¿???*

Referral code from a current employeeIf no code provided, add their name instead.