Arquitecto certificado de infraestructura de IA y plataforma Kubernetes new york city

IT Search Corp

Arquitecto certificado de infraestructura de IA y plataforma Kubernetes

Tiempo completo • new york city

Arquitectura de Infraestructura de IA y Plataforma Kubernetes – DGX Systems) Remoto
Certificaciones relacionadas requeridas
6 meses a 1+ año
$open
Requisito de USC o GC
 
Descripción del puesto:
Buscamos un arquitecto altamente cualificado en infraestructura de IA y plataforma Kubernetes, con amplia experiencia en la gestión de cargas de trabajo aceleradas por GPU en sistemas NVIDIA DGX. El candidato ideal tendrá experiencia práctica con Kubernetes en los niveles de administrador, desarrollador de aplicaciones y seguridad (CKA, CKAD, CKS), y será responsable de diseñar, desplegar, asegurar y mantener infraestructuras de IA a gran escala impulsadas por DGX BasePODs y SuperPODs. Este puesto implica optimizar cargas de trabajo de IA, gestionar redes de alto rendimiento (InfiniBand) y garantizar la excelencia operativa en los sistemas de IA de NVIDIA y en entornos de DPU BlueField.
 
 
Responsabilidades clave:
Kubernetes y Orquestación de Plataformas de IA
  • Arquitecto y mantenimiento de plataformas de IA/ML contenedorizadas usando Kubernetes en sistemas DGX.
  • Integra NVIDIA Base Command Manager con Kubernetes para la planificación de cargas de trabajo y la optimización de recursos de la GPU.
  • Diseña estrategias de partición de recursos de GPU multi-inquilino utilizando MIG (GPU Multi-Instancia) para maximizar la utilización del hardware en cargas de trabajo de IA concurrentes.
  • Implementar y gestionar gráficos de Helm, controladores personalizados y operadores de GPU para una infraestructura de ML escalable.
Administración de Infraestructuras DGX
  • Administra y optimiza NVIDIA DGX BasePODs y SuperPODs.
  • Garantizar un rendimiento óptimo de GPU, CPU y almacenamiento en los clústeres de IA.
  • Aprovecha las mejores prácticas de DGX System Administration para la gestión del ciclo de vida y las actualizaciones.
  • Coordinar la planificación de capacidad para la expansión del clúster DGX, incluyendo la alimentación del rack, refrigeración e integración de almacenamiento con la pila de software NVIDIA AI Enterprise.
Redes de Alto Rendimiento y DPU
  • Desplegar, monitorizar y gestionar redes InfiniBand utilizando el Gestor Unificado de Fabric (UFM).
  • Integrar las DPUs BlueField para tareas de seguridad, redes y almacenamiento descargadas.
  • Optimizar las canalizaciones de datos de extremo a extremo desde el almacenamiento hasta las GPUs.
Seguridad y cumplimiento
  • Aplica las mejores prácticas de la certificación CKS para reforzar los clústeres Kubernetes y las cargas de trabajo de IA.
  • Implementa malla de servicios seguros y microsegmentación con integración de BlueField DPU.
  • Realizar auditorías periódicas, escaneo de vulnerabilidades y aplicación de políticas de seguridad.
Automatización y monitorización
  • Automatizar las canalizaciones de despliegue y la provisión de infraestructura con herramientas IaC (Terraform, Ansible).
  • Monitoriza métricas de rendimiento usando telemetría de GPU, Prometheus/Grafana y NVIDIA DCGM.
  • Solucionar problemas complejos de sistemas en capas de hardware y software.
  • Implementar flujos de trabajo MLOps que integren KubeFlow Pipelines, NVIDIA Triton Inference Server y herramientas de registro de modelos para apoyar el entrenamiento de modelos de extremo a extremo y el despliegue en producción.
Habilidades y cualificaciones requeridas:
  • Certificaciones CKA, CKAD, CKS – que demuestran experiencia en Kubernetes completo.
  • Experiencia probada con sistemas NVIDIA DGX y orquestación de cargas de trabajo con IA.
  • Experiencia práctica en redes InfiniBand, UFM y administración de DPU BlueField.
  • Sólidas habilidades de scripting y automatización en Python, Bash y YAML.
  • Familiarizarse con Base Command Manager, NVIDIA GPU Operator y KubeFlow es una ventaja.
  • Capacidad para trabajar entre equipos para apoyar a investigadores de ML, ingenieros DevOps y equipos de infraestructura.
 
==================================================
 
Compensación: 110,00 $ - 150,00 $ la hora




(si ya tienes un currículum en Indeed)

O aplicar aquí.

* campos requeridos

Ubicación
Or
Or
If no code provided, add their name instead.