Google AI 인프라의 미래: 에이전틱 시대를 위한 확장

Axion, Intel, AMD를 통한 에이전틱 로직 및 강화 학습 가속

GPU와 TPU가 AI 모델의 학습과 서비스에 탁월하다면, 핵심 AI 모델을 둘러싼 복잡한 로직, 도구 호출(tool-calls), 피드백 루프를 처리하기 위해서는 고성능 CPU 기반 서비스가 이를 뒷받침해야 합니다. Google의 새로운 Axion 기반 N4A CPU 인스턴스는 이러한 에이전트 런타임에 대해 탁월한 가성비를 제공합니다. 실제로 Google Axion N4A 기반의 GKE Agent Sandbox는 타 하이퍼스케일러의 에이전트 워크로드 대비 최대 30% 더 나은 가성비를 실현합니다. 이러한 효율성은 Intel 및 AMD의 최신 x86 인스턴스를 탑재한 4세대 Compute Engine VM 제품군을 포함한 전체 포트폴리오로 확장됩니다. 이들은 RL 보상 계산, 에이전트 오케스트레이션, 중첩 시각화와 같은 광범위한 강화 학습(RL) 태스크에 최적화되어 모든 AI 워크로드에 최적의 역량을 제공합니다.

데이터 센터급 스케일아웃 패브릭을 위한 Virgo Network

AI Hypercomputer의 일부인 Virgo Network는 현대적인 대규모 AI 워크로드의 까다로운 요구사항을 충족하도록 설계되었습니다. 이전 세대보다 대역폭이 4배 향상된 통합 패브릭(collapsed fabric) 아키텍처는 ‘확장 비용(scaling tax)’을 제거하여 경이로운 수준의 피크 컴퓨팅 파워를 제공합니다. 이러한 용량 덕분에 가장 야심 찬 AI 워크로드도 선형에 가까운 효율로 확장할 수 있습니다.

초대형 클러스터링: Virgo Network와 TPU 8t를 통해 단일 데이터 센터 내의 단일 패브릭에 134,000개의 TPU를 연결할 수 있으며, 여러 데이터 센터 사이트에 걸쳐 100만 개 이상의 TPU를 하나의 학습 클러스터로 묶을 수 있습니다. 이는 전 세계에 분산된 인프라를 하나의 매끄러운 슈퍼컴퓨터로 전환하는 것과 같습니다.
GPU 지원 확장: Virgo Network는 A5X(NVIDIA Vera Rubin NVL72 기반)에도 적용되어 단일 데이터 센터 내 최대 80,000개의 GPU, 여러 사이트에 걸쳐 최대 960,000개의 GPU 연결을 지원합니다.

스토리지: 데이터 병목 현상의 최소화

거대한 컴퓨팅 클러스터의 효율은 데이터를 공급하는 스토리지 시스템의 성능에 좌우됩니다. 컴퓨팅 속도가 빨라지는 동안 스토리지가 병목 지점이 되지 않도록, 우리는 다음과 같은 네 가지 핵심 스토리지 혁신을 제공합니다.

학습 및 인퍼런스 가속: Google Cloud Managed Lustre는 이제 작년보다 10배, 타 하이퍼스케일러보다 최대 20배 빠른 10TB/s의 대역폭을 제공합니다. 용량 또한 80페타바이트로 늘어났으며, 이는 새로운 C4NX 인스턴스와 Hyperdisk Exapools 덕분에 가능해졌습니다.
지연 시간 최소화: Managed Lustre는 새로운 TPUDirect 및 RDMA를 활용하여 데이터가 호스트를 거치지 않고 가속기로 직접 이동하게 합니다. 이러한 처리 오버헤드 제거를 통해 AI 에이전트는 사용자가 원하는 즉각적인 속도로 응답할 수 있습니다.
최대 학습 가동률 유지: Google Cloud Storage의 Rapid Buckets는 1밀리초 미만의 지연 시간과 초당 2,000만 건의 연산 처리를 통해 객체 스토리지를 혁신합니다. 이를 통해 대규모 학습 체크포인트 생성 및 복구가 거의 즉각적으로 이루어지며, 가속기의 가동률을 95% 이상으로 유지하여 학습 주기를 앞당기고 귀중한 TPU/GPU 자원을 효율적으로 사용하게 합니다.
커스텀 솔루션 구축: Vast Data나 Sycomp와 같은 신뢰할 수 있는 병렬 파일 시스템을 통합하고자 하는 ISV 및 조직을 위해 Z4M 인스턴스를 출시합니다. 각 Z4M 인스턴스는 최대 168TiB의 로컬 SSD 용량까지 확장 가능하며, 수천 대 규모의 RDMA 클러스터에 배포될 수 있습니다.

이러한 새로운 스토리지 옵션은 종합적인 스토리지 포트폴리오를 제공하며, 각 사용 사례에 최적화된 스토리지 서비스를 통해 AI Hypercomputer 스택의 강력한 성능을 온전히 활용할 수 있도록 지원합니다.

GKE: 에이전트 네이티브 워크로드를 위한 오케스트레이션

에이전틱 시대에 지능의 효율성은 곧 확장 속도에 달려 있습니다. 이에 우리는 GKE를 에이전트 네이티브 워크로드를 위한 최고의 오케스트레이션 엔진으로 탈바꿈시켰습니다.

전체 스택에 걸친 지연 시간 단축

기민한 에이전트 응답을 지원하기 위해 초기 구동 및 확장 프로세스의 모든 밀리초를 최적화했습니다. GKE는 수요 급증에 인프라가 대응하는 방식을 효율화하여 사용자가 시스템에 접속하는 즉시 에이전트가 준비되도록 보장합니다.

노드 및 포드(Pod) 시작 가속: GKE 노드 시작 속도가 최대 4배 빨라졌으며, 포드 시작 시간은 최대 80% 단축되었습니다.
신속한 모델 로딩: run:AI Model Streamer와 Google Cloud Storage의 Rapid Cache를 활용하여 모델 로딩 속도를 5배 높임으로써 기존의 스토리지 병목을 제거했습니다.

AI 기반 인퍼런스 게이트웨이를 통한 지능형 라우팅

작년에 도입된 GKE Inference Gateway를 기반으로, 대규모 서비스의 복잡성을 해결하기 위해 ‘AI를 위한 AI’ 기술을 적용하고 있습니다.

Inference Gateway의 새로운 예측형 지연 시간 부스트(predictive latency boost)는 단순한 휴리스틱 추측 대신 머신러닝 기반의 실시간 용량 인지 라우팅으로 대체됩니다. 이러한 지능형 오케스트레이션은 수동 튜닝 없이도 첫 번째 토큰 생성 시간(TTFT) 지연을 70% 이상 단축합니다. 이는 비즈니스 측면에서 더 자연스러운 음성 대화와 매끄러운 실시간 상호작용으로 직결됩니다.

또한 Inference Gateway는 최근 Cloud Native Computing Foundation(CNCF)샌드박스 프로젝트로 채택된 쿠버네티스 네이티브 고성능 분산 LLM 인퍼런스 프레임워크인 llm-d와 함께 배포될 수 있습니다. Google Cloud는 Red Hat, IBM Research, CoreWeave, NVIDIA와 함께 llm-d의 창립 기여자로서 ‘어떤 모델, 어떤 가속기, 어떤 클라우드든 상관없는’ 업계의 명확한 비전을 수립하는 데 동참하고 있습니다.

Google AI 인프라의 미래: 에이전틱 시대를 위한 확장

Google Earth AI models and datasets in BigQuery

Leave a Reply Cancel reply

You might also like

Google AI 인프라의 미래: 에이전틱 시대를 위한 확장

Google Earth AI models and datasets in BigQuery

Best WiFi Router For A Large Home | 2024

How to Set Up a Wireless Router as an Access Point

LG MyView Smart Monitor Review

Stay Connected

Welcome Back!

Create New Account!

Retrieve your password