연말까지 KT 초거대 AI 학습용 GPU 인프라 구축
세계 최초 종량제 GPU 서비스 ‘HAC’, 최대 50% 비용절감
초거대 AI 산업 문턱 낮춰

▲HAC(하이퍼스케일 AI 컴퓨팅) 서비스 소개.
▲HAC(하이퍼스케일 AI 컴퓨팅) 서비스 소개.

kt cloud(대표 윤동식, www.ktcloud.com)가 오는 12월까지 KT 대덕2연구센터에 초거대 AI 학습용 GPU 인프라를 구축한다고 25일 밝혔다. kt cloud는 이번 사업에서 HAC(Hyperscale AI Computing) 인프라를 구축해 최적의 성능, 운영 효율성 등을 검증하고, 본격적인 초거대 AI 사업 시장 공략에 나선다는 전략이다.

초거대 AI란 대용량의 연산이 가능한 GPU 인프라를 바탕으로 대규모 데이터를 학습해 사람처럼 스스로 사고할 수 있도록 설계된 AI다. KT는 초거대 AI 사업을 본격적으로 추진하며 적기 학습을 위한 GPU 컴퓨팅 인프라를 확보하고자 kt cloud의 HAC와 엔비디아의 GPU 어플라이언스를 병행 도입하기로 결정했다.

kt cloud는 이번 사업 참여로 HAC의 초거대 AI 주요 사업 레퍼런스를 확보하게 됐다. 초거대 AI 학습 성능개선과 재학습결과 등을 검토·보완해 글로벌 탑티어 수준까지 기술력을 끌어올린다는 계획이다. kt cloud는 국내 기업인 '모레(Moreh)'와 협력해 최적화된 AI 프레임워크를 개발하는 한편 '리벨리온(Rebellions)’과 함께 국산 AI 클라우드 반도체 칩 개발도 추진 중이다.

kt cloud의 HAC는 지난해 12월 출시된 세계 최초 종량제 GPU 서비스다. AI 모델 대형화에 필요한 ▲비즈니스 민첩성 ▲비용 효율성 ▲개발 유연성·연속성 ▲프로그래밍 호환성의 강점을 갖추고 있다. HAC의 GPU로는 비용 효율이 높기로 정평이 난 AMD사 제품을 사용했다.

HAC는 여러 대의 GPU를 논리적으로 결합해 하나의 GPU처럼 사용하며, 수백·수천개의 GPU 클러스터링을 지원한다. 대규모 연산이 필요할 때 다중·동적 할당 기술을 통해 원하는 만큼만 GPU 자원을 할당 받고, 연산 후 즉시 반납할 수 있어 탄력적으로 서비스를 이용할 수 있다는 것이 장점이다.

클라우드 기반으로 GPU를 사용한 기간, 할당된 자원만큼만 비용이 책정되기 때문에 고가의 장비를 구축하는 것에 비해 비용 부담을 획기적으로 줄일 수 있다. 또 코드 재활용 등 기존 개발 소스를 활용할 수 있는 모델 프로그래밍 호환성은 물론 개발 시 필요한 자원 규모를 탄력적으로 변경하고 과거 학습결과에 이어 진행할 수 있는 유연성과 연속성을 보장한다.

kt cloud가 초거대 AI 언어모델 학습 테스트를 진행한 결과 HAC는 동등한 조건의 기존 구축형 서비스 대비 30~50%의 비용 절감 효과를 낼 수 있는 것으로 나타났다. kt cloud는 서버 팜을 지속적으로 증설해 나간다는 계획으로, 향후 최대 10분의 1 수준의 효율적 비용으로 동급 연산 자원을 제공할 수 있을 것으로 기대하고 있다.

저작권자 © 파이브에코(FIVE ECOs) 무단전재 및 재배포 금지