최종편집 : 2020-02-21 11:54 (금)
그래프코어의 IPU, 엔비디아를 대체할 수 있을까
상태바
그래프코어의 IPU, 엔비디아를 대체할 수 있을까
  • 김주연 기자
  • 승인 2020.02.05 16:53
  • 댓글 0
이 기사를 공유합니다

파브리스 모이잔(Fabrice Moizan) 그래프코어 미국 영업 및 비즈니스 총괄 부사장이 4일 열린 기자간담회에서 포즈를 취하고 있다./그래프코어

영국 인공지능(AI) 반도체 스타트업 그래프코어(Graphcore)가 지난 1월 한국 지사를 설립하고 국내 시장 공략에 나섰다.

그래프코어(지사장 강민우)는 4일 기자간담회를 열어 이와 같이 밝히고, 지능 처리 장치(IPU)의 강점을 설명했다.

그래프코어는 알테라, 이매지네이션 등을 거친 나이젤 툰(Nigel Toon)과 브로드컴에 인수된 엘리먼트14(Element14), 엔비디아에 인수된 아이세라(Icera)의 공동 창업자였던 사이먼 놀스(Simon Knowles)가 공동 설립한 스타트업이다. 나이젤 툰은 최고경영자(CEO)로, 사이먼 놀즈는 최고기술책임자(CTO)로 근무하고 있다. 1월 한국과 함께 일본에 지사를 설립했으며, 미국과 유럽, 중국 등에도 지사를 두고 있다.

보쉬 벤처캐피털(Robert Bosch Venture Capita), 삼성전자, 델 테크롤로지 캐피털(Dell Technologies Capital), 아마데우스 캐피털파트너스(Amadeus Capital Partners), C4벤처스, 드라퍼 에스프리트(Draper Esprit), 파운데이션 캐피털, 피탕고 캐피털(Pitango Capital), 암(Arm) 공동 창업자 헤르만 하우저(Hermann Hauser)와 딥마인드(DeepMind) 공동 창업자 데미스 하사비스(Demis Hassabis) 등으로부터 3억 달러(약 3500억원)를 유치했으며, 현재 약 15억 달러(약 1조7400억원)의 기업가치를 가졌다고 평가 받고 있다.

 

그래프코어의 IPU 들여다보기

그래프코어는 중앙처리장치(CPU)와 그래픽처리장치(GPU) 등 현재의 프로세서가 해결하지 못하는 작업들을 처리할 수 있는 반도체를 만들자는 데서 출발했다. CPU는 크기만 있는 스칼라 연산에 최적화됐고 수 개의 고성능 코어가 일을 순차 처리한다면, GPU는 크기와 방향을 갖춘 벡터 연산을 지원하며 수천개의 코어가 대규모의 데이터를 병렬로 처리한다. 이 두 프로세서가 모두 지원하지 못하는 게 점과 선으로 구성된 그래프 연산이었다.

그래프 연산은 소셜네트워크(SNS)에서 인물과의 관계망을 만들거나 화합물, 단백질 구조 등 다양한 종류의 데이터를 처리하기 위해 필요하다. 한 번에 많은 양의 메모리를 활용해 동작하는 GPU와 달리, 각 작업에 필요한 데이터의 양이 서로 달라 GPU로는 효율이 나오지 않는다. 때문에 보통 그래프 연산은 수백 대의 컴퓨터 혹은 서버를 고속 네트워크로 연결한 클러스터 장비를 활용, 병렬로 작업한다. 그만큼 총소유비용(TCO)이 많이 든다는 얘기다.

그래프코어의 IPU 콜로서스(Colossus)는 그래프 기반 아키텍처를 적용해 그래프 연산에 최적화됐다. 그래프 연산은 머신러닝(ML) 등 AI 알고리즘에도 활용되는데, 회사는 IPU를 AI 연산에 활용할 수 있도록 텐서(Tensor) 연산 기능을 추가했다. 특히 자연어처리(NLP) 경계 확장에 중점을 두고 있으며, 머신러닝에도 적합하다. TSMC의 16나노 공정에서 생산됐다.

 

그래프코어의 콜로서스 IPU 2개를 내장한 콜로서스 C2./그래프코어

'콜로서스'는 1216개의 독자 IPU 코어로 구성됐는데, 각 IPU에는 256KB의 S램이 탑재돼 총 311MB 가량의 메모리를 내장하고 있다. 각 S램은 물리적으로는 코어에 붙어있지만 종속돼있지 않아 이론적으로는 코어 하나가 수 개의 S램을 활용할 수 있다. 이를 두고 그래프코어는 '메모리 랜덤 접근'이 용이하다고 설명했다. GPU는 고대역폭메모리(HBM)나 그래픽D램(GDDR) 등 외부 D램과 데이터를 주고받기 때문에 메모리 병목현상이 발생하는데, 이 제품은 학습 및 추론 모델을 메모리에 적재한 후 바로 연산하기 때문에 지연시간이 짧고 연산 속도가 빠르다.

각 코어 당 연산 성능은 100GFLOPS로, 7000개 이상 최대 1만개의 프로그램을 병렬 실행할 수 있다. 총 연산 성능은 125TFLOPS(@150W)다. 칩 당 메모리 대역폭은 45TB/s로, 콜로서스가 2개 붙은 '콜로서스 C2' 카드는 총 90TB/s 대역폭을 제공한다. HBM2보다 약 100배 이상 높은 수치다. C2의 트랜지스터 수는 236억개고, 칩 간 대역폭은 320GB/s다. 4세대 PCIe 기술이 적용돼 양방향 호스트 통신 대역폭은 64GB/s에 달한다. 두 IPU 사이에는 8TB/s 대역폭의 IPU 익스체인지(Exchange) 블록이 들어가있다.

이 제품은 AI 머신러닝을 위해 고안된 소프트웨어 스텍 ‘포플러(Poplar)’와 함께 작동한다. 구글 텐서플로 프레임워크와 호환 가능한 AI 모델 생태계 ONNX(Open Neural Network Exchange)과 통합됐으며, 페이스북 파이토치(PyTorch)와 호환도 곧 완료한다는 계획이다. 

 

구글 버트 학습 결과, IPU는 GPU보다 월등한 성능을 보여줬다./그래프코어

그래프코어의 IPU를 활용해 마이크로소프트(MS)는 구글 버트(BERT) 모델 학습에서 기존 파이토치, 텐서플로우 프레임워크를 활용한 GPU보다 월등히 높거나 비슷한 수준의 성능을 보엿다. BERT 모델은 일련의 데이터 세트를 사전 훈련해 문장 간의 관계를 학습하는 언어 모델이다. MS는 하나의 서버에 C2 카드 8개를 탑재, 56시간 동안 버트 모델을 학습시켰는데, GPU 대비 추론 처리량은 3배 늘었고 대기 시간은 20% 이상 감소됐다. 

지난해 MS는 클라우드 컴퓨팅 플랫폼 '애저(Azure)'에 그래프코어 IPU를 탑재했다. MS 애저에 IPU가 적용되면 사용자들은 애저 플랫폼 안에서 머신러닝이나 자연어처리(NLP) 등을 활용해 새로운 서비스나 제품을 개발할 수 있게 된다. 

 

강화학습에서도 강점을 보였다. 강화학습은 알고리즘이 선택 가능한 행동들 중 보상을 최대화하는 방향으로 행동하거나 행동의 순서를 선택하는 머신러닝 유형이다. 신경과학적인 접근방식이기 때문에 대기 시간이 짧아야 하고, 복잡한 상태에서도 빠른 접근 및 판단이 가능해야한다. IPU는 최적화 없이도 처리량을 GPU 대비 13배 개선했다. 배치 사이즈(Batch size)가 32 이상으로 크면 GPU가 강하지만 그 아래 사이즈일때는 IPU가 독보적이라고 파브리스 모이잔(Fabrice Moizan) 그래프코어 미국 영업 및 비즈니스 총괄 부사장은 설명했다.

금융업계에서 활용하는 확률론 학습 모델인 MCMC(Markov Chain Monte Carlo)의 작업 시간도 대폭 줄였다. 기존 하드웨어로는 2시간 걸리던 작업을 단 4분 30초만에 최적화했다. 

모이잔 부사장은 "IPU는 기존 프로세서가 하지 못하는 일을 하는 연산 장치로 자리매김할 것"이라며 "그래프코어 IPU는 기존 CPU 및 GPU를 사용하는 것과 비교하여 데이터 처리 속도가 10배에서 최대 100배까지 빠르고, GPU보다 전력 사용량이 2배 이상 적어 데이터를 분석해서 컴퓨터 스스로 판단하고 학습할 수 있는 능력인 '머신러닝'에 더 적합하다"고 말했다.

 

한국 지사, 무슨 일을 할까

강민우 그래프코어 지사장./그래프코어
강민우 그래프코어 지사장./그래프코어

그래프코어는 한국 지사 설립과 함께 강민우 지사장을 선임했다. 강 지사장은 그래프코어에 합류하기 이전에 오버랜드와 데이터도메인, 블랙아이옵스, 퓨어스토리지, 루브릭, 엑사그리드 등의 글로벌 IT 인프라 업체들의 한국 지사를 이끌었었다. 

당장 한국 시장에서 이 회사가 겨냥하는 건 네이버, 다음카카오 등 인터넷 서비스 및 SNS 업체들과 SK, 삼성전자 등 AI 개발에 주력하고 있는 업체들이다. 기존 AI 학습 시장을 쥐고 있는 GPU를 완전히 대체하진 못하겠지만, 그래프 연산 등 GPU가 잘 동작하지 못하는 영역에서는 가능성이 있다. 무엇보다 총 소유비용(TCO)을 줄일 수 있고, MS 등에 납품한 실적(Reference)도 있다는 장점을 갖고 있다.

강 지사장은 “AI 프로젝트를 진행하는 공공 기관을 비롯하여 주요 기업과 연구소에서 사용하는 데이터센터 등에서 필요한 AI프로젝트를 완벽하게 수행하기 위한 컴퓨팅 시스템에 IPU를 공급할 것"이라며 "국내 기업 고객들의 변화하는 수요에 맞춰 공격적으로 시장을 개척하고, 최적의 제품과 서비스 제공을 위해 조직 확대 및 지원에 적극 나설 것이다”라고 말했다.


주요기사