GPU – SK hynix Newsroom

공학 박사 출신 SF 소설가 ‘전윤호 작가’가 말하는 ‘AI와 문학’

SK하이닉스 — Thu, 02 May 2024 20:00:00 +0000

AI의 발전이 문학(文學) 분야에도 영향을 미치고 있다. SF 소설 속에만 존재했던 AI가 현실이 되고 있는 요즘, AI는 문학을 어떻게 변화시키고 있을까? 뉴스룸은 공학박사 출신의 SF 소설가인 전윤호 작가를 만나 이야기를 나눠봤다.

전문가가 본 소설 창작 도구로서 AI의 현 수준

전윤호 작가는 서울대 전기컴퓨터공학 박사 출신으로 한국전자통신연구원(ETRI)과 한국과학기술연구원(KIST)에서 AI와 로봇공학을 연구했다. 또 SK플래닛 CTO 및 SK텔레콤 플랫폼 연구원장을 역임하며 관련 분야에서 30년 이상 경력을 쌓았다.

이후 자신의 전문성을 살려 2020년 SF 장편 ‘모두 고양이를 봤다’로 등단한 전 작가는 2023년 여러 소설가가 AI를 활용해 소설을 집필하는 ‘매니페스토’ 프로젝트에 참여해 단편 ‘오로라’를 내놨다. 오로라는 인간보다 뛰어난 AI가 에너지 고갈, 난치병, 환경 파괴 등 인류의 난제를 해결하는 미래를 그린 내용이다. 그는 “공학자이자 소설가로서 AI로 소설을 쓴다는 것에 흥미를 느껴 이 프로젝트에 참여하게 됐다”고 설명했다.

▲ 전윤호 작가가 SF 단편 소설 ‘오로라’를 집필하기 위해 생성형 AI를 활용한 모습 예시

“이미 시와 같은 짧은 문학 장르에서는 작가들이 AI로 생성된 결과를 수정해 작품화하고 있습니다. 여전히 보완해야 할 점은 있지만, 직접 써보니 AI가 소설 창작에 미치는 영향력을 체감할 수 있었고, 앞으로 문학 발전에 AI가 중요한 역할을 할 것임을 확신하게 됐습니다.”

전 작가는 “소설을 쓰기 전 초기 아이디어를 내는 건 여전히 작가의 몫이지만, 이를 구체화하고 검토하는 과정에서는 AI가 상당히 유용하다”며 “AI는 소설 속 등장인물들이 겪을 수 있는 다양한 상황을 제시하고, 특정 상황에서 어떤 사건이나 장면이 적절한지 영감을 주기도 한다”고 말했다.

▲ 전윤호 작가는 실제로 소설 창작 중 브레인스토밍 과정에서 AI를 활용하고 있다.

실제로, 구글의 딥마인드가 2022년 선보인 ‘드라마트론(Dramatron)’ 같은 생성형 AI는 연극이나 TV, 영화 등 대중 문화 업계의 전문가들로부터 유용성을 인정받았다.

전 작가는 “AI가 아직은 전형적이고 예측 가능한 문장을 뽑아내는 수준이지만, 반복적인 명령을 통해 검토, 수정, 재조합 등을 시도하다 보면 꽤 훌륭한 결과를 얻을 수 있다”며 “AI를 통해 브레인스토밍은 물론, 이야기의 주제를 선정하고 특정 분야에 대해 학습하거나, 표현 안에서 더 적합한 단어와 문장을 찾아내는 등 여러 도움을 받을 수 있다”고 말했다.

AI가 소설 창작의 주체로서 더 완벽해지려면?

전 작가는 “AI를 글쓰기의 조력자로 활용할 수는 있지만, 소설이나 시나리오 같은 장편을 온전히 맡기기에는 여전히 한계가 있다”며 “AI가 독립적인 작가로서 능력을 갖추려면 소프트웨어와 함께 반도체 등의 하드웨어가 더 발전해야 한다”고 설명했다.

“많은 전문가는 AI가 한 번에 볼 수 있는 글의 범위, 즉 ‘컨텍스트 윈도우(Context Window, 문맥 창)’를 더욱 확장해야 한다고 말합니다. 더 넓은 범위의 문맥을 정확히 이해하고 이야기를 생성할 필요가 있다는 것이죠. 이와 더불어, 저는 AI가 자체적으로 결과물을 평가하고 개선할 수 있는 ‘에이전트’ 기능이 필수적이라고 생각합니다. 최근 개발되고 있는 AI에 이러한 기능이 포함되고 있다는 이야기들이 있습니다. AI가 더 높은 수준의 소설을 쓸 수 있는 날이 머지않았다고 생각합니다.”

전 작가는 반도체와 같은 하드웨어의 발전도 매우 중요하다고 강조했다.

“에이전트가 포함된 AI가 등장하기 위해서는 반도체의 성능 향상이 필수입니다. 데이터를 학습하고, 학습한 데이터를 기반으로 결과를 생성하는 현재의 AI 구조에 ‘생성된 결과물에 대한 검토 및 조합을 반복’하는 과정이 추가되기 때문인데요. 이러한 추론 성능을 향상시키려면 더 빠르게 연산할 수 있는 반도체가 필요합니다. 이를 위해 최근 GPU(Graphic Processing Unit)를 광케이블에 직접 연결하는 등 패키징 영역에서 다양한 시도가 이뤄지고 있고, 메인 메모리를 호스트(CPU, GPU 등)와 따로 두지 않고 그 안에 탑재해 처리 속도를 높인 인메모리 컴퓨팅(In-Memory Computing) 기술과 함께 사람의 뇌를 모방한 형태인 뉴로모픽(Neuromorphic) 반도체 등에 대한 연구가 진행되고 있습니다.”

“AI, 문학의 역사를 바꿀 핵심 기술될 것”

전 작가는 “AI가 혼자 힘으로 소설을 쓰게 되면 소설가들이 사라지게 될 거라는 우려도 있지만 그것은 기우”라고 말하며 “AI의 발전은 문학계에서 실보다 득이 더 많을 것”이라고 전망했다.

“기술 발전이 사람을 대체하는 일은 인류 역사를 되돌아봤을 때 흔한 일입니다. 하지만, 기술이 있음에도 여전히 사람의 노력과 창의성이 중요한 영역이 훨씬 많아요. 포토샵이 등장했음에도 회화는 여전히 가치 있고, 알파고의 등장 이후에도 사람들은 여전히 바둑을 둡니다. AI의 발전은 소설가를 없애는 것이 아니라 소설의 품질을 더욱 향상시키는 방향으로 전개될 것이라고 생각합니다. 그 누구보다 뛰어난 조력자를 얻게 된 우리 작가들이 더 훌륭한 작품을 창작해 내고, 이는 결국 문학계 전반에 긍정적인 시너지로 작용할 것이라 확신합니다.”

이외에도 전 작가는 AI의 ‘번역 능력’이 문학계에 긍정적인 효과를 더할 수 있을 것이라고 덧붙였다.

“최근 AI가 번역에서 뛰어난 성능을 보여주고 있습니다. 단순한 직역이 아닌 작품 속에 녹아있는 각 나라의 문화를 고려해 번역해 주는 경우가 많아졌죠. 이를 통해 우리 문학의 세계화를 기대해 볼 수도 있고, 우리말로 쉽게 번역하지 못했던 해외 작품들을 더 많이 접하게 될 수도 있습니다.”

전 작가는 끝으로 AI 기술과 문학에 대해 다음과 같이 평가했다.

“AI는 문학의 역사를 바꿔 놓았던 인쇄술, 타자기, 컴퓨터 등과 같은 핵심 기술이 될 것이라 예상합니다. 문학계에서도 이러한 기술 발전을 어떻게 활용할 수 있을지 깊이 고민해야 할 때가 됐습니다. 저는 공학자이자 SF 소설가로서 AI가 바꿀 미래를 흥미롭게 지켜보고 있습니다. AI로 인해 달라질 우리의 삶이 궁금하기도 하고요. 저는 이런 다양한 이야기를 소설로 풀어보고자 합니다. 우리의 미래를 바꿀 AI의 발전, 그리고 SF 소설에도 많은 관심 가져주시길 바랍니다.”

[인공지능과 반도체 7편 – 완결] 챗GPT 등 인공지능의 시대 : 메모리 반도체의 위상, 다시 세우다

정인성 작가 — Mon, 28 Aug 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 현재 전 세계를 가장 뜨겁게 달구는 키워드다. SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재하고 있다.이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 컴퓨터가 인공지능을 구현하면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지를 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해 볼 것이다. (편집자 주)

대 변화의 시대: ICT 기술 간의 상호작용

21세기에 일어난 ICT 산업의 변화는 가히 혁명적이라 할 만하다. 전 세계 대부분 사람이 ‘구글’이라는 검색 엔진과 ‘마이크로소프트 윈도우’라는 동일한 운영체제를 사용하고 있다. 이걸로는 부족했는지 대부분의 사람이 손에 컴퓨터를 하나씩 들고 다니며, 쉽게 인터넷에 연결되는 세상이 됐다. 그리고, 마침내 인공지능 기술이 등장했다.

새로운 ICT 기술들이 서로 영향을 주고받는 모습을 보면 놀라움 그 자체다. 여러분은 어느 순간 구글이나 네이버 등 검색엔진의 자동완성, 오타 교정 능력과 번역기의 성능이 크게 향상됐음을 느꼈을 것이다. 특히 구글의 경우는 BERT*와 같은 인공지능 기반 언어 모델이 개발됐기 때문이다. 그리고 이를 통해 많은 고객들로부터 끌어모은 정보는 다시 더 많은 데이터로 생성 활용하는 검색 엔진 회사로 거듭나며 정교한 인공지능 기반 서비스를 제공할 수 있게 됐다. 그리고 이렇게 정교화된 서비스들은 다시 스마트폰, PC 등에서 더 많은 소비자를 끌어모으고 있다.

* BERT(Bidirectional Encoder Representations from Transformers): 구글이 만든 자연어 처리 모델. 이는 검색엔진에서 광범위한 자연어 처리(NLP) 작업에서 단어의 의미와 문맥을 보다 잘 이해하고 유용한 검색 결과가 효과적으로 일치하도록 도와준다.

▲ 그림 1: 소프트웨어 회사, 사용자, 반도체 회사 모두가 이익을 보는 구조

동시에 반도체 수요에도 영향을 미친다. 사용자가 많은 플랫폼에는 그만큼 다양한 사용자 요구가 존재한다. 이러한 요구를 충족시키기 위해 인공지능 기술을 이용하려는 스타트업이 증가하고, 이들은 인공지능 반도체를 대량으로 구매해 신경망을 학습시키고 인공지능 서비스를 제공한다. 이는 엔지니어가 사용하는 PC부터 클라우드의 학습 서버까지 다양한 ICT 분야의 수요가 늘어나며 기술의 선순환이 이뤄지는 것이다. 이렇게 기술들은 상호작용하며 성장해 간다. 가르치고 배우며 함께 성장한다는 의미의 ‘교학상장(敎學相長)’이란 사자성어가 매우 어울린다.

다시 돌아보기: 인공지능, 소프트웨어, 반도체

이러한 선순환이 어디서 시작됐는지 돌아보자. 우리가 원하는 것은 인공신경망을 통해 구현되는 인공지능 기술이었다. 인공신경망의 개념은 1960년대에 등장했지만, 2012년에 이르러야 사람들의 주목을 받게 됐다. 그 이유는 인공신경망을 현실 세계에서 빛을 보게 해줄 요소 기술* 발전이 부족했기 때문이다.

* 요소 기술: 생각이나 계획을 실제로 변화시키고 발현할 수 있는 발명이나 혁신

▲ 그림 2: 학계와 반도체의 혁신을 향한 긴 여정

그림 2는 인공지능 기술이 반도체 업계와 학계가 어떻게 상호작용했는지 간단히 정리한 연대표이다. 과거 인공신경망이 구현되지 않았던 이유는 ▲데이터 학습 방법을 잘 모르고(이론 미비) ▲연산 능력이 부족했기 때문(하드웨어 미비)이다. 그중 전자의 문제는 캐나다의 제프리 힌턴 연구팀이 알렉스넷(AlexNet)을 통해 해결했고, 후자의 문제는 GPU(Graphics Processing Unit, 그래픽 처리 장치)의 발전과 과학자들의 GPU 채택을 통해 해결됐다.

GPU가 등장했던 이유는 두 가지였다. ▲컴퓨터의 용도가 고급 그래픽 분야로 확장됨으로써 사용자들이 전용 칩*을 원하게 된 것 ▲파운드리 회사의 기술 발전으로 제품 양산이 용이해진 것(엔비디아와 같은 GPU 기업들은 팹리스 기업으로 제품 생산을 위한 파운드리 모델이 필요)이다.

* 1999년, 엔비디아(NVIDIA)가 지포스(GeForce)라는 이름의 그래픽 컨트롤러(GPU로 명명)를 내놓기 전까지 그래픽 작업은 CPU(Central Processing Unit, 중앙처리장치)의 한 부분에서 이뤄졌다. 게임 등으로 컴퓨터의 용도가 확장되면서 그래픽 처리 작업이 많이 늘어났고, CPU를 통해 모든 작업을 처리하기 어려워지자, 그래픽을 처리하는 별도의 장치인 GPU가 등장했다.

이렇게 이론적 돌파와 반도체 기술의 발전이 합쳐지자, 인공지능은 드디어 주목받기 시작했다. 인공지능의 발전은 소프트웨어와 반도체 등 각 ICT 산업 분야에 큰 변화를 만들었다. 먼저, 전 세계 인공지능 개발자들은 인공지능에 특화된 GPU를 생산하는 엔비디아에 락인(Lock-In)*됐고, 덕분에 엔비디아는 인공지능 반도체 사업에 큰 성공을 이루고 있다.

* 락인(Lock-In): 고객이 특정 제품이나 서비스를 벗어나지 못하게 되는 현상

한편, 인공지능은 데이터 중심(Data-Driven)으로 개발되어 왔다. 이를 반도체의 측면에서 보면, 방대한 양의 데이터를 빠르게 처리할 수 있는 반도체 칩이 주목받게 된 것이다. 덕분에 메모리 반도체 회사의 인공지능용 초고성능 D램 제품 HBM*은 큰 인기를 얻고 있다. 게다가 데이터센터의 서버에 저장된 각종 데이터를 인공신경망이 이해하는 형태로 바꿔야 할 필요가 생기며, 일반 서버 메모리의 판매량도 급격히 늘어나고 있다.

* HBM(High Bandwidth Memory, 고대역폭 메모리): 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 AI용 고성능 메모리[관련기사]

결국 인공지능은 유망했던 미래 기술에서 현실의 거대한 사업 모델이 됐고, 이제 전문 인공지능 개발 기업부터 데이터 가공 기업 등 인공지능 관련된 다양한 회사가 생겨났다. 이 과정에서 인프라의 효율성과 성능은 더욱 중요해졌으며, 방대한 데이터의 저장 및 이동이 필요한 곳에는 낸드플래시(이하 낸드)가 채택됐다. 즉, GPU가 CPU와 경쟁해 자리를 차지하고 데이터 중심의 프로그래밍 방법론을 확립하는 동안 메모리 반도체는 그들과 함께 큰 혜택을 보고 있는 셈이다.

인공지능 시대의 메모리 반도체

그러면 현재 메모리 반도체의 상황을 알아보자. 알렉스넷의 성공으로 메모리는 인공지능 기술의 핵심 파트너임을 모두가 알게 됐다. 이러한 변화 과정에서 인공지능 기술이 메모리 반도체에 필요로 하는 것은 세 가지다. ▲GPU에 끊임없이 처리할 작업과 데이터를 넘겨줄 고성능(고대역폭) 메모리 ▲거대한 신경망과 학습 데이터를 담을 수 있는 대용량 메모리 ▲거대한 인공지능 학습 인프라를 유지하고 효율을 높이기 위한 고용량, 고성능 낸드다.

하지만 최근에는 인공지능 기술의 이러한 요구 사항을 반도체가 선제적으로 충족하지 못하고 있다고 생각된다. 인공지능 기술이 매년 향상되면서 반도체에 요구하는 성능 향상 폭도 더욱 커지고 있지만, 반도체 미세화의 난이도가 높아짐에 따라 반도체의 성능 향상은 상당히 제한되기 때문이다. 아직 메모리를 100% 대체할 수 있는 유일한 기술은 ‘용량이 더 크고 동작 속도가 더 빠른 메모리’밖에 없다는 것이 다행이다.

메모리 반도체 기업 구성원들은 기술을 개발해 경쟁자를 이기고, 다양한 이해관계자를 만족시킴으로써 더 나은 세상에 기여하고, 회사의 성장에 기여해야 한다. 이를 위해서는 특정 고객이 인공지능 기술에서 정말 어려워하는 부분이 무엇이고, 메모리 회사가 이를 어떻게 해결해 줄 수 있는지를 선제적으로 제시할 수 있어야 한다.

예를 들어, 지난 4편[관련기사]에서 살펴본 CXL(Computer eXpress Link)처럼 메모리의 확장 및 공유를 통해 다양한 서비스에 최적화된 메모리 환경을 제공할 수 있다. CXL 인공신경망(CXL + 한 개의 연산칩) 구조와 HBM 인공신경망(HBM + 여러 개의 GPU) 구조 등 서비스에 따라 최적화된 구성 환경은 다를 것으로 생각된다.

어떤 회사가 라틴어, 티베트어 그리고 타히티어와 같이 사용 빈도가 낮은 언어의 번역 인공지능 서비스를 제공한다고 가정해 보자. 사용 빈도가 낮다는 것은 인공신경망의 사용 횟수가 적다는 것으로 이를 위해 고정적으로 연산칩과 인공신경망을 할당하는 것은 비효율적이다. CXL + 한 개의 연산칩 구조를 통해 연산칩 한 개가 여러 인공신경망을 사용하게 하는 것이 더욱 효율적일 것이다. 반대로 사용 빈도가 높아 인공신경망을 자주 사용해야 한다면, HBM + 여러 개의 GPU 구조를 통해 인공신경망의 성능을 최대한 발휘하는 것이 효율적이다. 메모리 반도체 회사는 이런 틈을 파고들어야 한다.

▲ 그림 3: 거대 메모리를 통해 효율적인 연산이 진행되면 비용이 절약되는 효과를 보여주는 가상 예시

또, 메모리 반도체 회사들은 불가능해 보이는 사업을 가능하게 만들 수도 있다. 챗GPT와 같은 거대 인공신경망은 현재 ▲신경망 학습에 데이터가 너무 많이 필요하고 ▲인공신경망 크기가 너무 커서 탑재할 서버의 가격이 너무 비싸다는 문제를 가지고 있다.

아예 학습에 필요한 데이터가 확보되지 않는 사업이라면 메모리 반도체 회사가 도와줄 수 없다. 하지만 만약 특정 고객이 데이터는 충분한데 거대 신경망을 모바일 기기에 넣어야 하는 사업 모델을 구상했다면 어떻게 할 것인가? 이 사업 모델의 사업성이 크다면, 고객은 기꺼이 새로운 기기를 개발하고 그 기기에 들어가는 새로운 반도체를 탑재하려고 할 것이다. 어쩌면 이런 사업 아이템이 뉴로모픽 반도체 시장 진출의 시작점이 될지 모른다. 혹은 사업 아이템이 극단적으로 기기의 전력을 아낄수록 큰 이득을 보는 상황이라면 PIM[관련기사]을 제안해 볼 수 있다.

▲ 그림 4: 그림과 같은 모험을 하기 위해서는 크기, 가격, 발열 등 단점을 넘어설 만한 장점이 필요하다.

이러한 내용들은 예시일 뿐이다. 핵심은 시장이 인공지능으로 무엇을 하고자 하는지 파악하고, 현재의 기술로 구현 불가능한 것을 파악해 대안을 제시하는 것이다. 인공지능 기술이 과거에 연산칩과 메모리 반도체 역할의 두꺼웠던 벽을 허물 기회를 준 것이다. 이 기회를 적극적으로 활용하면 인공지능 시대를 이끌어갈 수 있을 것이다.

영원한 것은 없다: 변화에 집중하라

그렇다고 위와 같은 기회가 영원히 지속될 것이라는 생각은 금물이다. 현재의 인공지능 기술을 가능하게 만든 이론은 ‘역전파*’다. 역전파 방법론이 등장하자 ‘인공지능 학습’이라는 추상적이고 애매했던 목표가 단순한 최적 함수 탐색 문제로 변화하게 된다. 거대한 인공신경망을 조금 복잡한 함수로 보게 된 것이고, 덕분에 기존의 과학기술에서 널리 사용되던 기울기 하강법*과 같은 최적화 방법을 쓸 수 있게 된 것이다.

* 역전파(Backpropagation): 예측한 출력값과 실제 출력값의 차이인 오차를 계산하고, 이것을 다시 역으로 전파해 가중치를 조정해 예측 출력값과 실제 출력값을 일치시키는 방법. 본래 순전파(Feedforward)는 입력받은 데이터에 가중치를 곱하여 출력하는 방법이나, 역전파는 이를 보완한 것으로 대수적인 방법으로는 풀 수 없었던 문제를, 수치 해석적으로 오차가 작아지는 쪽으로 조금씩 값을 조절하는 과정을 반복하여 학습을 가능하게 함
* 기울기 하강법: 경사 하강법이라고도 하며, 예를 들어 어두운 밤 산에서 내려갈 때, 오르막이 아닌 아래로 기울어진 곳을 찾아 내려가듯이 손실 함수 값이 낮은 곳을 찾아 원하는 함수를 방법 중 하나. 특정 함수에 입력값을 넣은 뒤, 함수의 출력값과 원하는 기댓값의 차이를 줄이는 방향으로 함수를 갱신해 가는 방법

▲ 그림 5: 역전파 덕분에 단순 최적화 문제로 바뀐 인공신경망 학습

하지만 역전파와 기울기 하강법 기반의 학습은 장점만 있는 것은 아니다. 현재의 인공지능이 데이터를 매우 많이 필요로 하는 이유가 바로 기울기 하강법의 한계 때문이다. 현재의 인공지능은 1개의 데이터로 최적의 함수를 찾으려고 할 때 과적합*이 발생할 수 있다. 이런 이유로 과학자들은 매우 많은 데이터를 투입해 데이터당 학습량을 매우 적게 설정해 신경망을 조금씩 학습시킬 수밖에 없게 된다. 결국 인공지능 기술을 현재 수준까지 이끌어 온 것도 역전파이지만, 인간 수준의 인식능력을 갖추기 어렵게 하는 이유도 이 방법론의 한계 때문이다.

* 과적합(Overfitting): 기계 학습에서 학습 데이터를 수집할 때 전체적인 경향성에서 벗어난 데이터까지를 고려해 실제 데이터에 대해서는 일반화 성능이 떨어지는 모델을 얻게 되는 현상

다시 말해, 역전파 방법론을 넘어서는 인공신경망 학습 방법이 등장하면, 지금의 역전파 기반 인공지능 기술을 전제로 한 반도체 시장은 엄청난 지각변동을 겪게 될 것이다. 만약 인공지능이 인간처럼 데이터 1~2개만 보고도 새로운 동물을 구분할 수 있게 된다면, 거대한 메모리도, 고성능 GPU도 그리고 데이터 저장을 위한 거대한 낸드 저장소도 필요 없어질지 모른다.

그렇기에 우리는 현재의 기술에 집중하면서도, 새로운 기술을 가까이해야 한다. 지금 우리가 지나쳐 버린 어떤 논문이 캐나다 힌튼 연구팀(알렉스넷 개발팀)에 필적할 거대한 변화일지 모른다. 이런 트렌드를 빠르게 파악해 낸다면 누구도 경험하지 못한 새로운 미래를 개척할 수 있다.

분업의 시대에서 협업의 시대로

반도체 시장은 늘 위기에 직면해 왔다. 하지만 2020년대 들어 나타나는 위기들은 차원이 다르다. 미세화 기술 개발은 점점 어려워지고, 설비 투자액은 더욱 폭증하고 있다. 반도체는 강대국의 외교 테이블에 올라가기 시작했고 한때 반도체 회사 파트너였던 거대 소프트웨어, 하드웨어 회사들이 이제는 거대한 자체 수요를 믿고 반도체 설계까지 겸하는 상황이 됐다. 제조 기술을 통한 성능 향상은 점차 어려워져 경쟁력 확보는 힘들어지는데 고객사는 경쟁사를 겸하기 시작하고 있다. 이런 위기는 연산 반도체 기업에 더 크게 느껴지겠지만 메모리 반도체 역시 안심할 수는 없다.

지금까지 [인공지능과 반도체] 칼럼 시리즈에서 우리는 인공지능 세상에서 반도체가 어떤 역할을 해왔으며 앞으로 무엇을 할 수 있는지 살펴봤다. 필자는 이 시리즈를 통해 독자 여러분들이 반도체란 무엇인지 깊게 고민해 봤으면 한다. 인공지능 시대에 메모리 반도체의 위상은 왜 변했는지 이해해야 한다. 이것을 이해하면, 이후 인공지능 기술이 변화하거나 지금까지 보지 못했던 전혀 새로운 기술이 등장했을 때, 메모리 반도체가 어떤 위상을 가지게 될지 예측할 수 있을 것이다. 그리고 이를 안다면, 무엇을 해야 할지도 알 수 있을 것이다.

‘옛것을 배워 새로운 것을 깨닫는다’는 의미의 ‘온고지신(溫故知新)’이라는 말이 있다. 여러분이 살펴본 인공지능 기술 태동의 역사와 올해 40주년을 맞이한 SK하이닉스의 반도체 노하우가 합쳐진다면 분명 훌륭한 결과가 나올 것이라고 기대한다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 4편] 챗GPT 등 인공지능의 시대 : 메모리 공유를 통한 성능향상, CXL로 이루다 (4/7)

정인성 작가 — Tue, 23 May 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 현재 전 세계를 가장 뜨겁게 달구는 키워드다. SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재하고 있다.

이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 인공지능으로 바뀌면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지를 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해 볼 것이다. (필자 주)

서버 컴퓨터의 메모리 용량은 CPU 성능만큼이나 중요하다. 메모리 용량이 클 경우, 서버에 더 많은 프로그램을 탑해 다양한 작업 수행이 가능해지기 때문이다. 주 기억장치인 메모리의 용량이 작은 서버는 보조기억장치 용량이 아무리 커도 많은 프로그램을 동시에 실행시킬 경우 부족한 메모리 용량을 해결하기 위해 보조기억장치(SSD 또는 HDD)를 활용한 가상 메모리*라는 기술을 사용하게 되는 데, 이로 인해 속도는 느려진다. 운이 없는 경우, 진행하고 있던 작업이 에러로 중단되기도 한다.

* 가상 메모리 : SSD(Solid State Disk)나 HDD(Hard Disk)의 일부 영역을 마치 시스템 메모리인 것처럼 사용하는 기법. 메모리 안에서 자주 사용하지 않는 내용을 보조기억장치(SSD 또는 디스크)에 옮겼다가, 데이터가 필요할 때 다시 메모리에 불러오는 식으로 동작해 속도가 느려지는 문제를 가지고 있다.

그리고 인공지능 시대가 열리면서, 더 많은 데이터를 더 빨리 처리해야 하는 상황이 됐다. 당연히, 메모리 용량은 더욱 중요해졌다. 이 때문에 인공지능 학습 서버(컴퓨터)는 CPU(Central Processing Unit, 중앙 처리 장치)가 사용하는 일반 메모리뿐만 아니라, GPU(Graphic Processing Unit, 그래픽 처리 장치) 자체에도 고성능, 고용량 메모리인 HBM(High Bandwidth Memory)을 탑재하고 있다. 재미있는 것은 GPU에서 메모리를 장착했음에도 CPU 메모리 용량이 줄어들지 않았다는 것이다.

▲ 표 1 : 8개 GPU와 1.1TB 메모리를 가진 인공지능용 컴퓨터 ‘p4d’와 ‘p4de’의 스펙표 (출처 : AWS)

<표 1>은 아마존 웹서비스(AWS)의 인공지능 학습용 컴퓨터 ‘Amazon EC2 p4d(이하 p4d)’의 사양이다. p4d는 클라우드 환경에서 머신러닝 등 인공지능 구현을 위한 고성능 컴퓨터(HPC)의 일종으로 세계에서 가장 뛰어난 성능의 슈퍼컴퓨터 중 하나이다. 해당 컴퓨터에는 CPU를 비롯해 NVIDIA의 인공지능용 데이터 서버 GPU인 A100이 8개가 장착돼 있다. p4d는 GPU 8개를 통해 320~640GB라는 거대한 용량의 GPU 메모리를 가지고 있음에도, CPU가 별도로 1TB가 넘는 메모리를 사용하고 있음을 알 수 있다. 이는 큰 용량의 메모리가 인공지능 시대에 얼마나 큰 가치가 있는가를 시사한다.

성능 향상을 위한 새로운 표준, ‘CXL’

이처럼 메모리가 더욱 중요해지면서, 최근 주목받고 있는 것이 CXL(Computer eXpress Link)이다. CXL은 제품 그 자체라기보단, 컴퓨터 시스템 내부에서 CPU나 메모리, 저장 장치 간의 데이터를 더 빠르게 전송하기 위한 인터페이스 기술이다. 조금 더 자세히 살펴보자면, CXL은 기업들이 모여서 만든 컴퓨터 확장 부품의 표준이다. 표준의 중요성은 우리 모두 매우 잘 알고 있다. 만약 한국전력이 220V로 모든 전원을 통일하지 않았다면, 한국에서 가전 사업을 영위하는 것은 매우 힘들었을 것이다. 가전제품 회사 입장에서 같은 가전제품이 다양한 전압을 지원하게 조치해야만 하기 때문이다. 이는 소비자의 부담으로 전가된다.

컴퓨터도 마찬가지다. 우리가 NVIDIA의 GPU를 장착하든, AMD의 GPU를 장착하든 컴퓨터 내의 동일한 PCIe* 슬롯에 끼우면 운영체제가 스스로 새로운 GPU를 찾아내며, 사용자는 아무 문제 없이 새로운 GPU를 사용할 수 있다. 이런 일이 가능한 이유는 컴퓨터를 구성하는 메인보드, CPU, GPU, OS(운영체제) 등을 제조하는 기업 등이 협의해 PCIe라는 규격에 따라 각 기기를 통신시키자고 정했기 때문이다.

* PCIe(PCI Express) : 기존 PCI(Peripheral Component Interconnect)의 속도를 2배 이상 향상한 인터페이스 기술. PCI는 컴퓨터에 주변장치 GPU, 무선랜 등을 장착할 수 있는 고속 확장 슬롯의 인터페이스 기술

▲ 그림 1 : 메인보드의 PCIe 슬롯. 주로 그래픽 카드나 SSD가 장착된다.

CXL도 이와 같은 표준이다. 서버의 역할이 늘어남에 따라, 한 작업을 수행하기 위해 더 다양한 기기들이 관여해야 하는 상황이 만들어지면서 새로운 표준이 필요해진 것이다. 기존의 서버들은 대부분 CPU와 자체 메모리 정도로 간단하게 구성돼 있었다. 대부분의 작업은 CPU가 메모리를 직접 사용하며 수행했다. 하지만 서버가 하는 일이 인터넷 서비스뿐만 아니라 인공지능과 클라우드 등 각종 인프라 관리까지 매우 다양해지면서, 서버 내부의 CPU 외 GPU, FPGA* 등 다양한 확장 카드가 적용됐다.

* FPGA(Field-Programmable Gate Array) : 프로그래밍을 할 수 있는 중간 형태의 집적회로(IC)로 비메모리 반도체의 한 종류다. 회로 변경이 불가능한 일반적인 반도체와 달리 용도에 맞게 회로를 수정할 수 있다. 칩 설계 단계에서 칩을 시뮬레이션하는 용도와 CPU, GPU 등이 대응하기 힘든 독특한 작업을 빠르게 처리하는 용도로 사용된다.

서버의 성능을 최대한 끌어내기 위해서는 각종 확장 카드가 서로 하는 일을 방해하지 않으면서도 처리하고 있던 데이터를 빠르게 공유할 수 있어야 한다. 이를 위해 나온 표준이 CXL이다. 즉, CXL 표준을 준수하는 제품들을 서버 컴퓨터 내부에 함께 적용하면, 각 칩이 서로 잘하는 업무를 분담하기 쉬워진다. 이를 통해 전반적인 작업의 효율을 증대시킬 수 있다.<

▲ 그림 2 : SK하이닉스의 CXL 2.0 메모리와 같은 공유 메모리는 메모리 용량을 확장하면서, 다양한 연산 장치들이 빠르게 프로그램을 처리할 수 있다.

CXL 표준이 등장한 중요한 이유 중 하나는 바로 메모리의 확장 및 공유다. 최근 인공지능 기술 등이 발전하면서, CPU가 잘 해내지 못하는 작업이 늘어났다.* 이 문제를 해결하기 위해서는 서버 컴퓨터 내의 총 메모리 용량을 늘려 수용 가능한 데이터의 양을 늘려야 할 뿐만 아니라, 메모리 내부에 흩어져 있는 다양한 데이터를 가장 적합한 반도체가 접근해 처리할 수 있어야 한다.

* 메모리 접근과 산술 연산, 많은 분기를 통해 데이터를 처리하는 CPU 프로세스는 동시에 많은 연산을 해야 하는 인공신경망 학습에는 효율적이지 못하다. [관련기사]

이종 컴퓨팅: 공유 메모리의 이점

CXL 표준이 등장하기 전에는 연산 칩들이 메모리를 안전하게 공유할 방법이 없어, 칩 간 통신이 비효율적이었다. 현실의 예를 들어보자. 일반적으로 우리가 구매하는 컴퓨터나 노트북에는 그래픽 표시를 위한 GPU가 탑재돼 있다. 다만 이 GPU들은 대부분 CPU 칩 안에 함께 내장된 형태를 보인다. 이러한 GPU를 내장 GPU(iGPU)라고 부른다.

이런 GPU들은 NVIDIA 등의 외장 GPU(dGPU)와 달리 자체 메모리가 없어 컴퓨터 CPU에 연결된 D램을 사용해야 동작할 수 있다. CPU에 연결된 8GB 메모리 중 1GB 정도를 내장 GPU에 나눠주는 식이다.

▲ 그림 3 : CPU와 내장 GPU의 현재 협업 방식

얼핏 보면 동일한 물리적 메모리를 나눠 쓰고 있으니, CPU와 내장 GPU 간 협업이 쉬울 것 같다. 하지만 이들이 협업하기 위해선 복잡한 과정이 필요하다. 어떤 프로그래머가 GPU를 이용해 프로그램의 성능을 높이고 싶다고 해 보자. GPU는 병렬 연산에 강하므로, 병렬 연산해야 할 데이터는 GPU가 처리하게 만들고 싶을 것이다. 얼핏 봐서는 GPU가 직접 CPU가 처리하던 메모리에 접근하여 작업을 수행할 수 있을 것으로 보인다.

하지만 실제로는 그렇게 작동하지 않는다. CPU와 내장 GPU는 통일된 메모리를 사용하는 게 아니라, 메모리에 칸막이를 친 형태로 작동되기 때문이다. <그림 3>을 보면 알 수 있듯, 실제로 이런 작업을 하기 위해선 CPU와 GPU는 일단 서로의 메모리 공간에 공유해야 할 데이터를 복사한 뒤 작업해야만 한다. <그림 3>에서 <1>과 <3>과정이 낭비로 보이지 않는가? 메모리 공유만 잘 이루어진다면, GPU가 바로 과정<2>만 수행해 데이터를 처리할 수도 있었을 것이다.

위와 같은 이유로, CPU와 내장 GPU는 이론상 낼 수 있는 시너지를 제대로 낼 수 없었다. 복사로 인한 시간 및 에너지 소모가 클 뿐만 아니라, 반응 속도도 느려지기 때문이다. 현재 이런 메모리 공유 문제는 CPU와 내장 GPU뿐만 아니라, 다양한 하드웨어 사이에서 발생하고 있다. 물리적으로도 한 덩어리인 메모리에 칸막이가 존재한다면, 물리적으로 멀리 떨어진 칩끼리의 데이터 공유는 더욱 어려울 것이다. 이로 인해 다양한 반도체를 엮어서 작업을 하고자 해도, 시간 손해가 커서 큰 효율 개선이 일어나지 않는 것이다.

하지만, CXL과 같은 거대한 공유 메모리가 생기게 되면서 상황이 달라졌다. 번거로운 기기 간 메모리 공유가 CXL로 인해 간단해진 것이다. 이렇게 되면, ‘인공지능’이라는 하나의 작업을 위해 메모리를 쪼개서 CPU, GPU 등에 나눠줄 수 있게 된다. 기존에는 전체적으로 가장 뛰어났던 GPU가 대부분의 인공지능 일을 전담했다면, 이젠 특정 구역은 GPU가, 다른 부분은 FPGA가, 나머지는 CPU가 처리하는 식으로 바뀔 수 있게 된다.

이는 분업화라 할 수 있다. 기존에는 10명의 주방 직원이 동일한 코스요리를 똑같이 준비했다고 하면, 이제는 코스요리를 애피타이저, 메인(고기/생선), 후식 등으로 나눈 뒤 각 요리를 저마다 가장 잘할 수 있는 요리사에게 맡길 수 있도록 변한 것이다. 이러한 컴퓨터 동작 방식을 이종 컴퓨팅(Heterogeneous Computing)이라고 한다. 다양한 반도체들이 자신이 잘하는 연산 부분을 담당해 전체 성능을 개선하는 것이다.

▲ 그림 4 : 데이터를 인공신경망으로 학습하는 과정에서 각 부분에 최적화된 연산 장치를 사용해 전체 성능을 높일 수 있다. (해당 그림은 연산 장치의 분산을 설명하기 위한 예시로, 기술 개발에 의해 각 연산장치가 잘하는 부분이 달라질 수 있다.)

CXL의 또 한 가지 강점은 메모리 대역폭과 큰 용량이다. 우리가 HBM 편[관련기사]에서 살펴보았듯, 인공지능 환경에서는 메모리의 용량과 대역폭이 모두 중요하다. 다뤄야 하는 데이터가 크기 때문이다. 이 상황에서 CXL은 CPU 등 인공지능 분야에서는 다소 뒤처진 반도체에 큰 이점을 제공할 수 있다.

CPU가 기존에 사용하던 D램에 더해 CXL 메모리를 탑재할 경우, 메모리 용량과 대역폭이 모두 상당히 증가하게 된다. 현재 NVIDIA의 A100 GPU는 2TB/s의 높은 대역폭을 가지고 있는 대신 기기당 40~80GB 정도의 메모리밖에 탑재하지 못한다. 반면 현재의 CPU는 1TB가 넘는 큰 메모리를 장착할 수 있지만, 메모리 대역폭은 250~500GB/s 정도밖에 되지 않는다.

CPU에 CXL 메모리가 채용될 경우, CPU와 GPU의 대역폭 차이는 좁혀지고 CPU는 거대한 메모리 용량을 유지할 수 있게 된다. 만약 수많은 고성능의 CPU에 CXL 메모리를 채용하기 시작한다면, 인공지능 분야에서 GPU에 밀렸던 경쟁력을 어느 정도 찾을 수 있을 것이다.

GPU는 인공지능 추론 속도가 빠르지만 메모리 용량이 작고, CPU는 메모리가 크지만, 대역폭이 상대적으로 낮다. GPU에는 자주 호출되는 인공신경망을 소량 올려서 추론에 사용하고, CPU에는 자주 사용하지 않는 인공신경망을 다량 탑재해 사용하는 등의 방식을 사용한다면, 인공지능 비용을 아끼면서 더욱 높은 효율을 기대할 수 있을 것이다. 예를 들면, 다국어 번역 인공지능 서비스를 운영할 때, 영어 번역기는 수요가 크기 때문에, GPU에 탑재하고, 기타 사용 비율이 낮은 언어들은 CPU에 대량으로 탑재하는 등의 방식을 쓸 수 있다.

CXL로 만드는 새로운 컴퓨터

▲ 그림 5 : 기존 컴퓨터(좌)와 이종 컴퓨팅이 적용된 컴퓨터(우)의 구조

<그림 5> 중 우측 그림은 미래에 생겨날 수 있는 이종 컴퓨터가 적용된 컴퓨터의 예시 모습이다. 매우 이상적이고 멋진 모습으로 보일 수 있다. 하지만 이것은 더 나은 서비스를 누리게 될 일반인들의 입장이고, 반도체 회사나 소프트웨어 회사에 새로운 컴퓨터는 거대한 도전으로 다가온다. 컴퓨터는 프로그램 없이 동작할 수 없다. 그리고 기존의 프로그램은 왼쪽 그림의 기존 컴퓨터 모습에 최적화돼 있다. 컴퓨터의 구조를 바꾼다는 것은 기존에 쌓아 놓은 수많은 노하우, 안정성 등을 포기하고 불모지로 나아간다는 의미다.

노하우와 안정성을 포기한다는 것은 반도체 회사와 소프트웨어 회사 모두에게 큰 불확실성을 가져온다. 반도체 회사들은 자신들이 만든 새로운 CXL 기기가 소프트웨어 회사들이 만든 새로운 프로그램과 조화롭고 안정적으로 동작할지 확신할 수 없다. 소프트웨어 회사는 CXL 기기가 약속한 성능과 안정성을 만족하며 출시될지, 이후에도 끊기지 않고 성능 개선된 버전을 출시해 줄지 확신할 수 없다. 때로는 새로운 CXL 기기의 기능이 기존 파트너 회사의 영역을 침범하게 되기도 한다. 이로 인해 많은 회사가 새로운 시도를 어려워하게 되고, 기존 컴퓨터에 안주하게 된다.

▲ 그림 6 : SK하이닉스가 소프트웨어를 활용, SKT와 공동 개발한 H/W-S/W 통합 플랫폼인 CMS가 2022년 10월 OCP 글로벌 서밋에 전시된 모습 [관련기사]

SK하이닉스와 같은 메모리 회사 역시 새로운 컴퓨터를 만드는 핵심 일원이다. CXL 기반의 새로운 컴퓨터를 만들어 나가는 과정에서 소프트웨어 회사, 플랫폼 회사, 타 반도체 회사 등은 경쟁자이면서도 협력자, 그리고 고객이기도 한 구조의 관계를 맺게 된다. 이들과의 신뢰를 유지하면서도 새로운 관계로 협업하며 새로운 컴퓨팅 시스템을 만들어 가는 미래를 향해 함께 성장한다면 기업이 아닌 인류 모두에게 큰 이익이 될 것이다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[DGIST 시리즈 1편] 메모리 기반 연산 가속기: 저장과 연산을 동시에 하는 진정한 두뇌로

윤종혁 교수 — Wed, 22 Mar 2023 21:00:00 +0000

뉴스룸에서는 대구경북과학기술원 교수 7명과 함께 반도체 기본 모듈과 반도체 적용 사례, 메모리, 인터페이스 회로 등을 주제로 총 7편의 칼럼을 연재하고자 한다.
첫 순서는 전기전자컴퓨터공학과 윤종혁 교수로부터 컴퓨팅 프로세스의 발전과 이러한 발전이 인공지능(AI, Artificial Intelligence)기술에 어떤 기여를 하고 있는지를 알아보고 CPU, GPU, 그리고 메모리 반도체의 역할과 성능이 어떻게 컴퓨팅 프로세스의 발전에 기여하는지 알아볼 것이다.

※ 대구경북과학기술원(DGIST, Daegu Gyeongbuk Institute of Science and Technology): 반도체 융합기술, 뇌공학, 마이크로레이저 등 다양한 첨단 과학 기술을 연구하고 있다. 특히 반도체 분야에서는 전문적인 연구개발(R&D)과 함께 캠퍼스 내 반도체 제조 시설을 구축 운영하고 있다.

일상으로 스며든 인공지능 기술

멀게만 느껴지던 인공지능이 점차 우리에게 가까워지고 있다. 최근에 뉴스에서 끊임없이 언급되고 있는 챗GPT도 인공지능 기반의 기술이니 말이다. 하지만 20년 전만 하더라도, 인터넷을 통한 자연어 검색 등 큰 규모의 서버에서 구현한 인공지능 정도만이 그나마 유용했다(엄밀하게 말하면 이러한 것들을 인공지능이라고 부르기도 전의 시대다). 이에 비해 당시 컴퓨터, 스마트폰 등 말단 장치(엣지 디바이스*)에서의 인공지능은 아주 미흡한 수준이었다. 1990년대 말에서 2000년대 초까지 마이크로소프트 오피스(Microsoft Office) 프로그램에 등장하던 길잡이 강아지를 기억하는 사람들은 이해할 것이다. 이 길잡이는 도움말 색인에 겹치는 일부 정보만 보여주거나 전혀 다른 정보로 응답했고, 심지어 기능을 끄는 것조차 쉽지 않아 사용자들에게 도움을 주기는커녕 불편하고 귀찮은 존재로 인식되곤 했다.

* 엣지 디바이스 (Edge Device) : 데이터 처리가 네트워크 중심에 위치한 클라우드가 아닌 엣지(가장자리)에서 이루어진다는 점에서, 기존 스마트 디바이스들과 구분해 ‘엣지 디바이스’라 지칭한다.

그렇다면 현재의 인공지능 수준은 어떠한가? 스마트폰의 사진 및 카메라 앱의 사례만 들어도 쉽게 확인할 수 있다. 지금은 스마트폰에도 신경망을 모사한 NPU* 등의 인공지능 칩들이 탑재돼, 굳이 서버의 힘을 빌리지 않아도 검색어만 입력하면 관련 사진을 분류해 볼 수 있고, 손쉽게 사진 내 객체를 편집할 수 있는 기능까지 기본적으로 지원하고 있다.

과거에는 왜 이러한 진보된 인공지능 기술이 없었을까? 2016년에 인공지능의 진보를 전 세계 사람들에게 각인시킨 ‘구글 딥마인드 챌린지 매치(이세돌-알파고의 바둑 대국)’ 이전에는 사람들이 인공지능 응용 분야에 대해 생각하지 않았던 것일까? 인공지능이 숨 쉬듯 주위에 존재하는 요즘엔 많은 사람이 알고 있을 이야기지만, 인공지능의 근본 원리는 1940년대에 제안됐으며, 그 실용성은 1970년대부터 2000년대 초까지 제프리 힌턴(Geoffrey Hinton) 연구 그룹에서 발표한 제한된 볼츠만 머신*, 역전파 알고리즘* 이론 등으로 이미 확보됐다. 오래전부터 인공지능의 이론은 확립돼 있었으나 그 응용 분야가 비교적 최근에야 발전하기 시작한 이유는, 인공지능 구현을 위한 연산 기능의 한계 및 데이터(신경망 가중치 및 결과값 등) 저장에 필요한 하드웨어 리소스의 한계 때문이었다.

* NPU(Neural Processing Unit, 신경망처리장치) : 머신러닝 구동에 최적화된 프로세서. 소프트웨어를 통해 인공신경망을 만들어 학습해야 하는 GPU와 달리 하드웨어 칩 단위에서 인공신경망을 구현하고자 했다는 특징이 있다.
* 제한된 볼츠만 머신(Restricted Boltzmann Machine, RBM) : 가시층 노드와 은닉층 간에 간선이 없는 볼츠만 머신으로 입력 집합에 대한 확률 분포를 학습할 수 있는 생성 확률적 인공 신경망이다.
* 역전파 알고리즘(Backpropagation algorithm) : 다층 구조를 가진 신경망의 머신 러닝에 활용되는 통계적 기법의 하나로, 예측값과 실제값의 차이인 오차를 계산해 이를 다시 반영해 가중치를 다시 설정하는 학습 방식

▲ 연산 및 메모리 접근에 따른 에너지 소모

우리가 흔하게 알고 있는 CPU와 GPU가 결국 최적의 MVM 연산을 지원하지 못하므로, 학계 및 산업계에서는 신속하고 에너지 효율적인 연산을 지원하기 위해 ASIC* 설계를 기반으로 한 연산 가속기들을 개발하고 있다. ASIC 칩들은 주로 디지털 연산 가속기이다. 큰 크기의 MVM에 특화된 연산 유닛을 많이 구현하고, 인공지능 네트워크 구조에 따라 가변 크기 MVM도 쉽게 지원할 수 있다.

그렇다면 디지털 연산 가속기는 인공지능 연산 하드웨어 자원을 확보할 수 있는 궁극적 해결책일까? 앞서 언급했듯, 인공지능 하드웨어의 요점은 MVM을 얼마나 효율적으로 빠르게 연산하는지에 달려있다. CPU, GPU, ASIC 기반 디지털 연산 가속기로 넘어오면서 연산 유닛의 효율성과 연산 속도는 증가했는데, 전체 시스템의 연산 효율성도 그에 정비례해 증가했을까? 이를 계산하기 위해서는 연산 전체 동작에 어떤 에너지가 얼마나 드는지 알아볼 필요가 있다.

컴퓨터의 일반적 구조인 폰 노이만 구조*에서는 연산 장치가 메모리에서 데이터를 읽어와 처리하고 다시 메모리로 보내는 방식으로 동작한다. MVM 연산은 인공지능 신경망의 입력과 메모리에 저장된 가중치 간의 곱 연산이므로, 1) 입력과 가중치를 연산 유닛까지 전달하는 에너지 및 2) 이를 이용한 연산 에너지가 전체 시스템의 연산 효율성을 결정한다. 이때, 입력은 외부에서 연산 유닛으로 직접 전달되므로 에너지 비중이 낮은 편이지만, 가중치의 경우 외부 D램에서 연산 유닛까지 데이터를 전달하는 데 연산 에너지 대비 약 500배 이상을 소모한다. 2020년 11월 미국 DARPA 워크숍에서 필립 웡(Philip Wong) 스탠퍼드대학교 교수도 메모리에서의 에너지 소모가 최대 연산 에너지 효율성을 제한한다고 했다. 즉, 우리가 연산 에너지를 줄이는 등 연산 효율성을 높이기 위해 노력했으나, 사실은 가중치를 메모리에서 읽고 쓰는 데 대부분의 에너지가 쓰이고 있었다. 이는 전체 시스템의 연산 효율성을 개선하기 위해 메모리의 읽기/쓰기 횟수가 줄어야 함을 의미한다.

* ASIC (Application Specific Integrated Circuit) : 일반적인 집적회로와 달리 특정한 제품에 사용할 목적으로 설계된 비메모리 반도체 칩
* 폰 노이만 구조 (Von Neumann Architecture) : 주기억 장치, 중앙 처리 장치, 입출력 장치의 전형적인 3단계 구조로 이루어진 프로그램 내장형 컴퓨터 구조. 오늘날 사용하고 있는 대부분의 컴퓨터가 이 기본 구조를 따르고 있지만, 병목 현상으로 인해 고속 컴퓨터의 설계에서 한계를 보인다.

▲ 폰 노이만 구조에서 PIM 연산 구조로의 변화

연산 효율성을 위한 PIM 기반 가속기의 두 가지 구조: IMC, NMC

이에 착안해 등장한 것이 폰 노이만 구조를 탈피한 PIM(Processing In Memory) 기반 연산 가속기다. PIM은 메모리 내에서 연산을 수행하는 구조로, 가중치는 메모리 내에 그대로 존재하고 입력이 전달돼, 연산을 메모리에서 수행 후 그 결괏값만을 출력해주는 방식이다. 그리고 이러한 방식은 크게 메모리 내 연산(IMC)*과 메모리 인접 연산(NMC)*으로 나뉜다. 이는 PIM의 의미를 메모리 회로 내 연산으로 볼 것이냐, 메모리 모듈 내 연산으로 볼 것이냐의 차이로 구분할 수 있다. IMC는 메모리 회로를 연산이 가능하도록 수정 설계해 ASIC으로 구현하는 것이고, NMC는 메모리 모듈(메모리 칩을 포함한 반도체 기판) 내에서 HBM* 등 가중치를 위한 고집적 메모리와 MVM에 특화된 ASIC이 같이 집적된 것을 말한다. 참고로 설명하자면, 학계에서 PIM은 주로 IMC의 의미로 사용하며, 산업계에서는 NMC의 의미로 사용된다.

▲ 메모리 내 연산(IMC, In-Memory Computing) 모델 예시

기존 폰 노이만 구조의 경우 CPU와 메모리 간 연결이 메인보드-커넥터-메모리 모듈(DIMM)* 등 다수의 PCB*로 구성돼 있다. 반면 NMC의 경우 SiP*, 3D IC 등을 활용해 PCB 레벨이 아닌 단일 패키지 내에서 메모리와 연산 ASIC이 연결돼 가중치 접근을 위한 메모리 읽기/쓰기에 소모되는 에너지 및 지연시간을 크게 줄였다. IMC의 경우 NMC 방식에서 더 나아가 메모리 내에서 연산을 수행함으로써 앞서 말한 에너지 소모와 지연시간을 획기적으로 줄인 연산 방식이다.

그렇다면 IMC 방식이 더 효율적으로 보이는데 왜 IMC와 NMC 방식은 공존하고 있을까? 여기에는 연산 크기의 가변성, 연산 및 메모리 집적도, 대역폭 등의 이유가 작용한다. NMC는 한국의 강점인 고집적 메모리 반도체를 그대로 활용하면서 MVM 크기를 가변적으로 지원하는 연산 ASIC을 인접 배치 및 추가하는 것만으로 PIM 연산 구조를 지원할 수 있다. 반면 IMC는 효율성은 뛰어나지만 기존 메모리 회로를 연산에 용이하도록 수정 설계할 필요가 있어 높은 연산 효율성 대비 집적도 면에서 손해를 보고, 이는 가중치 저장 용량의 손실 및 대역폭의 하락으로도 이어진다.

▲ 메모리 인접 연산(NMC, Near-Memory Computing)의 모델 예시

* 메모리 내 연산(IMC, In-Memory Computing) : 메모리가 직접 연산하는 기술, 주 연산 장치로 데이터를 이동하지 않고도 연산이 가능하기 때문에 매우 빠른 데이터 처리가 가능하며, 방대한 데이터를 빠르게 처리하고 분석하는 데 유리하다.
* 메모리 인접 연산(NMC, Near-Memory Computing) : IC패키지에 메모리와 연산 장치를 통합해 더 빠른 데이터 처리를 가능하게 하는 방법
* HBM(High Bandwidth Memory) : 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품
* 메인보드-커넥터-메모리 모듈(Dual In-line Memory Module, DIMM) : 여러 개의 DRAM 칩을 회로 기판 위에 탑재한 메모리 모듈로, 컴퓨터의 주기억 메모리로 쓰인다.
* PCB((Printed Circuit Board) : 전자 회로로 구성된 반도체 기판. 대부분의 전자 기기에 사용된다.
* SiP(System in Package) : 여러 블록을 개별적인 칩으로 구현한 후 수동 소자들까지 한꺼번에 단일 패키지에 결합한 하나의 완전한 시스템

PIM 성능을 결정짓는 가중치 용량과 이에 따른 연산 가속기 개발

한편, 연산 효율 외에도 저장 용량은 PIM에서의 중요한 성능 지표 중 하나다. 최근 오픈AI에서 GPT-3.5를 기반으로 개발한 챗GPT는 1,750억 개 이상의 가중치로 구성돼 있다. 그리고 각 가중치가 16비트 부동소수점(FP16)을 사용하므로 가중치 저장 용량에만 350GB 정도가 필요하다. 연산에 필요한 350GB의 가중치를 동시에 로드한 채로 연산할 수 없으므로, 결국 NMC의 연산 ASIC 또는 IMC 회로에서 많은 가중치를 활용할 수 있어야 가중치 업데이트 및 중간 결괏값 저장 횟수를 줄일 수 있다. 이에 따라 전체 동작 중 연산 동작을 수행하는 비율이 높아지고, 데이터 전송에 쓰이는 에너지는 줄어들게 되는 것이다. 이것만 고려하면 고집적 HBM을 활용한 NMC 기반 PIM 시스템이 더 주효한 접근으로 보인다.

그렇다면 큰 규모의 인공지능 시스템 외에, 엣지 AI에서는 어떨까? 엣지 AI에서는 단일 칩 내 모든 가중치를 탑재할 수 있는 응용 분야가 많이 존재한다. 엣지 AI는 배터리 기반으로 동작하는 경우가 많으며 초저전력 동작을 요구하기 때문에 메모리-연산 유닛 간의 데이터 이동에 소모되는 전력을 수용할 수 없는 경우가 많다. 따라서 말단 장치에서는 IMC와 같이 연산 에너지 효율이 높은 회로에 모든 가중치를 선탑재한 말단 엣지 AI 구현이 필요하다. 이때, 엣지 AI의 고도화를 위해서는 IMC 기반 PIM 시스템의 연산 효율성과 더불어 선탑재가 가능한 가중치 용량이 중요한 역할을 한다.

업계에서의 고도 인공지능을 위한 NMC 기반 PIM 시스템 연구 개발에 발맞춰, 학계에서는 엣지 디바이스 및 인공지능의 고도화를 위해 SRAM*, eDRAM*, D램 등의 휘발성 메모리 기반 PIM 연산 가속기와 RRAM*, PCRAM*, MRAM* 등의 차세대 비휘발성 메모리 기반 PIM 연산 가속기 설계 연구를 진행하고 있다. 휘발성 메모리 중 SRAM의 경우 CMOS 공정의 접근 용이성으로 인해 활발한 연구가 수행되고 있다. 전류 방식 연산부터 저항비, 전하 공유(Charge Sharing), 용량성 결합(capacitive coupling) 방식 등이 활용되고 있으며, 그중 커패시터*의 낮은 공정 편차를 활용하는 전하 공유 및 용량성 결합 방식이 SRAM-PIM 연산 가속기의 주된 연구 흐름이라고 할 수 있다.

▲ SRAM 기반 PIM 연산 가속기의 연산 방식 종류 (출처: B. Zhang et al., “PIMCA: A Programmable In-Memory Computing Accelerator for Energy-Efficient DNN Inference” IEEE Journal of Solid-State Circuits, pp. 1–14, 2022, doi: 10.1109/JSSC.2022.3211290)

비휘발성 메모리는 휘발성 메모리 대비 높은 집적도와 연산 효율성을 가지고 있고, 가중치 유지를 위한 전원 유지의 필요가 없어, 초저전력 엣지 디바이스에 더 적합하다. 비휘발성 메모리 중 MRAM은 다른 비휘발성 메모리 대비 낮은 ON/OFF Ratio(1과 0을 표현할 때의 저항값 비율)로 인해 다중 비트 인코딩 등에 불리한 편이어서, RRAM과 PCRAM 등의 높은 ON/OFF Ratio를 활용한 PIM 연산 가속기들이 많이 연구되고 있다. 다만 비휘발성 메모리는 소자별 저항값 편차가 크다는 점 등의 낮은 기술 성숙도로 인해 부속 회로 구현이 추가로 필요하다. 이 때문에 PIM 연산 가속기의 전체 면적당 집적도 및 연산 효율성 면에서 SRAM 등 휘발성 메모리 기반 PIM 연산 가속기에 뒤처지고 있으나, 소자의 기술 성숙도 측면에서 발전 가능성이 높다. 이를 반영해 한국에서도 많은 연구개발(R&D) 사업을 진행 중이다.

* SRAM (Static Random-Access Memory) : 전원이 공급되는 동안 데이터를 온전히 저장하는 메모리, 단 몇 초 만에 데이터가 사라지는 DRAM과 차이점이 있다.
* eDRAM (Embedded DRAM) : ASIC 또는 마이크로프로세서의 동일한 다이 또는 멀티 치프 모듈 (MCM)에 통합된 DRAM
* RRAM (Resistive Random-Access Memory, 저항성 메모리) : 유전체 고형 상태 재료에 대한 저항을 변경해 작동하는 비휘발성 RAM의 유형
* PCRAM (Phase-Change RAM, 상변화메모리) : 일부 재료의 변화를 이용해 데이터를 저장하는 반도체 메모리. PCM은 플래시 메모리와 DRAM의 특성을 모두 갖추고 있으며, 플래시 메모리와 마찬가지로 비휘발성이므로 전원이 차단돼도 정보가 손실되지 않는다. DRAM과 마찬가지로 PCM은 데이터를 빠르게 처리하고 전력 효율이 높다는 특징이 있다.
* MRAM (Magnetoresistive Random-Access Memory, 자기저항성 메모리) : 데이터 저장에 대한 자기 저항을 이용하는 비휘발성 반도체 메모리의 일종. 플래시 메모리처럼 MRAM은 전원이 차단돼도 정보가 손실되지 않고, DRAM처럼 데이터를 빠르게 처리해 전력 효율이 높다.
* 커패시터 (capacitor): 메모리 반도체에서 데이터가 저장되는 장치를 지칭하며, 데이터가 담기는 방이라고 볼 수 있다.

더 나은 인공지능 실현을 위한 과제

과거 인공지능 개발은 앞서간 이론과 그것을 실현하기에는 부족한 하드웨어 간의 간극에 의해 발목이 잡혔다. 시간이 지남에 따라 하드웨어에서 CPU, GPU, 구글의 TPU* 등의 디지털 연산 가속기가 개발돼 오면서 인공지능 실현에 걸림돌이 되던 연산량 부분에서 획기적인 개선이 이뤄졌다. 여기에 더 나아가 PIM 연산 가속기의 등장으로 기존에 데이터 저장만을 담당하던 메모리가 이제는 연산을 포함한 두뇌의 역할에 다가서고 있다. 하지만 연산 분해능, 저장 용량, 지연 시간, 전력 소모 등 회로의 특성이 명확하지 않아, 지금까지 PIM 연산 가속기 연구는 갈 길이 멀다. 이를 극복하기 위해 앞으로는 하드웨어 영역에서 인공지능 알고리즘 지원을 위한 성능 개선 연구가 꾸준히 이뤄져야 한다. 또한 알고리즘 영역에서도 PIM 연산 가속기 특성을 고려한 인공지능 신경망의 최적화가 필요하며, 이를 기반으로 회로와 알고리즘의 결합이 PIM 연산 가속기 연구에서의 중요한 축이 될 것이다.

* TPU(Tensor Processing Units) : 구글이 자체 개발한 인공지능 전문 칩으로, 구글의 AI 기계 학습 엔진인 텐서 플로우에 최적화돼 있다. 2016년 1세대, 2017년 2세대 TPU가 공개됐다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 2편] 챗GPT 등 인공지능의 연산을 높여준 세계 최고 성능 D램, HBM의 등장(2/7)

정인성 작가 — Mon, 13 Mar 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 최근 전 세계를 가장 뜨겁게 달구는 키워드다. 그래서 SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재할 예정이다.

이번 연재는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 기존의 프로그램이 인공지능으로 바뀌면서 0과 1의 세계가 구체적으로 어떻게 변화하는 것인지 알아보고, 이를 실행하는 데 필수적인 반도체는 어떤 중요한 역할을 해야 하는지 확인해볼 것이다. 이를 통해 반도체는 인공지능을 포함한 새로운 ICT 기술의 등장에도 두려워하기보다는 세상을 변화시킬 혁명의 주인공이 될 것이다. (필자 주)

인공지능 시대의 개막

2012년, 사물 인식 대회였던 이미지넷 챌린지(ImageNet Challenge)에서 이변이 일어난다. 이미지넷 챌린지는 전 세계에 있는 사물 인식 알고리즘에 동일한 데이터를 준 뒤, 주어진 데이터 내에서 누가 더 정확하게 사물을 분류하는지 겨루는 대회다. 2012년 전까지 이 대회는 매해 극히 적은 수준의 정확도 개선이 일어나고 있었지만, 인공신경망 알렉스넷(AlexNet)이 대회에 등장하면서 그 흐름이 바뀐다.

알렉스넷은 수많은 사물 데이터를 인공신경망에 투입함으로써 신경망을 학습시키는 방식으로 만들어졌다. 알렉스넷은 기존의 사물인식 알고리즘과는 다르게 동작했다. 사진에 복잡한 처리를 하고 각종 특징을 뽑아내어 알고리즘에 전해주는 대신, 사진을 그대로 투입하면 인공신경망이 결괏값을 스스로 판단해내는 방식으로 동작했다. 알렉스넷은 대회에서 압도적인 차이로 우승했고, 이후 이미지넷 챌린지의 승자는 전부 인공신경망으로 변화하게 된다. 인공지능의 시대가 열렸음을 보여주는 상징적이고 결정적인 사건이었다.

인공지능이 메모리에 던진 과제

알렉스넷은 처음부터 GPU* 사용을 염두에 두고 만들어진 인공신경망이었다. 앞서 설명했듯 사물 인식 프로그램(인공지능)을 만들기 위해서는 수십억 개의 인공 뉴런 사이 연결 강도를 올바른 값으로 지정해줄 필요가 있다. 하지만 올바른 값은 단 한 번에 찾아낼 수 없다.

* GPU(Graphics Processing Unit) : 각종 대규모 병렬 연산에 강점을 가진 반도체. 본래 그래픽 처리에 사용되었으나, 인공지능 기술이 대규모 병렬 연산을 통해 구현 가능하다는 사실이 알려지면서 최근 인공지능 분야에서 큰 인기를 끌고 있다. GPU와 인공지능의 관계를 더욱 자세히 알고 싶다면 지난 칼럼을 참고바란다.

▲ 이미지넷 챌린지 TOP5 모델의 정확도는 2011년 73.8%를 기록했으나, 2012년 알렉스넷이 등장함에 따라 가파르게 상승, 2016년 93.95%에 다다르게 된다.

연구원들이 찾아낸 방법은 수없이 많은 데이터를 투입해가며 서서히 올바른 값을 찾아가는, 연산이 매우 많이 필요한 과정이었다. 이 과정에서 정확도가 50%에서 51%, 그리고 90% 이상까지 서서히 높아졌다. ‘프로그래밍’이라는 단어보다는 ‘학습’이라는 단어가 더 어울리는 이유이기도 하다.

한편, 인공신경망이 더 많은 사물을 정확하게 구분하기 위해서는 주어진 사진 내에서 더욱 다양한 정보를 뽑아낼 수 있어야 한다. 그렇게 하려면 신경망의 크기를 키우고, 더 많은 데이터를 투입해 학습시켜야 한다. 그러기 위해서는 더 큰 메모리가 필요하다. 실제 알렉스넷 논문에도 메모리 용량의 중요성을 언급하는 부분이 있음을 알 수 있다.

In the end, the network’s size is limited mainly by the amount of memory available on current GPUs and by the amount of training time that we are willing to tolerate.*
* 출처. ImageNet Classification with Deep Convolutional Neural Networks (nips.cc)

이 글에서 알 수 있듯, 네트워크(신경망) 크기를 키우지 못한 이유 중 하나로 메모리 용량을 언급하고 있다. 당시에도 연구팀은 더 큰 메모리와 학습 시간만 주어졌다면, 더 높은 점수를 낼 수 있다고 생각했을 것이다. 메모리가 인공지능 시대에 중요한 역할을 한다는 사실은 이미 11년 전부터 알려져 있던 것이다.

실제로 알렉스넷은 이런 한계를 뛰어넘기 위해 GPU 2개(GTX 580)를 결합하는 테크닉을 사용하는 등 다양한 연구를 해야 했다. 이 문제에 대해 메모리 회사가 내놓은 답은 무엇이었을까?

HBM : 고대역폭 메모리의 부상

메모리는 다양한 특성을 가졌다. 이중 메모리 구매자가 중요하게 살펴보는 특성은 대역폭(Bandwidth), 반응 속도(Latency), 용량(Capacity)이다. 대역폭은 메모리에서 한 번에 빼낼 수 있는 데이터의 양을 의미한다. 반응 속도는 CPU나 GPU의 요청이 들어왔을 때 얼마나 빨리 첫 반응을 할 수 있는지를 뜻한다. 용량은 메모리 안에 얼마나 많은 데이터를 담을 수 있는지를 말한다.

▲ 데이터가 메모리에서 CPU/GPU로 이동하는 모습을 적재물(데이터), 창고(메모리), 공장(CPU/GPU), 그리고 도로의 너비(대역폭)에 비유

메모리를 일종의 데이터 창고라고 한다면, 대역폭은 창고로 들어오는 도로의 너비다. 도로가 넓다면 한 번에 지나다닐 수 있는 자동차 수가 많음으로, 창고에서 많은 양의 데이터를 한 번에 빼낼 수 있다. 반응 속도는 도로 위에서 돌아다니는 자동차들의 속도다. 용량은 창고의 총 크기라고 생각하면 된다.

HBM*은 대역폭과 용량에 중점을 두고, 반응 속도를 다소 양보한 제품이다. 따로 제조된 D램 칩을 여러 개 적층한 뒤, D램에 TSV* 공법을 이용해 칩을 관통하는 전극을 생성하는 것이다.

* HBM(High Bandwidth Memory) : 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품
* TSV(Through Silicon Via) : 수천 개의 미세한 구멍을 뚫고 이를 관통하는 전극으로 여러 개의 칩을 연결해 데이터를 전달한다. 기존 방식 대비 신호 전달 속도가 빠르고, 집적도(Density)를 확보하기도 훨씬 용이함

HBM은 일반 PC용 D램과는 매우 구분되는 장점이 있다. 일단, D램을 여러 개 적층했으므로 기반 면적당 높은 용량을 확보할 수 있다. 그뿐만 아니라 반도체 제조에 가까운 방식인 TSV를 사용하기에 좁은 면적에 여러 D램의 데이터 연결 통로를 촘촘하게 밀집시켜 만들 수 있다. 덕분에 고작 칩 하나 면적 수준에서 메모리 4개 이상의 대역폭을 가진다. 4차선 도로를 짓는 대신 4개 층을 가진 1차선 도로를 만드는 셈이다. 다만, 칩을 적층한 이유로 발열 해소에 문제가 생길 수 있어, 개별 칩의 동작 속도는 약간 줄었다. 이로 인해 반응 속도에서 약간의 손해가 발생한다.

▲ 더 많은 대역폭을 가지는 HBM의 장점

본래 HBM은 고성능 그래픽 처리를 위해 탄생한 제품이다. 그래픽 처리는 모니터에 표시될 수백만 개의 픽셀(Pixel)을 계산해야 하기에 매우 높은 대역폭과 실수 연산 능력을 필요로 했다. 이로 인해 그래픽 처리는 컴퓨터 역사에서 일찌감치 CPU에서 독립하여 GPU, 혹은 VGA라는 이름의 그래픽 전용 가속 카드가 처리하게 발전했다.

메모리 회사들 역시 GPU가 요구하는 고대역폭 메모리를 GDDR(Graphics Double Data Rate)이란 이름으로 꾸준히 공급해 왔다. 그리고 인공지능학자들이 GPU를 이용해 돌파구를 열면서, GPU의 든든한 동반자였던 고대역폭 메모리 역시 날아오르게 된 것이다. 여기에 그래픽 처리를 능가할 정도로 높은 메모리 용량을 요구하게 되면서 HBM이 더욱 빛을 보게 된 것이다.

인공지능에 HBM이 필요한 이유: 학습

인공지능을 만드는 첫 단계는 학습이다. 학습은 과거의 프로그래밍으로 따지면 프로그램 자체를 구현하는 매우 중요한 작업이다. 연구원들은 신경망을 구성하고 난 뒤, 신경망을 초기화하고 본격적으로 학습 작업에 들어간다.

신경망 학습을 위해서 연구원들은 수만~수백만 개의 데이터를 준비한다. 이 데이터는 단순한 사진, 글자 등의 조합이 아니다. 연구원들은 문제-정답으로 한 쌍을 갖춰준 뒤 신경망이 특정 문제를 풀었을 때 오답을 내면 에러를 줄이는 방향으로, 신경망 내부 수백~수백억 개의 뉴런 연결 강도를 조정해 주고, 정답이 나왔을 경우 정답을 더 말하는 방향으로 연결 강도를 조정해 준다. 이는 24시간 내내 GPU를 구동해도 수시간, 수개월이 걸리는 매우 고된 작업이다. 학습 과정에서 각 인공 뉴런 사이의 연결 강도는 수십만 번 이상 변화한다.

당연하지만 이 작업을 빠르게 하기 위해서는 학습 데이터가 최대한 연산 장치에 가까이 있어야 한다. 먼 곳에 있는 학습 데이터를 가져와야 할 경우 학습 데이터를 전송하는 데 너무나 많은 시간이 들기 때문이다. 당연히 GPU 칩과 최대한 가까운 곳에 메모리를 두려 하게 된다. GPU 회사가 HBM의 큰 고객이 될 수밖에 없는 이유다.

또한 짐작할 수 있겠지만, 학습 과정에서 사용되는 메모리 용량은 추론* 시에 사용되는 메모리보다 훨씬 크다. GPU 내부 메모리에는 학습 대상 인공신경망 + 학습시킬 데이터 배치(Batch)* + 각종 연구 개발용 정보 등 다양한 데이터가 들어가야 하기 때문이다. GPU 내부에 한 번에 배치를 많이 넣을수록 학습이 안정적으로 진행될 수 있다. 실제로 신경망의 크기가 1이라고 하면, 학습 데이터에 사용되는 메모리가 4~5 이상 되는 경우도 있다.

* 추론 : 인공신경망이 실제로 문제를 푸는 행위
* 배치(Batch) : 일종의 인공신경망 학습 단위. 데이터의 묶음으로 구성됨

▲ GPU와 메모리가 하는 일, GPU는 메모리에 저장된 인공신경망 일부와 데이터 일부를 지속적으로 가져와 연산(학습 및 추론)하고 중간 산출물과 최종 결과 등을 메모리에 저장하는 과정을 반복한다.

고성능 GPU는 한 번에 처리 가능한 연산량도 크기 때문에, 한 번에 많은 데이터가 GPU 코어에 투입되어야 제 성능을 발휘할 수 있다. 거대한 재고 창고와 공장을 자전거 도로로 연결하면 공장이 쉴 수밖에 없다. 따라서 거대한 공장에는 넓은 도로가 필요하듯, 고성능 GPU 역시 큰 대역폭을 필요로 하는 것이다.

인공지능에 HBM이 필요한 이유 : 추론

한편, HBM은 학습뿐만 아니라 추론에서도 강력한 힘을 발휘하고 있다. 최근 챗GPT 등 초거대 언어 모델이 대두하기 시작했는데, 이들은 추론에도 매우 큰 메모리가 필요하다. 일반적으로 추론용 GPU는 NVIDIA T4 등 학습용 GPU보다는 메모리가 적은 GPU 모델이 사용된다. 하지만 초거대 모델의 경우 8~16GB 정도의 메모리로는 추론을 돌릴 수 없다.

지금 유행하는 챗GPT의 경우 자료형 선택에 따라 320~640GB 정도의 메모리를 사용할 것으로 예상된다. 이는 현재 필자의 작업용 컴퓨터 메모리의 10배 이상인 어마어마한 수치다. 컴퓨터 본체도 아니고, 부속으로 달리는 GPU가 이런 큰 용량을 감당해야 하는 것이다.

혹자는 GPU 대신, 거대한 서버 컴퓨터에 CPU를 탑재한 뒤 일반 메모리를 대량으로 탑재해 추론에 사용하면 되지 않느냐고 생각할지 모른다. 실제로 메모리 용량만 놓고 비교할 경우, CPU에 메모리 640GB가 탑재된 서버가 GPU로 640GB를 확보한 것보다 더 싸다. 하지만 이 경우 추론 속도가 너무 느려 사용하기 힘들어진다. Hugging Face*에 공개된 GPT-2 알고리즘 기준 CPU에서 추론 시 처리당 0.05~0.1초의 시간이 필요했다. 이보다 100배 이상 거대한 GPT-3 모델의 경우, CPU에서 처리당 10초 이상이 소요된다는 의미다. 이는 상업적으로 사용하기 힘든 속도다. 결국 GPU를 엮어서 쓸 수밖에 없는 것이다.
* 참고. Accelerated Inference with Optimum and Transformers Pipelines (huggingface.co)

당연히 이런 대용량 메모리를 GPU에 탑재하기 위해서는, 면적당 메모리 집적도가 매우 높아야 한다. 현실적으로 메모리 회사가 1~2년 만에 D램 칩 자체 밀도를 3~4배 늘리는 것은 불가능하다. 그 때문에 HBM과 같은 면적 대비 밀도가 높은 칩이 필요한 것이다. 물론 HBM을 사용할 경우 GB당 가격은 일반 DDR 메모리보다 훨씬 높아지게 되지만, 인공지능 기술이 가져다주는 매우 높은 부가가치 덕분에 칩의 인기는 매우 높다.

HBM을 사용하는 NVIDIA A100 카드와 GDDR을 사용하는 NVIDIA A6000 카드의 메모리가 사용하는 면적 차이를 보면 그 힘을 알 수 있다. 두 그래픽 카드의 물리적 크기는 동일하지만, 사용 가능한 메모리 용량은 A6000이 24~48GB, A100이 40~80GB다. A100이 2배 가까이 더 크다. 대역폭 역시 A600은 약 800GB/s이지만, A100은 1,900GB/s로 2배 가까이 크다. A6000 대신 A100을 사용할 경우, 동일 컴퓨터에 신경망을 2배 집적할 수 있을 뿐만 아니라 개별 신경망 작동 속도까지 2배로 상승하게 되는 것이다.

▲ 일반 메모리와 HBM 메모리의 인공신경망 구동 비교, GDDR 메모리 등 일반 메모리는 물리적 공간을 크게 차지하기에 GPU 카드 하나의 메모리 용량을 늘리는 데 한계가 있다. 반면 HBM은 동일 면적에서 더 높은 밀도를 가지기에 GPU 카드당 더 많은 메모리를 부착할 수 있고, 더욱 큰 용량의 인공신경망을 담을 수 있다.

HBM은 복잡한 카드 간 연결을 줄여주는 역할도 한다. 이미 알렉스넷에서 봤듯이, GPU 메모리 용량이 부족하면 신경망을 둘로 쪼개 각기 다른 GPU 카드에 탑재해야 한다. 최근 유행하는 초거대신경망은 A100 카드 한 장에 들어가지 못해 동일 카드를 여러 장 묶어 사용해야만 한다. 이로 인해 인공지능 초반에 알렉스넷이 해야 했던 것 이상으로 번거로운 일을 해주어야 할 것이다. 수백 GB의 신경망을 여러 개의 GPU에 나눠 담는 동시에 추론 속도에 큰 영향을 받지 않게 하는 등 여러 테크닉을 구사해야만 한다.

만약 단일 GPU에 탑재된 메모리가 더욱 크다면 이런 번거로움이 줄어든다. HBM은 동일 GPU 카드 면적에 더 높은 메모리를 제공할 수 있기에 꾸준히 인공지능학자들에게 큰 도움이 될 것이다. NVIDIA의 차기 학습용 GPU인 H100의 경우 80GB 메모리부터 시작한다. A100 역시 40GB에서 출발하여 80GB 카드를 출시했으므로 더 큰 메모리를 가진 H100 제품이 나올 것도 예상할 수 있다.

결론

HBM은 인공지능 시대가 열리면서 가장 주목받은 메모리다. 우리는 HBM이 대두하는 과정을 분명하게 이해해야 할 필요가 있다. 본래 메모리 비즈니스의 덕목은 ‘매해 같은 용량을 더 싸게 파는 비즈니스’가 핵심이었다. CPU 기반의 프로그램은 예측할 수 있는 방식으로 발전해 왔고, 매해 더 큰 용량의 메모리를 제공하면 되는 것이었다. 메모리 회사가 해야 할 일은 더 많은 프로그램을, 혹은 용량이 더 큰 동영상을 동시에 수행할 수 있게 하는 것이었다. CPU의 동작 방식상, 이 모든 데이터를 한 번에 접근하려 하진 않을 것이기 때문이다.

하지만 인공지능 기술이 나타나면서 상황이 바뀐다. 인공신경망 기반의 프로그램, 인공지능은 메모리 공간을 크게 차지할 뿐만 아니라, 주어진 시간 내에 접근해야 하는 메모리의 총량도 압도적으로 컸다. 이로 인해 용량 대비 가격이 비싸더라도, 더 큰 용량과 더 큰 대역폭을 제공하는 메모리를 원하게 된 것이다. 본래 메모리에 수백~수천만 원의 지출을 하는 것은 어마어마한 비용이었지만, 부가가치가 높은 인공지능 입장에서는 HBM 가격은 ‘고작 수백만 원’에 불과하다.

우리는 이런 사실을 잘 이해할 필요가 있다. 프로그램, 나아가 IT 환경의 변화는 비즈니스의 가정 자체를 뒤집어 놓을 수 있다는 것이다. 신기술로 인해 ‘대역폭과 총용량’의 가치가 ‘용량당 가격’의 가치를 넘어섰다. 앞으로 새로운 기술들이 나타날 때마다 이 기술은 과연 메모리에 무엇을 요구하게 될지 고민해 봐야 할 시대다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 1편] 챗GPT 등 인공지능의 시대 : 프로그래밍과 인공지능, 그리고 GPU의 등장 (1/7)

정인성 작가 — Thu, 23 Feb 2023 15:00:00 +0000

전통적 프로그램이 동작하는 방식

우리는 이미 20년 전에도 컴퓨터 없는 세상을 상상할 수 없었다. 21세기 초, 인터넷 뱅킹이 생겨나기 시작했고, 각종 인터넷 쇼핑몰이 생겨났다. 수많은 회사가 엑셀과 같은 스프레드시트 프로그램을 사용해 회계 작업의 효율성을 높였고, 워드프로세서 프로그램들을 통해 수기 작업을 대체했다. 이후에는 개별 컴퓨터에 보관되던 작업물이 중앙 서버에 집중되기 시작했고, 각 직원은 자신의 물리적 위치에 구애받지 않고 일할 수 있게 됐다. 그렇다면 의문이 하나 생길 것이다. 대체 프로그램이란 무엇인가?

간단한 예를 들어 보자. 한 직원이 문서 내의 모든 행에 있는 숫자를 합하는 프로그램을 만들고 싶어 한다고 가정해보겠다. 그리고 현재 문서가 다섯 줄이라면 어떻게 해야 할까? 제일 첫 단계는 일단 ‘사람이라면 어떻게 하는지’ 고민하는 것이다. 아마도 마음속에 제일 먼저 떠오르는 것은 무언가를 ‘다섯 번 반복’하면 된다는 사실일 것이다.

▲ 그림 1 : 무언가를 다섯 번 반복하기 위한 코드의 흐름

하지만 이렇게 다섯 번 반복해서는 의미가 없다. 수를 모두 합해야 하기 때문이다. 반복할 때마다 사라지지 않고 누적되는 어떤 값을 만들어야 한다. 따라서 프로그램을 다음과 같이 개조할 수 있다.

▲ 그림 2 : 다섯 줄의 숫자를 합하는 프로그램의 흐름

해냈다! 드디어 프로그램의 구조를 만들었다. 이제 이 순서도에 맞춰서 프로그래밍 언어로 코드를 만들면 된다. 파이썬(Python)*이라는 프로그래밍 언어로 만든다면 아래와 같은 모습이 될 것이다. 프로그래밍 언어를 모르는 사람이라도, 아래 코드를 읽는 것에는 큰 어려움이 없을 것이다.

* 파이썬(Python) : 귀도 반 로썸(Guido van Rossum)이 개발한 프로그래밍 언어. 초보자도 사용하기 편하다는 특징이 있다.

▲ 그림 3 : 완성된 다섯 줄의 숫자를 합하는 파이썬 프로그램 코드

만약 지금 만든 프로그램을 다섯 줄의 한계 없이, 어떤 데이터가 입력되더라도 파일의 끝까지 더하는 프로그램으로 개선하고 싶다면 어떻게 해야 할까? 아마도 ‘다섯 번 반복’을 무언가 다른 것으로 바꿔야 한다는 짐작이 가능할 것이다. 다행히도 이미 ‘누군가’가 파일을 읽을 때 EOF(End of File)을 알려주는 기능을 추가했다. 이 기능을 활용하면 된다. 위 그림에서 빨간 네모 친 부분을 바꾸면 된다는 의미다.

이렇게 우리는 전통적 프로그램을 완성하고, 개선까지 해냈다. 우리는 이 과정에서 여러 가지 사실을 알 수 있다. 가장 중요한 것은 순서도를 만드는 것이다. 시키고 싶은 작업이 있다면, 프로그래밍 언어는 달라도 순서도의 모습 자체는 동일하다는 것을 명심해야 한다. 다시 말하면, 순서도를 떠올리지 못하면 프로그램을 만들 수 없다는 의미다.

또, 한 가지 사실은 프로그램을 만드는 과정에서 ‘누군가’ 다른 사람이 만든 코드에 크게 의존하게 된다는 것이다. 사실 위에서 구체적으로 언급하지는 않았지만, EOF 확인 이외에도 ‘파일을 읽는 것’, ‘모니터에 출력하는 것’ 등 역시 다른 누군가가 만든 함수다. 이런 기능들은 운영체제(OS, Operating System)가 제공하기도 하며, 누군가 다른 사람이 특정 프로그래밍 언어로 만들어 두기도 한다. 프로그래머들은 프로그래밍을 시작하기 전 이런 다양한 요소들을 고려한다. 예를 들어, 만약 내가 만들고 싶은 프로그램을 개발하기 위해선 데이터를 매우 특별한 방식으로 바꿔야 하는데, 그 기능이 자바(Java)*에 이미 존재한다면 자바로 코드를 만드는 것이 효율적이다.

우리가 매일 사용하는 워드프로세서, 스프레드시트, 웹 브라우저 등 대부분의 프로그램이 위와 같은 작업을 통해 만들어진 것이다. 그렇다면 인공지능 시대에는 무엇이 바뀌는 것일까?

* 자바(Java) : 오라클(Oracle)사가 개발한 프로그래밍 언어의 일종

신경망과 인공지능

위에서 우리가 살펴본 프로그래밍 방법은 완벽한 것 같지만 사실은 그렇지 않다. 여기에는 두 가지 문제가 있다. 하나는 프로그램이 스스로 배우지 못한다는 것이다. 우리는 프로그램을 고치기 위해 순서도를 고쳐야 했다. ‘다섯 번 루프’를 ‘EOF로 대체하지 않는 이상, 프로그램은 영원히 파일의 첫 다섯 줄만을 가져와 처리했을 것이다.

더 큰 문제는 따로 있다. 바로 인간이 순서도를 만들지 못하는 프로그램은 만들 수 없다는 것이다. 프로그래밍의 첫 단계를 해내지 못하니 다음 단계로 가지 못하는 것이다.

사진이 입력되면 동물의 종류(개와 고양이)를 구분하는 프로그램을 만들어야 한다고 해 보자. 여러분은 개와 고양이를 어떻게 구분하는가? 아마 바로 떠오르는 것은 주둥이의 모습일 것이다. 그래서 아래와 같은 순서도를 만들었다고 해 보자.

▲ 그림 4 : 개와 고양이를 구분하는 간단한 프로그램의 흐름

그런데 문제가 생긴다. 누군가 동물 주둥이가 가려진 사진을 두 개 가지고 온 것이다. 이제 프로그램이 작동하지 않는다. 프로그래머는 놀라 허겁지겁 새로운 알고리즘을 만들기로 한다. 눈동자의 모양을 확인하는 코드를 추가하면 개와 고양이의 구분이 가능할 것이다. 하지만 새로운 개, 고양이 사진을 가지고 올 때마다 이런 일이 계속 생겨날 것이다. 위와 같은 순서도 기반의 프로그램으로는 도저히 개와 고양이를 구분하는 안정적인 프로그램을 만들 수 없을 것이다. 현실에서는 개와 고양이를 구분하는 눈, 코 등의 요소들을 찾아내는 것도 힘든데, ‘주둥이, 눈동자 모양’만 골라내는 코드를 만드는 것 역시 매우 힘들다. 특정 사진에서는 쉽게 찾아낼 수도 있지만, 수백만 개의 다양한 사진에서 특정 요소를 골라내기는 매우 어려운 일이다.

▲ 그림 5 : 개와 고양이 구분하는 프로그램을 구성하기란 매우 어렵다.

하지만 인간은 사진을 보면 ‘척 보면 딱’ 개와 고양이를 구분해낸다. 스스로 어떻게 구분했는지는 잘 모르지만, 할 수 있다. 그렇다면, 인간과 비슷한 구조의 프로그램을 만든다면 어떻게 동작하는지는 몰라도, 개와 고양이를 잘 구분할 수 있게 될 것이라는 가정이 가능하다. 따라서 아래의 구조와 같은 프로그램을 만들어 보게 된다. 이제 프로그램에는 순서도가 없고, 수 없이 연결된 인공적인 신경세포가 가득하다. 이를 ‘인공신경망’이라 부른다.

인공신경망의 입력 부분에 사진을 투입하면, 출력 부분에서는 개인지 고양이인지가 출력되는 것이다. 이제 프로그래머가 해야 하는 일은 저 수많은(수백만~수백억 개) 신경세포들 사이의 연결 강도를 지정해 주는 것이다. 하지만 순서도가 없으니 각 세포가 뭘 하는 것인지 하는지 알 수가 없다. 개와 고양이를 구분하기위해 첫 번째, 두 번째… 백만 번째 인공 뇌세포는 무엇을 해야 하는 건지 어떻게 알 수 있겠는가? 이 문제로 인해 인공신경망이라는 개념은 1960년대에 처음 등장했음에도 50년 가까운 세월 동안 빛을 보지 못했다. 우리가 학습이라고 부르는 것은 일종의 프로그래밍 방법이다.

▲ 그림 6 : 인공신경망이 동작하는 방식

* 입력층 : 입력을 받아들이는 층
* 은닉층 : 입력층으로부터 입력값을 받아 가중치를 계산하는 부분으로 가중치의 수정으로 인한 학습이 진행되는 층
* 출력층 : 결과를 출력하는 층

오랜 연구 끝에, 과학자들은 역전파(Backpropagation)*, 초깃값 세팅 등 다양한 방법을 개발했다. 위 방법들과 함께 대량의 학습 데이터를 투입할 경우, 우리들이 개별 세포들의 역할을 모르더라도 잘 동작하는 프로그램, 즉 인공지능을 만들 수 있게 된 것이다. 이렇게 해서 새로운 세상이 열리게 됐다. 새로운 이론들을 통해 신경망을 학습시키자, 신경망 내 다양한 은닉층은 각자의 역할을 가질 수 있게 됐다.

* 역전파(Backpropagation) : 맨 마지막 층의 값부터 비교하는 방법으로 학습하면서 차례차례 역으로 원하는 곳까지의 결과값을 얻어내는 과정

이 대목에서 우리는 반도체 엔지니어들이 인공지능 기술을 어떻게 접근해야 하는지 알 수 있다. 예를 들면, 우리가 인공지능의 ‘학습’이라고 부르는 것은 결국 수백만 개가 넘는 인공 뉴런 사이의 연결 세기를 ‘제대로’ 지정해 주는 일이었을 뿐이다. 반도체 엔지니어가 인공지능에 접근하는 방법에 대해 다음 예를 통해 설명해보겠다.

▲ 그림 7 : 인간의 얼굴을 찾아내는 가상의 인공신경망 예

<그림7>의 예는 사람의 얼굴만을 골라내 출력하는 가상의 인공신경망이다. 우리가 이 신경망을 구성한 뒤 학습시키게 되면, 각 층은 대략 위와 같은 역할을 가지게 된다. 일단 입력층에 가까운 은닉층이 원, 가로선, 세로선, 대각선 등 특정 도형들에 활성화가 되게 학습된다. 그다음 은닉층은 인간의 얼굴을 찾기 위해, 눈 코 입 등을 찾으려 한다. 이때 사진 원본 대신 그 전 단계 은닉층이 제공해준 정보를 사용하는 것이다.

눈을 탐지하는 은닉층은 눈이라는 신체 부위의 특징상, 원에는 크게 반응해야 하지만, 세로선에는 거의 반응하지 않아야 할 것이다. 만약 입을 찾아야 한다면, 가로선이 가장 중요하고 세로선은 별로 중요하지 않을 것이다. 과학자들이 발견한 학습 방법론의 의의는 사람이 일일이 눈, 코, 입 등을 얼굴 구분에 중요한 요소를 지정해주지 않아도 데이터만 투입해 주면 자동으로 내부의 신경망이 층을 나눠 위와 같은 역할을 가지게 만들 수 있다는 것이었다.

당연하지만 인공신경망을 키우고 은닉층이 깊어질수록 더욱 세밀한 분석을 할 수 있게 된다. 더 많은 은닉층이 있다면, 대각선에 반응하는 선이 학습 과정에서 생겨날 수 있고, 눈과 코 출력 결과를 또 모아서 눈과 코 사이의 거리를 확인하는 세 번째 은닉층이 생길 수도 있다. 이 과정에서 점점 인간 얼굴을 구성하는 더 많은 요소를 고려할 수 있게 되며, 정확도가 높아지게 되는 것이다.

‘현재 인공지능의 학습이란 것은 수많은 소수점을 변경하고 저장하는 것을 반복하는 것이다.’

이것이 여러분이 반도체를 알기 위해서 프로그램을 이해해야 하는 이유다. 위와 같은 이해를 해야만 이후 중요한 변화가 생겼을 때 대응할 수 있다. 만약 인공지능 기술의 트렌드가 바뀌어, 신경망의 크기가 매우 작아지면? 역전파를 대체할 학습 방법론이 생겨나면? 이런 세세한 트렌드 변화는 프로그램들이 원하는 반도체의 특성을 바꾼다. 만약 ‘인공지능은 큰 메모리가 필요하다’라고 암기식으로 접근한다면, 이때 잘못된 결론을 내리게 될 것이다.

프로그램을 위해 진화해 온 CPU

반도체 입장에서의 프로그램을 조금 더 자세하게 살펴보자. 앞서 우리는 순서도 기반으로 만들어진 프로그램을 살펴봤다. 이런 프로그램들은 그 자체로는 의미가 없으며, CPU(Central Processing Unit, 중앙처리장치)가 있어야만 의미를 가진다. 프로그래머는 앞서 만든 순서도를 컴퓨터가 이해하는 기계어로 변환한 뒤, 메모리에 저장한 다음 CPU에 프로그램을 실행해 달라고 요청하는 것이다.

위 예에서 알 수 있지만, 프로그램을 수행하기 위해서는 크게 세 가지의 연산 종류가 필요함을 알 수 있다. 하나는 덧셈, 뺄셈 등의 사칙연산, 메모리 입출력, 비교와 분기다. 분기라는 것은 조건에 맞춰 선택지를 택하는 것을 의미한다. 인간 입장에서 ‘1부터 5까지 더한다’라는 작업은 컴퓨터 입장에선 아래와 같이 보이게 된다. 일반적으로 CPU 내부에 레지스터라는 고속 저장소가 있으므로, 변수 2개(N, S) 정도는 메모리 접근 없이 처리할 수 있지만 설명을 간단히 하기 위해 이런 부분은 과감히 생략하겠다.

▲ 그림 8 : 연산 칩 입장에서 1에서 5까지 더하는 프로그램의 흐름과 CPU와 메모리의 역할

위 작업을 분석해 보면 메모리 접근과 산술 연산이 매우 빈번하지만, 분기 역시 자주 발생함을 알 수 있다. 이와 마찬가지로 현대 컴퓨터 프로그램의 상당 부분은 분기 처리로 이뤄져 있다. “ESC 버튼을 입력하면 → 현재 프로그램을 종료하라”와 같은 간단한 명령조차 분기다. “출금 버튼을 누르고 대상 계좌가 입력되면, 돈을 송금하라”와 같은 명령도 분기가 필요하다.

그렇다면 CPU가 계속 활용되기 위해서는 어떻게 해야 할까? 위 순서도에 따르면 세 가지 성능이 개선되면 된다. 산술 연산 속도, 분기 처리 속도, 메모리 접근 속도가 높아지면 된다. 위 예에서는 연산을 한 바퀴 돌 때 메모리 접근 6회, 산술 연산 2회, 비교 및 분기 1회가 포함돼 있다. 여기서 만약 메모리 접근과 산술 연산이 회당 1의 시간이 필요하고, 비교 및 분기에 10의 시간이 필요하다고 가정하면, 현재 작업 한 바퀴 수행에 걸리는 시간은 18(6*1+2*1+1*10)이다. 그런데 CPU가 비교 및 분기에 시간이 5로 개선된다면, 이 시간은 13으로 줄어 30% 가까이 빨라질 것이다.

CPU는 다양한 연산 종류와 분기 등이 섞여 있는 프로그램을 처리해야 했기 때문에 이 3가지 능력을 골고루 발전시키는 방향으로 발전했다. CPU 회사들은 미세화의 힘으로 얻어낸 새로운 트랜지스터들을 이런 능력을 향상하기 위해 아낌없이 투자했다. 기존 프로그램이 CPU만 바꾸면 빨라지게 되니, 새로운 수요는 계속 창출될 수 있었다. 지난 수십 년간 인텔의 CPU가 세계를 지배한 이유가 이것이다.

GPU의 등장과 인공지능

하지만 인공지능 기술이 크게 발전하면서 완전히 다른 형태의 프로그래밍이 생겨났다. 인공지능, 정확하게는 인공신경망 기반의 프로그램은 아래와 같은 구조로 움직인다. 과연 프로그램과 반도체의 입장에서 인공지능은 어떤 모습으로 보일까?

▲ 그림 9 : 연산 칩 입장에서 인공신경망의 구성

이 안에는 분기라는 것이 없다. 대신 산술 연산과 메모리 접근이 압도적으로 많다. 위에서 살펴본 CPU 기반 프로그램의 경우, 고작 몇 번의 연산과 분기만 처리하면 결괏값이 출력됐다. 하지만 인공신경망은 수백~수억 번의 연산을 거쳐야 결괏값을 출력할 수 있다. 실제로 인공신경망은 CPU 기반의 일반적 프로그램보다 코드의 크기가 매우 크다. 이런 인공신경망을 빠르고 효율적으로 동작시키기 위해서는 당연히 수천 개의 숫자 연산을 동시에 수행할 수 있으면서, 큰 메모리에 빠르게 접근할 수 있는 능력이 중요시된다. 따라서 위와 같은 프로그램은 CPU에서는 효율이 매우 낮다.

이는 인공지능 과학자들에게 큰 문제였다. 1970년대 인공지능 시도가 좌절된 원인 중 하나이기도 했다. 만약 위 문제가 해결되지 않으면, 이론적 돌파가 생겨도 무용지물이 될 것이다. 이 문제는 반도체 기술의 발전이 해결했다. GPU(Graphics Processing Unit, 그래픽처리장치)가 등장한 것이다.

GPU는 본래 컴퓨터의 그래픽 처리를 전담하기 위해 설계된 반도체 칩이다. GPU는 우리가 보는 화면에 그림을 빠르게 그려주는 일을 한다. 그래픽 작업의 경우, 분기가 필요치 않고 픽셀과 픽셀의 선후관계 없이 위치마다 각각의 색상 값을 계산해서 그려주면 된다. 이처럼 분기 없이 동시에 여러 작업이 가능한 GPU는 그래픽을 구현하는 작업에서 CPU보다 압도적인 효율을 보이며, 빠르게 발전했다. 이 과정에서 우리가 아는 NVIDIA가 떠오르게 된다.

NVIDIA는 그래픽 시장을 장악한 뒤에도 지속해서 GPU의 새로운 용도를 찾아다녔다. 이런 과정의 일환으로 2007년, CUDA 등 GPU 기반 프로그램 개발을 도와주는 도구를 만들어왔다. 그리고 인공지능 기술의 이론적 돌파가 진척되자, 과학자들은 더 빠르게 인공지능 개발을 도와줄 수 있는 칩을 찾아 나섰다. 그들은 GPU를 적극적으로 채용했고, GPU를 사용할 경우 5배 이상의 성능 향상을 이룰 수 있음을 확인했다. 인공지능을 구현하기에 CPU는 분기 예측 등 필요치 않은 곳에 트랜지스터를 낭비하는 비효율적인 칩이었다. 이렇게 이론적 돌파와 새로운 반도체가 만나 세상을 바꿀 인공지능(AI) 혁명*이 시작된다.

그리고 이 국면에서 빼놓을 수 없는 반도체가 또 있다. 바로 메모리다. 인공신경망의 크기는 기존 CPU 기반 프로그램보다 매우 거대하다. 인공신경망은 어딘가 저장돼 있어야 하므로, 인공지능에 사용되는 GPU는 큰 메모리가 필요하다. 이 때문에 인공지능 시대에 메모리 반도체 기업들 역시 주목받는 것이다.

* 출처 : Large-scale Deep Unsupervised Learning using Graphics Processors, Stanford Univ, 2009

프로그래밍 방법론에서 반도체까지

이번 편에서는 새로운 프로그래밍 방법론이 반도체 입장에서 어떻게 보이는지를 개략적으로 알아봤다. 프로그램은 인간이 생산적인 일을 하기 위한 수단이다. 프로그램은 순서도를 이용한 전통적인 방법으로도 만들 수 있고, 인공신경망 학습 방식으로 만들 수 있다. 그리고 사용자들은 순서도를 이용해 만든 프로그램과 인공신경망 중, 자신이 원하는 프로그램을 잘 돌리는 반도체를 택하는 것뿐이다. 만약 사용자가 엑셀과 같은 기존의 프로그램을 돌리고 싶다면 고성능 CPU를 이용할 것이고, 인공지능 기반의 언어 생성 등을 하고 싶다면 GPU를 이용하면 될 것이다.

이 글을 통해 후배, 동료 여러분에게 하고 싶은 말은 기술과 기술의 관계를 이해하며 나아갔으면 한다는 것이다. 캐나다의 연구원들은 기존 순서도 형태의 프로그램으로 해낼 수 없던 수많은 일을 인공신경망으로 해냈다. 그리고 인공신경망 구동은 기존 프로그램과 비교해 더 많은 사칙연산 횟수와 메모리가 필요했던 것일 뿐이다. 이러한 개선은 결국 위에서 살펴본 분기 속도를 2배로 올렸더니 전체 프로그램이 수십 퍼센트(%) 빨라졌던 것과 다르지 않다. 이런 사실을 잊지 않는다면, 이후에 새로운 프로그래밍 기술이 생겨났을 때 그 프로그램이 어떤 연산을 요구할지, 어떤 형태의 메모리를 요구할지도 알 수 있을 것이다.

다음 편부터는 인공지능 기술과 그 주변을 이루는 생태계를 살펴볼 것이다. 그리고 그 생태계들이 가지고 있는 한계와 어려움을 찾아보고, 반도체가 이를 어떻게 도와줄 수 있을지 살펴볼 것이다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[제3시선, 최고가 최고를 만나다 with 정지훈] 미래를 여는 인공지능, 인공지능을 만드는 반도체 EP.4 (4/4 – 완결편)

SK하이닉스 — Mon, 16 Jan 2023 15:00:00 +0000

제3시선, 최고가 최고를 만나다

‘제3시선, 최고가 최고를 만나다’는 최고의 ICT 업계 전문가들이 서로의 시선에서 공통의 주제를 이야기하며 세상을 바라보는 새로운 시선을 넓혀가는 연재 콘텐츠입니다. ICT 분야의 최고 전문가와 최고의 ICT 기술을 만들어 내는 SK하이닉스 구성원 간의 만남. 기존 인터뷰 콘텐츠에서 볼 수 없었던 이야기를 만나볼 수 있습니다.

이번 시리즈는 국내 최고의 인공지능 전문가인 정지훈 대구경북과학기술원(DGIST) 겸임교수와 SK하이닉스 구성원(권용기 PL, 김성재 PL, 류동일 TL, 주영표 부사장)들이 만나 미래를 변화시킬 인공지능 기술과 반도체를 주제로 총 4편으로 구성될 예정입니다.

지금까지 인공지능의 등장과 발전, 활용사례, 그리고 SK하이닉스의 인공지능 반도체에 대해 알아봤는데요. 이번 편은 정지훈 교수님과 함께하는 제3시선 마지막 편으로 지난 편에서 다루지 못한 이야기와 함께 다가올 인공지능 시대에 대한 간단한 전망을 나눠볼 계획입니다. SK하이닉스와 정지훈 교수가 나누는 인공지능과 인공지능 반도체에 관한 마지막 이야기, 지금부터 시작합니다. (편집자 주)

인공지능(AI, Artificial Intelligence)으로 변화할 우리의 미래, 정지훈 교수와 대담에 참여한 SK하이닉스 구성원들은 어떻게 생각하고 있을까?

지금까지 우리는 인공지능의 등장과 발전, 그리고 인공지능 반도체에 대한 이야기를 나눴다. 이를 통해 현재 우리의 삶 다양한 곳에서 인공지능이 적용되고 있으며, 더욱 많은 곳에서 인공지능이 활용될 것이라는 전망을 할 수 있었다. 공상 과학이나 영화 속 이야기들이 점차 현실이 되어가고 있는 상황에서 인공지능 산업 최전선에 있는 이들은 어떤 생각을 하고 있을까?

인공지능 전문가 정지훈 교수와의 마지막 대담에서는 인공지능 시대에 대비하는 SK하이닉스 구성원들의 이야기와 지난 콘텐츠에서 다루지 못했던 2022 SK 테크 서밋(이하 테크 서밋)에 대한 이야기를 나눠볼 예정이다.

▲ 테크 서밋에서도 인공지능은 핵심 비즈니스로 각광받았다.

인공지능을 위한 프로세서, NPU

정지훈 교수 지금까지 인공지능에 대한 많은 이야기들을 나눴는데요. 2022 SK 테크 서밋(이하 테크 서밋)은 SK하이닉스와 SK그룹이 다가올 인공지능 시대를 어떻게 대비하고 있는지 살펴볼 수 있는 좋은 자리였던 것 같습니다. 말로 설명하기 어려운 새로운 기술들을 이해하기 쉽게 전시한 것 역시 아주 인상적이었습니다.

앞에서 설명해주신 SK하이닉스의 인공지능 반도체(PIM, iCIS, HBM3, CMS-CXL)를 비롯해 SK그룹에서 준비하고 있는 다양한 인공지능 비즈니스들을 보면서 ‘SK그룹이 정말 인공지능에 진심이구나’라는 것을 느끼기도 했는데요. SK에서 준비하고 있는 인공지능 관련 비즈니스 중 앞에서 다루지 못했던 인공지능 비즈니스에 관해 설명해주실 수 있을까요?

김성재 PL 네. 저희 SK하이닉스는 인공지능에 대해 다양하게 접근하고 있지만, 저는 국내 인공지능 분야에서 선두에 있는 사피온*에 대해 이야기하고 싶습니다. 테크 서밋 전시에서도 살펴봤지만, 사피온 칩은 SK텔레콤과 SK스퀘어 그리고 SK하이닉스가 협력을 통해 개발한 국내 최초의 NPU* 인공지능 반도체인데요. 지난 2020년 11월, 국내 최초로 개발한 인공지능(AI) 반도체 상용제품인 ‘SAPEON X220’을 출시했습니다.

* 사피온(Sapeon): 국내 최초의 데이터센터용 비메모리 반도체 ‘사피온 칩’을 개발한 기업. ‘사피온 칩’은 SK텔레콤이 SK스퀘어, SK하이닉스와 함께 ‘SK ICT 연합’을 구성해 개발에 성공했다.
* NPU(Neural Processing Unit): 신경망처리장치로, 머신러닝 구동에 최적화된 프로세서. 소프트웨어를 통해 인공신경망을 만들어 학습해야 하는 GPU와 달리 하드웨어 칩 단위에서 인공신경망을 구현하고자 했다는 특징이 있다.

▲ 정지훈 교수와 SK하이닉스 구성원들이 국내 최초 인공지능 반도체 사피온 부스에서 데이터 처리방식에 있어 CPU, GPU와의 차이점에 관해 이야기 나누고 있다.

정지훈 교수 테크 서밋 전시 부스에서도 사피온에 관한 설명을 한참 들었던 기억이 나네요. 국내 최초의 NPU라는 점이 아주 인상적이었는데요.

김성재 PL인공지능을 위한 프로세서인 ‘NPU’에 대해 조금만 더 설명해 드리자면. 먼저 기계, 혹은 컴퓨터의 연산 처리 장치를 생각해보면 좋을 것 같아요. 보통 연산 처리 장치를 떠올리면 PC에 사용되는 CPU(중앙처리장치, Central Processing Unit)가 가장 먼저 생각나겠죠. 그리고 최근 비약적인 성능향상을 보여주며 인공지능 등 다양한 곳에서 활용되고 있는 GPU*도 떠오를 것 같아요. 다만, 한 가지 유념할 점은 GPU는 인공지능을 위한 반도체는 아니에요. 행렬 연산에서 CPU보다 유리하기 때문에 많이 사용돼 왔던 것이죠.

NPU는 GPU보다 더 빠르게 더 많은 데이터를 연산할 수 있는 진짜 ‘인공지능 반도체’입니다. 이름에서 알 수 있듯 NPU는 사람의 신경망을 본떠 인공 신경망을 구현하고자 한 프로세서거든요. 현재 사피온에서 개발한 SAPEON X220은 인공지능 환경에 최적화된 프로세서로 GPU와 비교하면 혁신적인 성능 향상을 이뤄냈습니다.

* GPU(Graphics Processing Unit) : 초기 GPU는 단순히 CPU의 연산 결과를 그림이나 글자 신호 등으로 변환해 송출하는 보조 부품으로 인식됐지만, 3D(3차원) 게임이 등장하면서부터 3D 그래픽의 전용 프로세서로 개발됐다. 더 빠르고 더 많은 3D 구현을 목적으로 병렬방식의 데이터 처리 성능이 향상되면서 지금은 그래픽 구현을 넘어 더 넓은 영역에서 활용되고 있다.

류동일 TL 실제로 지난 2022년 9월, 글로벌 인공지능 반도체 성능 테스트인 MLPerf(엠엘퍼프)에서 SAPEON X220은 비슷한 스펙의 GPU와 비교해 뛰어난 성능을 선보였는데요. 데이터센터 추론 벤치마크에서 GPU 대비 2.3배 이상 높은 성능을 기록했습니다. 성능뿐만 아니라 전력 효율성에서도 2배 넘는 효율을 보이면서 차세대 인공지능 반도체로서 존재감을 확실하게 드러냈죠.

정지훈 교수 앞서 이야기 나눴던 HBM3나 GDDR6-AiM과 같은 메모리 기반의 인공지능 반도체뿐만 아니라 프로세서 분야에서도 사피온과 SK하이닉스가 확실한 두각을 보이는 것이군요. 인공지능 반도체와 관련해 다양한 분야에서 활약할 SK하이닉스의 모습을 기대해 보겠습니다.

인공지능 시대 이끌어갈 SK하이닉스

정지훈 교수 마지막으로 이번 대담에 참여해주신 여러분의 이야기를 들어보면 좋을 것 같은데요. 앞서 많은 이야기들을 해주셨지만, 각자 마지막으로 하고 싶은 이야기들을 나누면서 이번 대담을 마무리하도록 하겠습니다.

주영표 부사장 보통 인공지능 관련 연구개발을 하고 있다고 하면, 일부만 생각하는 경우가 많은데요. 예를 들면, 특정 문제를 해결하기 위한 인공지능 개발, 기존에 나와 있는 인공지능의 성능 향상을 위한 솔루션 개발, 아니면 인공지능 알고리즘 그 자체를 연구하는 경우 정도로 국한하는 것이 일반적이죠. 이러한 접근방식으로 인해 우리는 결국 알고리즘이나 연산 장치에만 집중하게 되는데요. 실제로 인공지능을 위한 알고리즘과 연산 장치는 최근 비약적으로 발전하고 있고요.

저는 우리가 더 넓은 범위에서 인공지능을 바라봐야 한다고 생각합니다. 한쪽으로만 치우친 발전은 결국 시스템의 균형을 무너뜨릴 위험이 있기 때문이에요. GPU가 쉬지 않고 연산할 수 있도록 쉬지 않고 데이터를 넣어줄 수 있는 주변 시스템이 필요합니다. 데이터처리의 중요도가 높아지는 만큼 메모리 반도체의 발전 역시 중요해지겠죠. DRAM 메모리 반도체를 비롯해 NAND 메모리에서 절대 강점을 가지고 있는 우리 SK하이닉스는 인공지능 시대에 아주 큰 역할을 할 수 있으리라 생각합니다.

정지훈 교수 맞습니다. 더욱 뛰어난 인공지능을 위해선 보다 높은 품질의 많은 데이터가 필요하니까요. 수없이 많은 데이터를 처리하기 위해서 결국 메모리 반도체의 발전은 필수적이라고 생각합니다. 인공지능 시대는 SK하이닉스에는 새로운 기회가 될 수 있다고 생각해요.

류동일 TL 저는 아직 주니어로서 다가올 인공지능 시대에 대해서도, SK하이닉스에서 제가 해내야 할 일에 대해서도 기대감이 아주 큽니다. 개인적인 목표나 바람에 대해서 말씀드리자면, 우리가 앞으로 직면하게 될 많은 문제를 해결하는 과정에서 인공지능이 활용되는 사례가 많아지길 기대하고 그 안에서 제 역량을 십분 발휘하고 싶습니다.

SK하이닉스의 구성원으로 당연히 우월한 성능의 제품 개발과 양산이 주된 목표이지만, 더 나아가 저희가 개발하고 있는 제품들이 더욱 다양한 곳에 활용되며 인공지능 시대를 여는 데 이바지할 수 있으면 좋겠습니다. 현재 저희가 개발하고 있는 iCIS* 역시 인공지능을 더 넓은 영역에서 활용할 수 있게 하는 대표적인 사례가 될 것으로 예상합니다.

* iCIS(intelligent CMOS Image Sensor) : 카메라 센서인 CIS에 인공지능 기능을 도입한 차세대 CIS 제품

정지훈 교수 인공지능의 상용화를 생각해본다면 새로운 인공지능 반도체의 개발이 중요한 쟁점이 되겠네요.

류동일 TL 맞습니다. 저 역시 인공지능 상용화 관점에서 접근했을 때 가장 관심이 많은 분야 중 하나가 경량화된 인공지능이거든요. 별도의 연산 장치나 클라우드 등을 거치지 않고 디바이스 레벨에서 자유롭게 인공지능 연산이 가능한 모델이 더욱 많아져야 인공지능의 상용화도 가능하다고 생각합니다.

권용기 PL 앞으로 다가올 인공지능 시대를 준비하기 위해 저희가GDDR6-AiM을 개발했듯 다양한 분야에서 인공지능 시대에 대비하고자 하는 노력이 필요한 것 같습니다. 물론 정부 차원에서도 인공지능 시대를 준비하기 위한 다양한 지원 사업*들을 진행하고 있으며, 학계에서도 뉴로모픽 반도체*나 CIM(Computation in Memory)과 같은 다양한 연구들이 활발히 이어지고 있는 상황입니다.

저희가 샘플 개발에 성공한 GDDR6-AiM의 경우, 개발에 성공한 것 자체로 인공지능 시대를 위한 ‘큰’ 첫 발걸음으로 분명한 의미가 있지만, 아직은 시작 단계이므로 앞으로 할 일이 더욱 많다는 점은 분명할 것입니다. 우리가 개발한 지능형 반도체를 중심으로 변화할 컴퓨팅 패러다임과 완전히 새로워질 인공지능 시대를 만들어 나갈 수 있으면 좋을 것 같습니다.

* 정부는 인공지능 산업 육성을 위해 ▲차세대 지능형 반도체 사업단 조직 운영 ▲2029년까지 1조 원 규모의 사업비 투자 및 PIM 인공지능 반도체 사업단 운영 ▲2028년까지 4천억 원 규모의 사업비 투자를 진행하고 있다.
* 뉴로모픽 반도체 : 인간의 뇌 구조를 모방해 만든 반도체 칩으로 대용량 데이터를 병렬 처리해 적은 전력으로도 복잡한 연산, 추론, 학습 등이 가능하다.

김성재 PL 저는 이번 대담을 통해 느낀 점을 말씀드리고 싶은데요. 테크 서밋도 느꼈지만, 이렇게 다양한 부문의 구성원들과 만나 이야기해보니 우리 SK하이닉스가 정말 다양한 측면에서 인공지능을 준비하고 있다는 사실을 느낄 수 있었습니다. 사실 저희가 인공지능 관련 업무를 진행한다고 해도 하드웨어 부문에서 어떤 형태로 인공지능 비즈니스에 접근하고 있는지, 그리고 우리가 하는 일들과 어떤 협업 포인트를 찾을 수 있을지 잘 몰랐거든요.

이번 대담과 테크 서밋을 통해 정말 다양한 측면에서 다른 팀과 협업할 수 있고, 논의할 수 있겠다고 생각하게 됐습니다. 이후에도 다른 팀들과의 다양한 교류를 통해 더 나은 기술을 개발해 인공지능 시대를 여는 데 이바지할 수 있으면 좋을 것 같습니다.

정지훈 교수 저 역시 이러한 점을 인상 깊게 봤는데요. 다양한 분야에서 인공지능을 준비할 뿐만 아니라 부서 간 연계가 필요한 프로젝트들도 상당수 있었던 것 같아요. 특히 사피온처럼 SK그룹 내 계열사 간의 협업도 활발히 이뤄지고 실제로 성과도 보이는 것도 아주 놀라웠습니다.

특히, 개발단계에서 성과를 보이는 것에 더불어 상용화 단계까지 진입하고 있다는 점을 보면서 SK하이닉스를 종합 반도체 기업을 넘어 종합 인공지능 기업이라고 불러도 되겠다는 생각도 들었습니다. 지금까지 해왔던 것처럼 앞으로도 인공지능 시대를 선도하는 대표 기업으로 SK하이닉스가 우뚝 섰으면 좋겠습니다. 이상, 대담을 마치도록 하겠습니다. 감사합니다.

[제3시선, 최고가 최고를 만나다 with 정지훈] 미래를 여는 인공지능, 인공지능을 만드는 반도체 EP.3 (3/4)

SK하이닉스 — Wed, 28 Dec 2022 15:00:00 +0000

제3시선, 최고가 최고를 만나다

인공지능의 역사와 비즈니스 모델에 살펴본 지난 편에 이어 이번 편에서는 인공지능을 위한 반도체에 대한 이야기를 담았습니다. 상상으로만 가능했던 인공지능이 현실이 될 수 있게 만든 반도체는 무엇일까요? SK하이닉스와 인공지능, 그리고 인공지능 반도체에 대한 본격적인 이야기, 지금부터 시작합니다. (편집자 주)

현실이 된 인공지능, 이를 가능케 한 반도체

인공지능(AI, Artificial Intelligence)은 어떻게 대중적인 기술이 됐을까?

다양한 분야에서 활용되고 있는 인공지능이지만 불과 몇 년 전만 해도 인공지능이라는 기술은 공상과학과도 같았다. SF영화나 소설 속에서만 존재했던 인공지능이 불과 몇 년 지나지 않아 이처럼 다양한 분야에서 널리 사용될 것이라고 예상한 사람은 그리 많지 않을 것이다. 인공지능이 이렇게 빨리 스스로 문제의 답을 찾고 인간의 언어를 사용할 수 있게 된 비결 무엇일까? 이번 대담을 통해 그 답을 찾고자 한다.

우리는 앞선 대담을 통해 인공지능의 시작과 세 차례의 인공지능 붐에 대해 알아봤다. 1950년대 인공지능이라는 개념이 생겨난 이후 머신 러닝(Machine Learning)과 인공 신경망이 주목받는 등 인공지능에 대한 기대감이 컸던 시기가 있었다. 하지만 이 모든 시기에서 인공지능은 기술력 부족, 데이터 부족 등 한계에 부딪히며 침체기를 겪었다.

여러 차례의 침체기에도 불구하고, 오늘날 인공지능이 널리 사용될 수 있도록 만든 주요한 이유는 무엇일까? 정지훈 교수와 SK하이닉스 구성원들은 이에 대해 반도체 등 하드웨어의 발전이 큰 역할을 했다고 입을 모았다. 인공지능의 발전과 대중화를 만들고 있는 반도체에 대한 이야기, 함께 들어보자.

▲ 류동일 TL, 정지훈 교수, 권용기 PL, 주영표 부사장, 김성재 PL(좌측부터)이 인공지능의 발전과 반도체의 발전은 떼어놓을 수 없는 관계라는 이야기를 나누고 있다.

인공지능을 실현할 수 있었던, 기술 ‘반도체’

정지훈 교수 본격적으로 인공지능 반도체에 대한 이야기를 나눠볼까 합니다. 앞서 함께 ‘2022 SK 테크 서밋(이하 테크 서밋)’에서 SK하이닉스가 개발하고 있는 다양한 인공지능 반도체를 살펴봤는데요. 인공지능의 발전과 반도체의 발전이 떼어놓을 수 없는 관계라는 점을 생각해 봤을 때 개인적으로는 SK하이닉스가 개발하고 있는 다양한 제품들은 아주 흥미로웠습니다. 각자 생각하시는 인공지능 반도체에 대한 의견을 말씀해주시겠어요?

권용기 PL 인공지능을 발전시킨 다양한 기술이 있겠지만, 하드웨어 관점에서 접근해본다면 결국 더 많은 데이터를 더 빠르게 처리할 수 있도록 하는 반도체의 발전이 큰 영향을 끼쳤다고 볼 수 있습니다. 방대한 양의 데이터를 학습시키는 머신러닝과 머신러닝의 다양한 방법 중 하나이자 3차 인공지능 붐을 불러온 딥러닝을 구현하기 위해선 더 많은 데이터를 더 빠르게 처리할 수 있는 메모리 반도체는 꼭 필요했습니다.

정지훈 교수 맞습니다. 물론, 우리가 현재 컴퓨터나 스마트폰과 같은 모바일 디바이스에서 사용하는 D램과 낸드플래시가 그대로 인공지능에 사용되는 것은 아니지만, 지금의 인공지능이 구현되기까지 반도체의 발전이 중요했다는 것은 부정할 수 없습니다. 특히 최근에는 그래픽카드의 GPU*등이 빠르게 발전하면서 인공지능 붐을 이끌고 있다는 것만 봐도 인공지능의 발전에 있어 하드웨어가 얼마나 중요한지 알 수 있죠.

* GPU(Graphics Processing Unit) : 초기 GPU는 단순히 CPU의 연산 결과를 그림이나 글자 신호 등으로 변환해 송출하는 보조 부품으로 인식됐지만, 3D(3차원) 게임이 등장하면서부터 3D 그래픽의 전용 프로세서로 개발됐다. 더 빠르고 더 많은 3D 구현을 목적으로 병렬방식의 데이터 처리 성능이 향상되면서 지금은 게임을 넘어 더 많은 영역에서 활용되고 있다.

김성재 PL 그렇죠. 어떻게 보면 우연의 일치일 수는 있겠지만, GPU가 발전하면서 GPU를 활용하는 인공지능도 함께 발전했죠. 실제로 많은 GPU가 인공지능 알고리즘을 구현하기 위해 사용되고 있는 상황이기도 합니다.

주영표 부사장 GPU가 최근 주목받는 이유는 인공지능 알고리즘의 데이터 연산 방식의 영향 때문인데요. 인공지능 연산을 살펴보면, 방대한 데이터에 대한 수많은 계산들을 통해 의미 있는 결론을 도출하는 것이잖아요. 더 빠르게, 보다 정확한 결과를 도출하기 위해 최대한 많은 데이터를 동시에 처리하는 것이 중요하죠. 데이터 처리가 주 역할인 메모리 반도체가 중요할 수밖에 없는 이유입니다.

정지훈 교수 이와 관련해 최근 SK하이닉스에서 GPU의 성능을 끌어올릴 프리미엄 메모리 반도체 양산에 돌입했다고 알고 있는데요. 무엇인가요?

주영표 부사장 올해 중순부터 프리미엄 D럠인 HBM3*를 양산하기 시작했습니다. 해당 제품은 글로벌 GPU 기업인 엔비디아(NVIDIA)에 공급하고 있는데요. HBM은 여러 개의 D램을 수직으로 연결해 기존의 D램 대비 혁신적인 속도향상을 이끌어낸 제품입니다. HBM3는 이전 세대인 HBM2E(3세대)와 비교하면 무려 78%의 성능향상을 이뤄내기도 했죠.

* HBM3(High Bandwidth Memory 3): 4세대 HBM 제품으로 여러 개의 D램을 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올렸다.

인공지능 등장으로 변화하는 패러다임

정지훈 교수 앞서 GPU가 주목받는 이유에 대해 잘 설명해 주셨는데요. 사실 인공지능과 관련해 시장에서 GPU에 주목하는 이유는 단순히 빨라진 속도 때문만은 아닙니다. 3차원 그래픽을 연산하는 것과 딥러닝의 연산 구조는 결국은 행렬 연산이 핵심이니까요. 그 덕분에 그래픽을 처리하기 위해 행렬 연산에 특화된 반도체가 발전하게 됐고, 자연스럽게 비슷한 연산 방법을 사용하는 인공지능까지 발전한 것이죠. 농담 삼아 하는 이야기이긴 한데, 게이머들 덕분에 인공지능 혁명이 일어난 것 아닌가 생각이 들기도 합니다.

류동일 TL 정말로 그럴 수도 있겠네요. 인공지능에 대한 기대감이 높아지면서 반도체 분야에서도 새로운 패러다임이 나타나고 있는 것 같아요. 더 많은 데이터를 빠르게 처리할 수 있는 성능향상에 초점을 맞춘 형태와 반도체에 각각의 연산 기능을 담은 형태로 말이죠. 주영표 부사장님이 말씀해주신 HBM3가 혁신적으로 빠른 속도의 D램으로 ‘고성능’에 초점을 맞춘 반도체라면 더욱 넓은 영역에 인공지능을 활용할 수 있도록 만드는 다양한 형태의 ‘인공지능 반도체’가 개발되고 있는 상황입니다.

정지훈 교수 맞습니다. 인공지능이 중요해지면서 최근 ‘인공지능 반도체’라는 표현이 많이 사용되고 있잖아요. 인공지능 반도체라 하면 여러 종류가 있겠지만, 기존 컴퓨팅 시스템이었던 폰 노이만 구조*에서 벗어나 각각의 모듈에 연산 처리 기능을 도입한 반도체들을 예로 들 수 있을 것 같아요.

* 폰 노이만 구조 : 주 기억 장치, 중앙 처리 장치, 입출력 장치 등 3단계 구조로 이뤄진 프로그램 내장형 컴퓨터 구조, 오늘날 사용하고 있는 대부분 컴퓨터의 기본 구조로 나열된 명령을 순차적으로 수행한다. 메모리의 값을 읽고 쓰는 구조이기 때문에 메모리 장치에서 병목현상이 발생한다는 한계가 있다.

류동일 TL 맞습니다. 저희가 개발하고 있는 iCIS 역시 인공지능 반도체를 필요로 합니다. 앞서 설명 드리자면 CIS(CMOS Image Sensor)는 카메라 센서 반도체인데요. 카메라 센서는 인공지능의 발전과 함께 많은 주목을 받고 있는 분야입니다.

정지훈 교수 아무래도 최근 스마트폰이나 CCTV 등을 통한 얼굴인식이나 자율주행 자동차에 사용되는 차량 주변 물체 인식 등 최근 카메라가 활용되는 곳이 아주 많아졌기 때문에 고성능 카메라 센서에 대한 수요도 많아지기는 했죠.

류동일 TL 카메라 센서도 인공지능의 발전과 함께 빠른 속도로 발전하고 있는데요. 기존의 카메라 센서인 CIS에 인공지능 기능을 도입한 iCIS 역시 이런 발전의 일환입니다. 기존 카메라 센서의 경우 단순히 빛을 받아 디지털 신호로 바꿔 이미지를 만드는 기능만 수행했는데요. 저희가 개발하고 있는 iCIS는 카메라 센서 차원에서 인물의 얼굴을 인식한다거나 특정 모션을 분석하는 기능이 탑재된 제품입니다.

사실 ‘카메라 센서에 이런 인공지능 반도체가 왜 필요한가’라는 질문을 받기도 하는데요. 우리가 지금 인공지능을 구동할 GPU를 사용한다고 하면 컴퓨터에 들어있는 그래픽 카드는 아주 거대하거든요. 결국 인공지능을 구현하기 위해 거대한 GPU를 필요로 한다는 것은 인공지능 범용성의 한계로 작용할 것입니다. 이런 한계를 넘어서기 위한 방안 중 하나가 인공지능 반도체이고, 그렇기 때문에 ‘굉장히 작은 칩 안에서 인공지능 기능을 수행하는 iCIS’가 필요한 것이죠.

권용기 PL 아무래도 카메라는 스마트폰에 적용되든 CCTV에 적용되든 더 작고 더 가볍게 만들어야 하기 때문에 iCIS가 더 중요해지는 것이군요. 기존의 카메라처럼 더 좋은 이미지를 촬영하는 것은 기본이고, 이 이미지 데이터를 어떻게 더 스마트하게 처리할 수 있는가? 그리고 이러한 기능을 하면서도 경량화할 수 있는가에 초점이 맞춰져 있는 것이겠군요.

▲ 2022 SK 테크 서밋에서 iCIS 전시 제품을 살펴보고 직접 시연하고 있는 권용기 PL, 류동일 TL, 주영표 부사장, 정지훈 교수, 김성재 PL(좌측부터)

▲ 2022 SK 테크 서밋에 전시된 iCIS 제품

류동일 TL 맞습니다. 그뿐만 아니라 카메라 센서 자체에 인공지능 연산이 가능한 기능을 포함하면 아무래도 센서와 디바이스 사이에서 데이터가 이동해야 하는 일도 줄어들 것이고, 데이터의 이동을 최소화하면서 자연스럽게 저전력 반도체를 구현할 수도 있습니다.

정지훈 교수 인공지능이 방대한 양의 데이터를 처리해야 하는 기술이다 보니 기존의 컴퓨팅 기술로는 분명 한계가 발생하는 것이겠죠. 말씀해주신 iCIS 역시 이러한 이유로 더욱 주목받을 것 같네요. 수없이 많은 이미지 데이터를 연산 장치로 가져와 연산하고 결과를 도출하는 것보다 촬영과 동시에 데이터를 연산하는 것이 아무래도 효율적이니까요. 결국 인공지능 반도체는 각각의 반도체가 각자 연산하는 모습으로 구현되겠네요.

달라진 연산 방법, 인공지능 위해 메모리 반도체도 이젠 연산 필요해

▲ 차세대 메모리 PIM이 적용된 GDDR6-AiM의 뛰어난 기술력과 그 활용 가치에 대해 설명하고 있는 권용기 PL과 이야기를 듣고 있는 정지훈 교수, 김성재 PL

권용기 PL 올해 초 저희가 샘플 개발에 성공한 ‘GDDR6-AiM’ 역시 인공지능 반도체라고 부를 수 있을 것 같습니다. 차세대 메모리 반도체인 PIM*인 GDDR6-AiM(Accelerator in Memory)는 16Gbps의 속도로 데이터를 처리하는 GDDR6* 메모리에 연산 기능을 갖춘 아주 똑똑한 반도체입니다. GDDR6-AiM의 경우 제품명에서 알 수 있듯 그래픽 D램이긴 하지만 개발 단계에서부터 인공지능 응용을 목적으로 개발된 제품으로 GPU뿐 아니라 NPU*에서도 사용이 가능한 제품입니다.

* PIM(Processing In Memory): 메모리 반도체에 연산 기능을 더해 인공지능(AI)과 빅 데이터 처리 분야에서 데이터 이동 정체 문제를 풀어낼 수 있는 차세대 기술
* GDDR(Graphics DDR): 국제반도체표준화기구(JEDEC)에서 규정한 그래픽 D램의 표준 규격 명칭. 그래픽을 빠르게 처리하는 데 특화한 규격으로, 3-5-5X-6 순으로 세대가 바뀌었다. 최근에는 그래픽을 넘어 인공지능, 빅데이터 분야에서도 가장 대중적인 메모리로 주목받고 있다.
* NPU(Neural Processing Unit): 신경망처리장치로, 머신러닝 구동에 최적화된 프로세서. 소프트웨어를 통해 인공신경망을 만들어 학습해야 하는 GPU와 달리 하드웨어 칩 단위에서 인공신경망을 구현하고자 했다.

정지훈 교수 테크 서밋에서 살펴봤던 그 제품이군요. 시연 제품을 보니 GPT-2*를 활용했을 때 일반 CPU와 비교해 2배 이상 빠르게 결과를 도출해내는 것을 확인했는데요. GDDR6-AiM은 어떻게 더 빠른 인공지능 구동에 도움을 줄 수 있는 것인가요?

권용기 PL 높은 대역폭 때문입니다. 보통 우리가 대역폭을 고속도로와 많이 비교하잖아요. 대역폭이 높을수록 차선이 많은 고속도로라고 이야기하는데요. 지금까지의 메모리 대역폭이 1차선 고속도로였다면 GDDR6-AiM은 16차선 고속도로 수준입니다. 동시에 전송할 수 있는 데이터의 수가 기하급수적으로 늘어났으니 당연히 데이터 처리도 빠를 것이고 병목 현상도 줄어들겠죠.

또한, GDDR6-AiM은 각 메모리 뱅크*마다 연산을 수행하는데요. 이로써 내부 대역폭을 활용한 독립적인 메모리 뱅크들의 병렬 연산이 가능해지는 것입니다. 엄청난 혁신이죠. 고속도로 차선이 늘어났다고 하더라도 사람 한 명당 차 한 대씩 타고 고속도로를 이용하면 결국 정체가 생길 수 있잖아요.

하지만 GDDR6-AiM은 각 뱅크에 연산기를 설치해 메모리 차원에서 데이터의 연산을 진행하고 연산이 된 결과 데이터를 묶어 한 번에 전송할 수 있습니다. 고속도로를 이용하는 사람들이 버스를 타고 한 이동하는 것이라고 생각하면 이해가 쉬울 것 같은데요. 모든 사람들이 버스를 타고 이동하면 그만큼 많은 사람이 정체 없이 이동할 수 있듯, GDDR6-AiM 역시 메모리 차원에서 병렬 연산을 통해 한 번에 많은 데이터를 전송하는 것입니다.

* GPT-2(Generative Pre-trained Transformer-2): OpenAI에서 만든 텍스트 생성 딥러닝 인공지능 모델. 제시된 단어를 고려해 다음 단어를 입력하여 문장을 만드는 것을 목적으로 훈련된 모델입니다. 이는 인공지능이 수많은 데이터를 학습하면 다양한 질문과 답변이 가능하여 대화형 인공지능 서비스에 활용됩니다.
* 메모리 뱅크(Memory Bank): 데이터가 프로세서에 지속적으로 전송될 수 있도록 순차적으로 작동하는 메모리 장치 내부의 분할된 구역. 메모리와 연산 장치 사이의 데이터 전송을 빠르게 하기 위해 사용된다.

▲ 2022 SK 테크 서밋에 전시되어 있는 GDDR6-AiM 제품

▲ GDDR6-AiM을 장착한 서버 PC에서 텍스트 생성 딥러닝 인공지능 모델인 GPT-2가 시연되는 모습

정지훈 교수 최대한 많은 데이터를 한 번에 많이 전송할 수 있다는 것이 강점인 것 같군요. 게다가 데이터가 하나씩 개별적으로 이동해 연산하는 것이 아니라 메모리 자체에서 연산할 수 있도록 했다는 점도 훌륭하네요.

주영표 부사장 저희는 조금 다른 관점으로 인공지능에 접근했는데요. 메모리 자체에 연산 기능을 도입하는 것이 아니라 메모리 컨트롤러에 연산 가속 기능을 넣는 쪽을 선택했습니다. 이러한 개발의 결과물이 오늘 함께 살펴본 CXL*과 CMS*입니다. 특히 CMS는 흔히 PNM*이라고 불리는 기술인데요. 이라는 새로운 인터커넥트 기술이 메모리 용량을 유연하게 증가시켜 메모리와 GPU, 인공지능 가속기 등을 모두 탑재할 수 있다는 점에 주목하고, “그들을 하나의 솔루션에 담으면 어떨까?”라고 접근한 것이죠.

CXL 인터페이스를 기반으로 개발한 CMS는 고용량 메모리를 확장할 수 있는 CXL의 장점에 빅데이터 분석이나 머신러닝과 같은 인공지능 분야의 연산까지 제공하기 때문에 인공지능 분야에서도 다양하게 활용될 수 있다고 생각합니다. GPU나 인공지능 가속기들과는 주력 기능이 다르기 때문에, 상호 보완적으로 적용도 가능할 것입니다.

* CXL(Compute eXpress Link): 메모리뿐만 아니라, GPU, AI 가속기와 같은 다양한 솔루션을 보다 효율적으로 통합, 활용할 수 있도록 만들어진 새로운 인터커넥트 기술로 ‘메모리 용량의 유연한 증가’가 장점
* CMS(Computational Memory Solution): 고용량 메모리를 확장할 수 있는 CXL에 빅데이터 분석 응용 프로그램이 자주 수행하는 머신러닝 및 데이터 분석 연산 기능도 함께 제공하는 솔루션
* PNM(Processing Near Memory): 메모리 칩 내부가 아닌 메모리 패키지에 별도의 연산 장치를 넣고 필요한 연산을 수행하는 메모리

▲ 2022 SK 테크 서밋 전시장에 전시되어 있는 CMS에 활용되고 있는 CXL의 기술력과 활용 가치에 대해 설명하고 있는 주영표 부사장

정지훈 교수 PIM 기반의 GDDR6-AiM이 메모리 자체에 연산 기능을 도입한 제품이라면 CMS는 메모리와 연산 장치를 통합한 솔루션이라는 것이군요.

주영표 부사장 네 맞습니다. CXL과 CMS는 PIM과 달리 메모리 연산의 포인트를 데이터의 ‘준비’ 과정에 맞추고 있는 것인데요. 많은 데이터 중 실제로 필요한 데이터만을 뽑아내는 일은 연산 장치 입장에서는 쉽겠지만 굉장히 비효율적인 일이잖아요. 데이터를 하나하나 확인하느라 대부분의 시간을 허비하게 되니까요. 그래서 메모리 차원에서 연산 장치가 필요한 데이터가 무엇인지 미리 찾아준다면, 연산 장치는 더 복잡하고 중요한 연산에 집중할 수 있게 되는 것이죠. 게다가 이러한 구조는 불필요하게 이동하는 데이터를 획기적으로 줄일 수 있는데요. 이는 결국 전력 소비를 절감하는데도 큰 효과를 보일 수 있습니다.

▲ 2022 SK 테크 서밋에 전시되어 있는 CXL

▲ 2022 SK 테크 서밋에 전시되어 있는 CXL을 활용한 솔루션과 CMS

정지훈 교수 이야기를 들어보니 SK하이닉스가 인공지능에 대해 얼마나 진심인지를 다시 한번 느끼게 됐습니다. 지금까지 말씀해주신 제품들 모두 다가올 인공지능 시대를 앞당기거나 인공지능 시대에 아주 중요한 역할을 하게 될 것임을 느낄 수 있었습니다.

특히 더 빠르고 정확한 인공지능을 위해 제품의 성능 향상만 시도하는 것이 아니라, 기존 메모리 제품에 확장성을 부여하거나 새로운 기능을 추가하는 등 다양한 측면에서 개발을 이어 나가고 있다는 점이 인상적이었는데요. 이러한 다양한 접근들로 인해 인공지능 시대를 꽃피우는 SK하이닉스가 됐으면 좋겠습니다.

이번 대담을 통해 우리는 다가오는 인공지능 시대를 준비하는 SK하이닉스의 모습을 살펴봤다. 다양한 종류의 ‘인공지능 반도체’를 개발하고 생산하는 SK하이닉스는 다양한 측면에서의 혁신을 이뤄내고 있었다. 다음 편에서는 지금까지 다루지 못했던 ‘2022 SK 테크 서밋’에 대한 이야기와 인공지능 시대를 선도하기 위한 SK의 노력을 살펴보고자 한다. 인공지능 분야에서도 최초와 최고의 가치를 만들어내고 있는 SK하이닉스의 이야기는 계속된다.

반도체가 인공지능(AI) 역사를 바꾼 결정적 순간들

정인성 작가 — Wed, 20 Jul 2022 20:00:00 +0000

20세기 초, 컴퓨터가 발명되면서 인류사에 큰 변화가 생겼다. 과거에는 수많은 사람들이 시간을 써야 했던 각종 문제들을 자동으로 처리할 수 있게 된 것이다. 인간은 컴퓨터에게 프로그램이라는 해야 할 일 덩어리를 던져 주기만 하면 되었다. 컴퓨터는 반도체 기술에 힘입어 이 작업을 매우 정확하고 빠르게 처리할 수 있었다. 이러한 변화는 인간을 삶을 충분히 편리하게 만들었다. 하지만 인간은 거기서 멈추지 않았다. 과학자들이 원한 것은 프로그램이 스스로 주변 환경에 맞춰 변하는 것이었다. 스스로 배워서 변하는 프로그램, 즉 인공지능(Artificial Intelligence, AI)이다.

인공지능을 구현하는 길은 험난했다. 의사결정나무(Decision Tree), SVM(Support Vector Machine)*, 회귀(Regression) 등 인공지능을 만들기 위한 다양한 시도가 있었지만, 원하는 수준의 인공지능을 만들지는 못했다.

* SVM : 데이터의 분류를 위해 기준 선을 정의하는 모델. 데이터가 주어졌을 때, SVM 알고리즘은 기존에 주어진 데이터 집합을 바탕으로 새로운 데이터가 어느 카테고리에 속할지 판단합니다.

▲ 상기 이미지는 이해를 돕기 위한 참고용 이미지로 실제로는 더 복잡한 구조를 가졌다.

그러던 2012년, 이변이 일어난다. ‘이미지넷(ImageNet)’ 사물 인식 대회에서 ‘알렉스넷(AlexNet)’이라는 인공지능 기반 알고리즘이 우승한 것이다. 알렉스넷은 인간의 뇌세포 구조를 이용해 제작된 인공지능으로, 기존 프로그램이 보여주지 못한 성능을 보여주었다. 이 성공으로 전 세계는 인공지능의 가능성을 깨닫게 되었고, 지금의 인공지능 붐(Boom)에 이르게 됐다.

▲ 알렉스넷의 구조도. 병렬적인 구조로 설계되었다는 점이 가장 큰 특징이다.(출처 : 원문 확인)

그런데 뭔가 이상하다. 인공지능을 만들려고 했으면 당연히 ‘인간’ 신경망을 본 뜬, 즉 ‘인공’ 신경망을 제일 먼저 만들어 봐야 했던 것 아닐까? 왜 60년이라는 먼 길을 돌아 이제서야 인공지능이 빛을 보게 된 것일까?

인공신경망, 반도체와 만나다

과학자들도 수십 년간 인간의 신경망을 따라 하려 시도했다. 문제는 인공신경망(Artificial Neural Network, ANN) 관련 이론적 발전이 더디고, 원리상 엄청난 연산 능력이 필요하다는 점이었다.

인공신경망 내에는 인간의 뇌세포에 해당하는 수백만 개에서 최대 수조 개의 값이 필요하다. 인공신경망을 학습시킨다는 것은 이 수많은 신경망 내의 값들을 하나하나 바꿔준다는 의미이다. 문제는 이 조정을 매우 자주 반복해야 한다는 것이다. 학습 1회(배치)마다 최대 수백만~수조개의 값을 바꿔줘야 하는데, 학습 횟수도 수만 회가 넘는 경우가 있다. 이러한 연산 능력 부족 문제는 1980년대까지 해결되지 않은 문제였다. 이 때문에, 2,000년대 이전까지는 당시 CPU 수준에서도 작동 가능한 SVM과 같은 대안 기술에 과학자들이 몰리게 되었다. 하지만 SVM과 같은 기술은 인공지능 기술 발전에 큰 성과를 내지 못했고, 인공지능 전반에 대한 관심이 줄어들었다. 연구비 또한 줄어들면서, 인공지능을 연구하는 사람들은 정부가 전폭적으로 인공지능 연구를 지원하는 캐나다로 이동하게 된다.

연산력 문제가 해결된 것은 2,000년대 후반 인공신경망이 반도체와 만나면서부터다. 특히, GPU(Graphics Processing Unit)가 연산 속도 개선에 중요한 역할을 한다. GPU는 원래 그래픽을 표시하는데 사용된다. 그래픽 연산은 CPU가 수행해야 하는 복잡한 연산들보다는 단순했으나, 대신 유사한 작업을 매우 반복해야 했다. 이런 이유 때문에 GPU는 CPU에 필요한 많은 회로들을 덜어내고, 대신 더 많은 연산 코어를 집적하는 방식으로 발전하였다. 연구자들은 이러한 GPU의 연산 능력이 인공신경망의 연산에 활용될 수 있음을 눈치챘다. 때 마침, GPU 제조사였던 엔비디아는 GPU 기반 프로그래밍을 도와주는 프레임워크 CUDA(Compute Unified Device Architecture)를 제공하고 있었다. CUDA는 GPU의 메모리 모델을 추상화해 좀 더 편하게 GPU를 이용할 수 있도록 도왔고, 과학자들은 GPU를 도입해 인공신경망을 수십 배 빠르게 구동할 수 있게 된 것이다.

▲ 인공신경망은 수백만 개의 인공 연결을 시뮬레이션 해야 한다

메모리 반도체 역시 인공신경망 발전에 큰 역할을 한다. 인공신경망 자체는 GPU에 들어갈 수 없으며, 반드시 메모리에 담아야만 한다. 하지만 인공신경망의 크기는 기존 소프트웨어들보다 거대하다. 게다가 빠른 인공지능 학습을 위해서는 신경망과 가까운 곳에 학습 데이터가 저장되어 있어야 한다. 메모리 반도체 회사들이 인공지능을 위한 고용량, 고대역폭 메모리를 제공했다.

반도체가 인공지능 기술의 동반자로 나선 것이다. GPU는 인공신경망 학습과 구동 속도를 높이고, 메모리 반도체는 더 많은 데이터를 담아 더 큰(깊은) 인공신경망을 만들어 볼 수 있게 된다. 이 같은 환경 변화의 결실이 2012년에 나타난 것이다.

인공지능 기술의 발전은 현재진행형이다

인공지능의 첫 성과 후 10년, 인공지능 기술은 우리 삶 곳곳에 자리 잡았다. 이제는 일상화된 안면 인식, 목소리를 통한 스마트폰 제어, 광학 문자판독(OCR), 실시간 번역 모두 인공지능 기술 덕분에 가능했다. 자율주행 자동차 상용화도 마찬가지다. 인공지능 기술의 발전은 여기에 머무르지 않고 창작의 영역에 도전 중이다. 네이버는 웹툰 자동 채색 서비스를 시범적으로 선보이기도 했으며, 오픈AI(OpenAI)는 인간이 요청한 대로 그림을 그릴 수 있는 인공지능 엔진 DALL-E를 공개했다.

▲ 유저가 요청한 “수프 한 그릇 + 괴물처럼 생긴 + 양털로 짠” 내용에 맞춰 그림을 그려 주는 DALL-E 2 (출처: openai.com/dall-e-2)

이처럼 인공지능이 우리 삶에 깊이 파고들자, 다양한 반도체 분야가 인공지능 산업에 뛰어들었다. GPU는 인공지능 성능 향상의 핵심으로 자리 잡으며, 인공지능 반도체 분야에서의 입지를 더욱 키웠다. 현재, 메모리 반도체 회사들은 HBM(High Bandwidth Memory)과 같이 GPU의 잠재력을 끌어낼 수 있는 고용량 고대역폭 메모리 반도체를 만들고 있다. 엔비디아는 로드맵을 확장하여 감시용 카메라 등 더 작은 기기(Edge device)에 들어갈 인공지능 반도체도 만들기 시작했다. 인텔은 자신들이 점유한 CPU 시장 점유율을 바탕으로 CPU와 GPU의 장점을 결합해 연산력을 높인 단일칩을 출시해 시장에 도전장을 내밀기 시작했다.

▲ 세계 최초로 양산에 돌입한 SK하이닉스의 HBM3

인공지능 반도체에 직접적으로 관련이 없던 회사들의 진출도 시작되었다. 스마트폰 AP 회사들은 NPU(Neural Processing Unit)*라고 부르는 인공지능 연산 전용 부위를 추가해, 영상·이미지·음성 인식 등 스마트폰에 활용되는 인공지능 서비스를 고도화시켰을 뿐 아니라, 이미지 합성, AI 지우개 기능 등 기존 스마트폰에서는 가능하지 않던 재미있는 앱 개발을 가능하게 만들었다. 자동차 회사 테슬라는 자체 연산 칩을 설계하여 반(半)자율주행 알고리즘인 오토파일럿* 기능을 구현하였으며, 인공지능 학습에 사용될 자체 슈퍼컴퓨터 도조(Dojo)까지 만들었다.

* NPU : AI 기반 기술이 스마트폰에 필수적으로 쓰이게 되어 도입된 인공지능 처리 전문 반도체, 혹은 특정 칩에서 인공지능 연산을 담당하는 부분을 지칭하는 용어. 모바일 외에도 음성이나 영상 인식, 스마트 공장, 스마트 빌딩, 스마트 시티 등 다양한 곳에서 사용됩니다.
* 오토파일럿 : 테슬라에서 사용되고 있는 ADAS(Advanced Driver Assistance Systems, 첨단 운전자 지원 시스템) 시스템으로서, 자율주행 5단계인 ‘운전자 없는 자동차를 주행’ 하는 것을 목표로 하고 있습니다. 현재 자율주행 2단계에 속해 테슬라의 주행보조기능을 수행하고 있으며, 사람이 기능이 잘 작동하고 있는지 감시하는 단계의 자율주행 기술입니다.

또 다른 동반자를 찾아

반도체 기술과 인공지능 기술은 선순환의 관계를 가지게 되었다. 반도체의 도움으로 인공지능 기술이 꽃 필 수 있었다. 반도체 산업 역시, 인공지능의 가능성을 알게 된 수많은 플레이어들이 뛰어들며 산업 자체의 파이를 키울 수 있었다.

이러한 선순환 관계는 지속되어야 한다. 현재 인공지능 기술에서의 이슈 중 하나는 전력을 최소화할 수 있는 컴퓨팅을 실현하는 것이다. 이 분야에서도 반도체 회사들의 대결이 뜨겁다. 인텔은 현재의 인공신경망보다 좀 더 인간 신경망에 가까운 SNN(Spiking Neural Network)* 기반의 뉴로모픽 칩을 개발하였으며, 메모리 회사들은 AI 개발 속도는 높이면서 전력 소모를 줄이는 PIM 반도체 개발에 나서고 있다.

* SNN : 인간 두뇌의 생물학적 동적 구조를 모방한 컴퓨팅 기술. 뇌를 구성하는 뉴런(neuron) 과 시냅스(synapse)로 이루어진 신경망 구성방식으로 두뇌에서 정보가 전달, 가공, 출력되는 과정을 인공지능으로 구현하는 방식을 말합니다.

위의 수많은 대안 기술들 중, 혁신가가 어떤 정답을 찾을지는 모른다. 하지만 수많은 경쟁자 사이에서 우리의 반도체가 미래의 혁신가들에게 선택받기 위해서는, 엔비디아와 메모리 회사들이 어떻게 인공지능 연구원들을 도와주었는지 되새길 필요가 있다. 날이 갈수록 반도체를 사용하는 방법은 어려워지고 있다. 따라서 앞으로 반도체의 완성은 사용자가 ‘보고 따라 할 수 있는 매뉴얼과 소통 창구’ 등을 갖추는 것을 포함하게 될지도 모른다. 긴 이야기였지만, 결국 역지사지해야 한다는 이야기이다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

급성장하는 AI 시장, 반도체 업계의 새로운 목표가 되다!

김현석 기자 — Mon, 24 Apr 2017 15:00:00 +0000

최근 인공지능(AI)이 반도체 업계의 매력적인 시장으로 부상하고 있습니다. 구글, 애플, 페이스북, 아마존, 바이두, 텐센트, 알리바바 등 세계적인 정보기술(IT)업체들이 모두 AI 시스템에 막대한 투자를 하고 있기 때문인데요. 반도체 업계 고위 관계자는 “사물인터넷(IoT) 시장은 값이 싼 반도체가 많이 필요한 반면, AI 업체들은 값이 비싸도 최고급 최고성능을 내는 반도체를 필요로 한다”며 “반도체 업체들이 AI 시장을 겨냥한 칩들을 집중 개발하고 있다”고 말하고 있습니다. AI 시장에 도화선을 그은 기술과 AI 업계가 원하는 최고 성능의 반도체는 어떤 것인지 알아보도록 하겠습니다.

AI 업계에 불을 붙인 GPU

AI가 업계의 화두로 떠오른 건 엔비디아가 지난해 폭풍 성장을 한 것이 직접적 계기가 되었습니다. 엔비디아는 2016년 매출이 69억 1000만 달러로 전년에 비해 37.9%, 영업이익은 19억 3400만 달러로 158.9% 급증했는데요. 이는 주력제품인 그래픽처리장치(GPU)가 AI용 서버에 집중적으로 채용되면서 수만 달러의 고가의 제품임에도 불티난 듯 팔렸기 때문이죠.

5년 전만 해도 엔비디아에 대한 관심은 이렇게 크지 않았는데요. 엔비디아의 GPU는 게임이나 영상편집 등 멀티미디어 작업에서 그래픽을 빨리 처리하기 위해 CPU를 보조하는 부품이었습니다.

그랬던 GPU가 AI 혁명의 총아로 각광받기 시작한 건 2010년부터입니다. AI 분야 석학인 앤드루 응 스탠퍼드대 교수는 12개의 GPU가 무려 2,000개의 CPU에 맞먹는 딥 러닝 성능을 발휘한다는 사실을 발견한 것인데요. 딥 러닝은 인간 신경망 구조를 본뜬 기계학습(머신러닝)의 일종으로 컴퓨터가 스스로 문제 해결 방법을 찾아내는 기술을 말합니다.

CPU		GPU
1~8개	코어수	수 백 ~ 수 천 개
빠름	코어별 속도	느림
직렬처리방식	연산처리방식	병렬처리방식
직렬, 병렬처리 모두 가능하지만 병렬처리 성능은 GPU보다 떨어짐	특징	많은 수의 코어를 탑재해 그래픽처리 등 병렬연산에 적합. GPU는 병렬연산만 가능하지만 CPU처럼 범용연산가능하게 구성한 GPU도 등장

GPU는 2012년 열린 소프트웨어로 사진을 인식해 사물이나 배경이 무엇인지 맞히는 프로그래밍대회인 ‘이미지넷 대회’에서 놀라운 성능을 내면서 GPU는 인공지능 학계의 ‘스타’가 되었습니다. 당시 토론토대 박사과정을 밟고 있던 알렉스 크리제브스키(현 구글 머신러닝팀 엔지니어)는 사진인식 프로그램에 처음으로 GPU를 이용해 ‘마의 장벽’으로 여겨지던 인식률 80%를 넘기면서 학계를 뒤흔들었죠. 이후 AI를 연구하려는 사람들은 모두 엔비디아 GPU로 몰려들었습니다.

지난해 이세돌 9단을 꺾은 구글 딥마인드의 AI 컴퓨터 ‘알파고’를 만드는 데에도 CPU 1,202개와 더불어 176개의 GPU가 들어갔습니다. 미국 유명 과학잡지 포퓰러사이언스는 지난해 GPU를 소개하는 기사에서 “GPU는 현대 AI 기술을 완성할 핵심 전력”이라고 쓸 정도였죠.

▲CPU(왼쪽)과 GPU(오른쪽) 구조를 나타낸 개념도

이렇듯 GPU가 AI에 강한 것은 방대한 양의 정보를 한꺼번에 처리할 수 있어서 입니다. CPU는 직렬처리 방식(한 가지 작업을 마친 뒤 다음 작업을 처리)에 최적화된 1~8개의 코어로 구성되어 있어 명령어가 입력된 순서대로 순차적으로 데이터를 처리하는데요. 구조상 수많은 정보가 한꺼번에 들어오면 병목현상이 생기기 때문에 비효율적입니다. 반면 GPU는 수백에서 수천 개의 코어가 들어가 있어 대량의 데이터를 너끈히 처리할 수 있습니다.

예를 들어 점을 하나씩 찍는 방식으로 그림을 그린다면 CPU는 붓을 움직이는 속도는 빠르지만 한 번에 한 개의 점만 찍을 수 있어 그림 하나를 완성하려면 많은 시간이 걸립니다. 하지만 GPU는 손놀림은 느리지만 한꺼번에 수천 개의 붓을 동시에 쥐고 있어 붓질 한 번에 그림을 완성할 수 있는 것과 같은 원리입니다.

고속성장하고 있는 AI 기술

엔비디아는 지속적으로 GPU를 AI에 맞춰 개발하기 시작했고, 지난 3년간 50배 이상 성능을 높였습니다. 향후 몇 년 내에 10배 이상 더 빠르게 만들겠다는 게 엔비디아의 계획인데요. 지난해 4월에는 20억 달러를 투자해 칩 1개에 1,500억개의 트랜지스터가 들어간 최첨단 GPU인 테슬라 P100 칩을 개발하고 이 칩을 응용한 시스템을 선보였습니다.

DGX-1이라고 명명된 이 시스템은 8개의 테슬라 P100 GPU를 채용해 종전 엔비디아의 최고 시스템에 비해 머신러닝 기능이 12배 빨라졌는데요. 가격은 무려 12만 9,000달러, 칩 1개가 1만 6,125달러에 달하는 셈이죠. 젠슨황 최고경영자(CEO)는 DGX-1 시스템을 “야수같은 머신”이라고 불렀습니다.

고가의 가격임에도 불구하고 이 시스템은 날개 돋친 듯 팔려나가고 있습니다. MIT와 스탠퍼드, 버클리 등의 AI 과학자들이 먼저 사들였고 구글, 아마존, 페이스북 등도 이 시스템을 채용한 것으로 전해졌죠. 현재 바이두, 구글, 페이스북, 마이크로소프드 등은 모두 딥러닝에 엔비디아 GPU를 사용하고 있는데요. 지난 2년간 딥러닝 시스템에 엔비디아 GPU를 쓰는 회사는 3,400개로 35배 이상 늘어났습니다. 본격적으로 AI가 확산되며 자율주행차, 건강관리부터 자율주행, 금융서비스 기업 등으로 고객들이 확대되고 있기 때문이죠.

테슬라는 자사의 모든 자율주행차에 엔비디아 GPU를 이용하겠다고 지난해 발표했습니다. 자율주행 차량은 지속적으로 주변 상황에 관한 정보를 수집하고 많은 양의 데이터를 빠르게 분석해 판단을 내려야 하기 때문에 GPU의 사용이 필수적이기 때문이죠.

AI 시장을 정조준한 반도체 업계의 흐름

시장조사업체 IDC는 세계 인공지능 시스템 시장 규모가 지난해 80억 달러에서 2020년 470억 달러(약 53조 6,740억원)로 늘어날 것으로 추산했는데요. AI 시장은 이처럼 급성장하고 있습니다. 이 때문에 반도체 업계는 AI용 반도체 제품을 잇따라 쏟아내고 있죠.

SK하이닉스도 지난해 10월 스탠퍼드대와 뉴로모픽(Neuromorphic, 뇌신경 모방)칩 연구개발협약을 맺고 AI 시장을 정조준 했습니다. 사람 뇌의 사고과정을 모방한 뉴로모픽 아키텍처는 GPU와 FPGAs(Field Programmable Gate Arrays)를 기반으로 개발된 반도체인데요. 기계가 쉽게 인식하기 어려운 비정형적인 문자와 이미지, 음성, 영상 등의 데이터도 효율적으로 처리할 수 있죠. 인간의 뇌처럼 적은 에너지로도 기억과 연산을 동시에 처리하는 저전력 고성능 반도체를 만들겠다는 계획입니다.

삼성전자도 D램과 낸드플래시를 조합해 일반 SSD보다 속도를 대폭 높인 Z-SSD를 판매하기 시작했습니다. 이 제품 또한 AI용 서버를 겨냥하고 있죠. 구글은 최근 자체 개발한 머신러닝 프로세서인 TPU(Tensor Processing Unit)가 시판중인 엔비디아 GPU와 인텔 CPU에 비해 15배에서 30배까지 빠르다고 발표했습니다. 머신러닝과 구글의 머신러닝 개발 프레임워크인 텐서플로 용으로 개발된 TPU는 2015년부터 구글 데이터센터들에서 사용돼 왔는데요. TPU는 전통적인 프로세서에 비해 에너지 효율성도 높은 것으로 나타났습니다.

인텔은 지난달 ‘3D 크로스포인트’란 뉴메모리로 만든 옵테인 솔리드스테이트드라이브(SSD)를 내놓았습니다. 기존 낸드플래시로 만든 SSD보다 작업량에 따라 2.5배에서 최대 77배까지 빠른데요. 평균적으로는 7배의 성능을 낼 수 있습니다. 인텔은 이 제품이 AI와 머신러닝에 적합하다고 밝혔습니다.

GPU로 인해 불붙은 AI업계는 AI에 대한 기대와 활용도가 점점 커져가면서 급성장하고 있습니다. 급격하게 커지고 있는 AI용 반도체 시장에 발맞춰 반도체 업계의 불꽃 튀는 경쟁 또한 예상되는데요. 이런 변화 속에서도 한국의 반도체 업체들이 메모리 반도체 시장을 정복했듯이 좋은 결과를 냈으면 합니다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.