인공지능반도체 – SK hynix Newsroom

[인공지능과 반도체 7편 – 완결] 챗GPT 등 인공지능의 시대 : 메모리 반도체의 위상, 다시 세우다

정인성 작가 — Mon, 28 Aug 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 현재 전 세계를 가장 뜨겁게 달구는 키워드다. SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재하고 있다.이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 컴퓨터가 인공지능을 구현하면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지를 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해 볼 것이다. (편집자 주)

대 변화의 시대: ICT 기술 간의 상호작용

21세기에 일어난 ICT 산업의 변화는 가히 혁명적이라 할 만하다. 전 세계 대부분 사람이 ‘구글’이라는 검색 엔진과 ‘마이크로소프트 윈도우’라는 동일한 운영체제를 사용하고 있다. 이걸로는 부족했는지 대부분의 사람이 손에 컴퓨터를 하나씩 들고 다니며, 쉽게 인터넷에 연결되는 세상이 됐다. 그리고, 마침내 인공지능 기술이 등장했다.

새로운 ICT 기술들이 서로 영향을 주고받는 모습을 보면 놀라움 그 자체다. 여러분은 어느 순간 구글이나 네이버 등 검색엔진의 자동완성, 오타 교정 능력과 번역기의 성능이 크게 향상됐음을 느꼈을 것이다. 특히 구글의 경우는 BERT*와 같은 인공지능 기반 언어 모델이 개발됐기 때문이다. 그리고 이를 통해 많은 고객들로부터 끌어모은 정보는 다시 더 많은 데이터로 생성 활용하는 검색 엔진 회사로 거듭나며 정교한 인공지능 기반 서비스를 제공할 수 있게 됐다. 그리고 이렇게 정교화된 서비스들은 다시 스마트폰, PC 등에서 더 많은 소비자를 끌어모으고 있다.

* BERT(Bidirectional Encoder Representations from Transformers): 구글이 만든 자연어 처리 모델. 이는 검색엔진에서 광범위한 자연어 처리(NLP) 작업에서 단어의 의미와 문맥을 보다 잘 이해하고 유용한 검색 결과가 효과적으로 일치하도록 도와준다.

▲ 그림 1: 소프트웨어 회사, 사용자, 반도체 회사 모두가 이익을 보는 구조

동시에 반도체 수요에도 영향을 미친다. 사용자가 많은 플랫폼에는 그만큼 다양한 사용자 요구가 존재한다. 이러한 요구를 충족시키기 위해 인공지능 기술을 이용하려는 스타트업이 증가하고, 이들은 인공지능 반도체를 대량으로 구매해 신경망을 학습시키고 인공지능 서비스를 제공한다. 이는 엔지니어가 사용하는 PC부터 클라우드의 학습 서버까지 다양한 ICT 분야의 수요가 늘어나며 기술의 선순환이 이뤄지는 것이다. 이렇게 기술들은 상호작용하며 성장해 간다. 가르치고 배우며 함께 성장한다는 의미의 ‘교학상장(敎學相長)’이란 사자성어가 매우 어울린다.

다시 돌아보기: 인공지능, 소프트웨어, 반도체

이러한 선순환이 어디서 시작됐는지 돌아보자. 우리가 원하는 것은 인공신경망을 통해 구현되는 인공지능 기술이었다. 인공신경망의 개념은 1960년대에 등장했지만, 2012년에 이르러야 사람들의 주목을 받게 됐다. 그 이유는 인공신경망을 현실 세계에서 빛을 보게 해줄 요소 기술* 발전이 부족했기 때문이다.

* 요소 기술: 생각이나 계획을 실제로 변화시키고 발현할 수 있는 발명이나 혁신

▲ 그림 2: 학계와 반도체의 혁신을 향한 긴 여정

그림 2는 인공지능 기술이 반도체 업계와 학계가 어떻게 상호작용했는지 간단히 정리한 연대표이다. 과거 인공신경망이 구현되지 않았던 이유는 ▲데이터 학습 방법을 잘 모르고(이론 미비) ▲연산 능력이 부족했기 때문(하드웨어 미비)이다. 그중 전자의 문제는 캐나다의 제프리 힌턴 연구팀이 알렉스넷(AlexNet)을 통해 해결했고, 후자의 문제는 GPU(Graphics Processing Unit, 그래픽 처리 장치)의 발전과 과학자들의 GPU 채택을 통해 해결됐다.

GPU가 등장했던 이유는 두 가지였다. ▲컴퓨터의 용도가 고급 그래픽 분야로 확장됨으로써 사용자들이 전용 칩*을 원하게 된 것 ▲파운드리 회사의 기술 발전으로 제품 양산이 용이해진 것(엔비디아와 같은 GPU 기업들은 팹리스 기업으로 제품 생산을 위한 파운드리 모델이 필요)이다.

* 1999년, 엔비디아(NVIDIA)가 지포스(GeForce)라는 이름의 그래픽 컨트롤러(GPU로 명명)를 내놓기 전까지 그래픽 작업은 CPU(Central Processing Unit, 중앙처리장치)의 한 부분에서 이뤄졌다. 게임 등으로 컴퓨터의 용도가 확장되면서 그래픽 처리 작업이 많이 늘어났고, CPU를 통해 모든 작업을 처리하기 어려워지자, 그래픽을 처리하는 별도의 장치인 GPU가 등장했다.

이렇게 이론적 돌파와 반도체 기술의 발전이 합쳐지자, 인공지능은 드디어 주목받기 시작했다. 인공지능의 발전은 소프트웨어와 반도체 등 각 ICT 산업 분야에 큰 변화를 만들었다. 먼저, 전 세계 인공지능 개발자들은 인공지능에 특화된 GPU를 생산하는 엔비디아에 락인(Lock-In)*됐고, 덕분에 엔비디아는 인공지능 반도체 사업에 큰 성공을 이루고 있다.

* 락인(Lock-In): 고객이 특정 제품이나 서비스를 벗어나지 못하게 되는 현상

한편, 인공지능은 데이터 중심(Data-Driven)으로 개발되어 왔다. 이를 반도체의 측면에서 보면, 방대한 양의 데이터를 빠르게 처리할 수 있는 반도체 칩이 주목받게 된 것이다. 덕분에 메모리 반도체 회사의 인공지능용 초고성능 D램 제품 HBM*은 큰 인기를 얻고 있다. 게다가 데이터센터의 서버에 저장된 각종 데이터를 인공신경망이 이해하는 형태로 바꿔야 할 필요가 생기며, 일반 서버 메모리의 판매량도 급격히 늘어나고 있다.

* HBM(High Bandwidth Memory, 고대역폭 메모리): 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 AI용 고성능 메모리[관련기사]

결국 인공지능은 유망했던 미래 기술에서 현실의 거대한 사업 모델이 됐고, 이제 전문 인공지능 개발 기업부터 데이터 가공 기업 등 인공지능 관련된 다양한 회사가 생겨났다. 이 과정에서 인프라의 효율성과 성능은 더욱 중요해졌으며, 방대한 데이터의 저장 및 이동이 필요한 곳에는 낸드플래시(이하 낸드)가 채택됐다. 즉, GPU가 CPU와 경쟁해 자리를 차지하고 데이터 중심의 프로그래밍 방법론을 확립하는 동안 메모리 반도체는 그들과 함께 큰 혜택을 보고 있는 셈이다.

인공지능 시대의 메모리 반도체

그러면 현재 메모리 반도체의 상황을 알아보자. 알렉스넷의 성공으로 메모리는 인공지능 기술의 핵심 파트너임을 모두가 알게 됐다. 이러한 변화 과정에서 인공지능 기술이 메모리 반도체에 필요로 하는 것은 세 가지다. ▲GPU에 끊임없이 처리할 작업과 데이터를 넘겨줄 고성능(고대역폭) 메모리 ▲거대한 신경망과 학습 데이터를 담을 수 있는 대용량 메모리 ▲거대한 인공지능 학습 인프라를 유지하고 효율을 높이기 위한 고용량, 고성능 낸드다.

하지만 최근에는 인공지능 기술의 이러한 요구 사항을 반도체가 선제적으로 충족하지 못하고 있다고 생각된다. 인공지능 기술이 매년 향상되면서 반도체에 요구하는 성능 향상 폭도 더욱 커지고 있지만, 반도체 미세화의 난이도가 높아짐에 따라 반도체의 성능 향상은 상당히 제한되기 때문이다. 아직 메모리를 100% 대체할 수 있는 유일한 기술은 ‘용량이 더 크고 동작 속도가 더 빠른 메모리’밖에 없다는 것이 다행이다.

메모리 반도체 기업 구성원들은 기술을 개발해 경쟁자를 이기고, 다양한 이해관계자를 만족시킴으로써 더 나은 세상에 기여하고, 회사의 성장에 기여해야 한다. 이를 위해서는 특정 고객이 인공지능 기술에서 정말 어려워하는 부분이 무엇이고, 메모리 회사가 이를 어떻게 해결해 줄 수 있는지를 선제적으로 제시할 수 있어야 한다.

예를 들어, 지난 4편[관련기사]에서 살펴본 CXL(Computer eXpress Link)처럼 메모리의 확장 및 공유를 통해 다양한 서비스에 최적화된 메모리 환경을 제공할 수 있다. CXL 인공신경망(CXL + 한 개의 연산칩) 구조와 HBM 인공신경망(HBM + 여러 개의 GPU) 구조 등 서비스에 따라 최적화된 구성 환경은 다를 것으로 생각된다.

어떤 회사가 라틴어, 티베트어 그리고 타히티어와 같이 사용 빈도가 낮은 언어의 번역 인공지능 서비스를 제공한다고 가정해 보자. 사용 빈도가 낮다는 것은 인공신경망의 사용 횟수가 적다는 것으로 이를 위해 고정적으로 연산칩과 인공신경망을 할당하는 것은 비효율적이다. CXL + 한 개의 연산칩 구조를 통해 연산칩 한 개가 여러 인공신경망을 사용하게 하는 것이 더욱 효율적일 것이다. 반대로 사용 빈도가 높아 인공신경망을 자주 사용해야 한다면, HBM + 여러 개의 GPU 구조를 통해 인공신경망의 성능을 최대한 발휘하는 것이 효율적이다. 메모리 반도체 회사는 이런 틈을 파고들어야 한다.

▲ 그림 3: 거대 메모리를 통해 효율적인 연산이 진행되면 비용이 절약되는 효과를 보여주는 가상 예시

또, 메모리 반도체 회사들은 불가능해 보이는 사업을 가능하게 만들 수도 있다. 챗GPT와 같은 거대 인공신경망은 현재 ▲신경망 학습에 데이터가 너무 많이 필요하고 ▲인공신경망 크기가 너무 커서 탑재할 서버의 가격이 너무 비싸다는 문제를 가지고 있다.

아예 학습에 필요한 데이터가 확보되지 않는 사업이라면 메모리 반도체 회사가 도와줄 수 없다. 하지만 만약 특정 고객이 데이터는 충분한데 거대 신경망을 모바일 기기에 넣어야 하는 사업 모델을 구상했다면 어떻게 할 것인가? 이 사업 모델의 사업성이 크다면, 고객은 기꺼이 새로운 기기를 개발하고 그 기기에 들어가는 새로운 반도체를 탑재하려고 할 것이다. 어쩌면 이런 사업 아이템이 뉴로모픽 반도체 시장 진출의 시작점이 될지 모른다. 혹은 사업 아이템이 극단적으로 기기의 전력을 아낄수록 큰 이득을 보는 상황이라면 PIM[관련기사]을 제안해 볼 수 있다.

▲ 그림 4: 그림과 같은 모험을 하기 위해서는 크기, 가격, 발열 등 단점을 넘어설 만한 장점이 필요하다.

이러한 내용들은 예시일 뿐이다. 핵심은 시장이 인공지능으로 무엇을 하고자 하는지 파악하고, 현재의 기술로 구현 불가능한 것을 파악해 대안을 제시하는 것이다. 인공지능 기술이 과거에 연산칩과 메모리 반도체 역할의 두꺼웠던 벽을 허물 기회를 준 것이다. 이 기회를 적극적으로 활용하면 인공지능 시대를 이끌어갈 수 있을 것이다.

영원한 것은 없다: 변화에 집중하라

그렇다고 위와 같은 기회가 영원히 지속될 것이라는 생각은 금물이다. 현재의 인공지능 기술을 가능하게 만든 이론은 ‘역전파*’다. 역전파 방법론이 등장하자 ‘인공지능 학습’이라는 추상적이고 애매했던 목표가 단순한 최적 함수 탐색 문제로 변화하게 된다. 거대한 인공신경망을 조금 복잡한 함수로 보게 된 것이고, 덕분에 기존의 과학기술에서 널리 사용되던 기울기 하강법*과 같은 최적화 방법을 쓸 수 있게 된 것이다.

* 역전파(Backpropagation): 예측한 출력값과 실제 출력값의 차이인 오차를 계산하고, 이것을 다시 역으로 전파해 가중치를 조정해 예측 출력값과 실제 출력값을 일치시키는 방법. 본래 순전파(Feedforward)는 입력받은 데이터에 가중치를 곱하여 출력하는 방법이나, 역전파는 이를 보완한 것으로 대수적인 방법으로는 풀 수 없었던 문제를, 수치 해석적으로 오차가 작아지는 쪽으로 조금씩 값을 조절하는 과정을 반복하여 학습을 가능하게 함
* 기울기 하강법: 경사 하강법이라고도 하며, 예를 들어 어두운 밤 산에서 내려갈 때, 오르막이 아닌 아래로 기울어진 곳을 찾아 내려가듯이 손실 함수 값이 낮은 곳을 찾아 원하는 함수를 방법 중 하나. 특정 함수에 입력값을 넣은 뒤, 함수의 출력값과 원하는 기댓값의 차이를 줄이는 방향으로 함수를 갱신해 가는 방법

▲ 그림 5: 역전파 덕분에 단순 최적화 문제로 바뀐 인공신경망 학습

하지만 역전파와 기울기 하강법 기반의 학습은 장점만 있는 것은 아니다. 현재의 인공지능이 데이터를 매우 많이 필요로 하는 이유가 바로 기울기 하강법의 한계 때문이다. 현재의 인공지능은 1개의 데이터로 최적의 함수를 찾으려고 할 때 과적합*이 발생할 수 있다. 이런 이유로 과학자들은 매우 많은 데이터를 투입해 데이터당 학습량을 매우 적게 설정해 신경망을 조금씩 학습시킬 수밖에 없게 된다. 결국 인공지능 기술을 현재 수준까지 이끌어 온 것도 역전파이지만, 인간 수준의 인식능력을 갖추기 어렵게 하는 이유도 이 방법론의 한계 때문이다.

* 과적합(Overfitting): 기계 학습에서 학습 데이터를 수집할 때 전체적인 경향성에서 벗어난 데이터까지를 고려해 실제 데이터에 대해서는 일반화 성능이 떨어지는 모델을 얻게 되는 현상

다시 말해, 역전파 방법론을 넘어서는 인공신경망 학습 방법이 등장하면, 지금의 역전파 기반 인공지능 기술을 전제로 한 반도체 시장은 엄청난 지각변동을 겪게 될 것이다. 만약 인공지능이 인간처럼 데이터 1~2개만 보고도 새로운 동물을 구분할 수 있게 된다면, 거대한 메모리도, 고성능 GPU도 그리고 데이터 저장을 위한 거대한 낸드 저장소도 필요 없어질지 모른다.

그렇기에 우리는 현재의 기술에 집중하면서도, 새로운 기술을 가까이해야 한다. 지금 우리가 지나쳐 버린 어떤 논문이 캐나다 힌튼 연구팀(알렉스넷 개발팀)에 필적할 거대한 변화일지 모른다. 이런 트렌드를 빠르게 파악해 낸다면 누구도 경험하지 못한 새로운 미래를 개척할 수 있다.

분업의 시대에서 협업의 시대로

반도체 시장은 늘 위기에 직면해 왔다. 하지만 2020년대 들어 나타나는 위기들은 차원이 다르다. 미세화 기술 개발은 점점 어려워지고, 설비 투자액은 더욱 폭증하고 있다. 반도체는 강대국의 외교 테이블에 올라가기 시작했고 한때 반도체 회사 파트너였던 거대 소프트웨어, 하드웨어 회사들이 이제는 거대한 자체 수요를 믿고 반도체 설계까지 겸하는 상황이 됐다. 제조 기술을 통한 성능 향상은 점차 어려워져 경쟁력 확보는 힘들어지는데 고객사는 경쟁사를 겸하기 시작하고 있다. 이런 위기는 연산 반도체 기업에 더 크게 느껴지겠지만 메모리 반도체 역시 안심할 수는 없다.

지금까지 [인공지능과 반도체] 칼럼 시리즈에서 우리는 인공지능 세상에서 반도체가 어떤 역할을 해왔으며 앞으로 무엇을 할 수 있는지 살펴봤다. 필자는 이 시리즈를 통해 독자 여러분들이 반도체란 무엇인지 깊게 고민해 봤으면 한다. 인공지능 시대에 메모리 반도체의 위상은 왜 변했는지 이해해야 한다. 이것을 이해하면, 이후 인공지능 기술이 변화하거나 지금까지 보지 못했던 전혀 새로운 기술이 등장했을 때, 메모리 반도체가 어떤 위상을 가지게 될지 예측할 수 있을 것이다. 그리고 이를 안다면, 무엇을 해야 할지도 알 수 있을 것이다.

‘옛것을 배워 새로운 것을 깨닫는다’는 의미의 ‘온고지신(溫故知新)’이라는 말이 있다. 여러분이 살펴본 인공지능 기술 태동의 역사와 올해 40주년을 맞이한 SK하이닉스의 반도체 노하우가 합쳐진다면 분명 훌륭한 결과가 나올 것이라고 기대한다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 6편] 챗GPT 등 인공지능의 시대 : ‘뇌 구조의 반도체로 만들다’ 뉴로모픽 반도체의 등장(6/7)

정인성 작가 — Wed, 19 Jul 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 현재 전 세계를 가장 뜨겁게 달구는 키워드다. SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재하고 있다.
이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 인공지능으로 바뀌면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해 볼 것이다. (필자 주)

이번 편에서는 다가올 미래 반도체를 다룰 것이다. 인간의 뇌 구조를 모방해 만든 반도체, 바로 뉴로모픽(Neuromorphic) 반도체다. 뉴로모픽 반도체는 아직 상용화되지 않은 경우가 대부분이라 정의하는 데 많은 혼란을 일으킨다. 그래서 우선 용어들을 명확히 하고자 한다.

‘인공지능 반도체’라는 용어는 매우 큰 범위를 가진다. 현재에서 미래까지 인공지능 기술에 필요한 모든 반도체를 포괄하는 개념으로 이 분야의 대표주자는 ▲GPU(Graphics Processing Unit, 그래픽 처리 장치)다.

또 다른 ‘인공지능 반도체’는 ▲NPU(Neural Processing Unit, 인공지능 처리 장치)다. 이 NPU는 대중적으로 알려진 GPU보다 인공지능을 위한 연산에 더욱 특화된 반도체로, 독립적인 반도체 칩으로 설계되기도 하고 혹은 반도체 칩 내부의 일부분으로 설계되기도 한다. GPU보다 인공지능이 필요로 하는 연산 알고리즘인 GEMM* 등에 특화된 NPU를 중심으로 뉴로모픽 반도체를 자세히 알아보고자 한다.

* GEMM(GEneral Matrix Multiplication) : 다중 연산의 식을 여러 개 입력하고, 결괏값은 하나로 출력하는 알고리즘으로 추론이나 예측에 사용된다.

▲ 그림 1 : GEMM 연산 중 하나인 내적(왼쪽)과 실제 이미지 인식 과정에서 신경망 연산에 GEMM이 쓰이는 예(오른쪽)

NPU 등 인간의 뇌구조처럼 병렬 형태의 연산 방식을 모방한 뉴로모픽 반도체는 폰 노이만 구조*의 일반적인 컴퓨터 칩에 가까운 개념부터, 폰 노이만 구조를 완전히 벗어나는 개념까지 매우 다양하다. 특히 이번 편에서는 뉴로모픽 반도체 중에서도 가장 메모리에 가까운 구조를 가진 반도체를 다루고자 한다. 그래서 이번에 언급하는 뉴로모픽 반도체는 다양한 미래 반도체 중 하나일 뿐임을 명심하길 바란다.

* 폰 노이만 구조(Von Neumann Architecture) : 메모리와 연산장치, 입출력 장치 등 전형적인 3단계 구조로 이루어진 프로그램 내장형 컴퓨터 구조. 오늘날 사용하고 있는 일반적인 컴퓨터의 기본 구조

▲ 그림 2 : 각종 반도체의 종류별 포함 관계

디지털 회로의 대가

컴퓨터는 20세기 가장 중요한 발명품이다. 인류는 컴퓨터가 생겨남으로써 ‘프로그램’을 만들 수 있게 됐고, 이 ‘프로그램’을 통해 지금까지의 인류 역사에서 경험해 보지 못했던 강력한 연산과 자동화 능력을 세상에 제공할 수 있었다. 컴퓨터 덕분에 매우 정밀한 계산을 할 수 있게 됐고, 하루 종일 검산해야 했던 수백만 가지 숫자들을 수 초 만에 전부 틀리지 않고 계산할 수 있게 됐다.

이를 가능하게 한 이유 중 하나는 디지털 회로가 보장하는 높은 정확도다. 디지털 회로는 ‘1+1의 연산 결괏값은 항상 2’인 것과 같이 동일한 연산을 할 때 매번 같은 값을 보장한다. 이러한 특성 덕분에 ‘프로그램’을 만들 수 있었다.

▲ 그림 3 : 순서도는 약간의 오차로 인해 어마어마한 오동작이 일어날 수 있다.

<그림 3>을 살펴보자. 만약 위 순서도에서 N값이 정확히 구분되지 않고, ±(플러스마이너스) 0.1 정도의 오차가 있으면 어떻게 될까? 연산이 완료된 후에도 결괏값이 틀릴 뿐만 아니라 운이 없으면 아예 분기(조건문) 처리 자체가 망가져 버릴 수 있다. N값이 정수로 떨어지지 않으면, 프로그램이 멈추지 않고 계속 계산을 진행하고 있을 수도 있다. 결국 논리적인 구분의 값이 정확하지 않으면 더 이상 컴퓨터를 통해 초정밀 계산을 수행할 수 없게 된다. 이는 수십 nm(나노미터) 수준의 오차도 허용되지 않는 현대 산업에서는 매우 치명적일 것이다.

▲ 그림 4 : 디지털 회로의 예

이 때문에 현재의 컴퓨터는 디지털 회로를 기반으로 만들어진다. 즉, 디지털 회로는 특정 범위의 전압과 전류 등을 0과 1로 전환하여 값을 정확히 구분한다. 예를 들어, 우리가 1.0mA를 1의 기준으로 정했다고 가정해 보자. 특정 트랜지스터에 0.0~0.9mA의 전류가 흐른다면 값을 0으로 취급하면 되고, 1.0mA가 넘게 흐르면 1로 취급하면 된다. 이런 마진 측정 방식을 통해 초미세 회로들의 노이즈를 이겨내는 것이다.

만약 우리가 디지털 회로를 포기하고 흐르는 전류 자체를 값으로 사용한다면 어떤 일이 발생할까? 예를 들어, A 트랜지스터에서 1.003의 전류가 흐르고, B 트랜지스터에서 1.100의 전류가 흐른다고 가정해 보자. 단순한 덧셈의 개념으로 보자면 이 두 전류를 합치면 2.103의 전류가 되겠다고 생각하기 쉽다. 하지만 각종 누설 전류와 외부 노이즈 등으로 인해 두 전류의 합이 정확하게 2.103이 되지 않는다. 게다가 전류 값이 정확하지 않다면 컴퓨터는 제대로 작동하지 않는다. 이런 이유로 과학자들은 숫자 하나하나를 디지털 회로 값으로 치환하는 ALU* 등 다양한 기능의 반도체를 이용해 디지털 회로로 구현함으로써 100% 동일한 결과를 보장할 수 있게 만든 것이다. 하지만 이 방식은 매우 많은 트랜지스터를 요구한다.

* ALU(Arithmetic Logic Unit) : 산술연산, 논리연산 등을 수행하는 중앙처리장치 내부의 회로 장치. 독립적으로는 데이터 처리를 못 하며 반드시 레지스터들과 조합해 처리함

▲ 그림 5 : 단순히 숫자 두 개(A, B) 사칙 연산하는 데 있어 ALU는 수많은 트랜지스터가 필요하다.(출처 : 원문 보기)

인공신경망의 정확도는 어디에서 오는가?

하지만 인공지능 시대가 열리면서 상황이 변하기 시작했다. 오히려 ‘정확하지 않은 컴퓨터’가 가능성을 가지게 된 것이다. 예를 들어, 아래 귀여운 강아지가 있는 세 개의 사진(그림 6)을 보자. 하나의 이미지는 이상적인 형태로 그려져 있으며, 다른 한 개는 약간 기울어져 있고, 나머지 하나는 강아지 얼굴 부분에 노이즈가 있다. 지금, 이 글을 보고 있는 여러분은 세 개의 사진이 같은 강아지인지 아닌지 헷갈리는가? 아마 헷갈리지 않을 것이다. 사진이 약간 기울어져 있고, 노이즈가 있지만 같은 대상임을 분명히 알 수 있다.

▲ 그림 6 : 사람은 이 3개 사진이 동일 대상을 가리키고 있음을 쉽게 파악한다

이번에는 실눈을 감고 이미지를 보자. 약간 뿌옇게 보이지만 우리는 여전히 세 개의 대상이 같다는 것을 이해하고 있다. 이미지들을 흑백으로 바꿔봐도, 색조를 조금 바꿔도 우리는 사물을 구분하는 데 큰 어려움을 겪지 않는다. 이는 인공신경망 역시 마찬가지다. 인공신경망은 사람이 이미지를 인식하는 것과 비슷한 형태로 이미지를 학습하고 인식한다.

이것이 가능한 이유는 크게 두 가지다. 우선 인공신경망 내부에 수많은 뉴런이 존재하기 때문이다. 예를 들어, 인공신경망이 얼굴을 구분할 때 눈과 코만 기준으로 삼는다고 가정해 보자. 여기에 특정 노이즈가 눈과 코를 지워버린다면 얼굴을 구분할 수 없게 된다. 하지만 뉴런이 많다면, 눈과 코를 합친 특징을 비롯해 이외에 매우 다양한 특징을 살피도록 학습시킬 수 있다. 눈이 잘 구분되지 않아도 나머지 특성을 통해 대상을 구분할 수 있는 것이다.

다른 한 가지 이유는 학습 이론이 발전했다는 점이다. 과학자들은 많은 연구를 통해 주어진 데이터로 정보를 추론하는 데이터 증강*이나, 강아지의 눈과 코가 모자이크로 인해 가려져 강아지가 아니라는 과도한 학습을 차단하는 드롭아웃* 등 다양한 기술을 도입했다. 이로써 인공신경망은 이미지 데이터를 주어진 그대로 인식하는 것이 아닌, 노이즈를 이겨내고 사진 내의 다양한 특성을 살피도록 학습할 수 있었다. 이를 뒤집어 생각해 보자. ‘만약 우리가 인공신경망에 노이즈를 강하게 학습시킬 수 있다면, 신경망 내부에서 연산이 다소 정확하지 않아도 상관없는 것이 아닐까?’라는 추론이 가능해진다.

* 데이터 증강(Augmentation) : 학습에 사용하는 데이터에 각종 변화를 줌으로써 신경망의 추론 안정성을 높이는 기술. 이미지의 경우 회전, 크기 변경, 노이즈 추가 등이 이루어진다.
* 드롭아웃(Dropout) : 인공지능 모델이 학습한 데이터에 대한 의존도가 높아져, 실제 사용에서 정확도가 떨어지게 되는 과적합(Overfitting) 현상을 해결하기 위해 주어진 확률로 네트워크에 있는 변수들을 생략하는 방법

PIM : 메모리가 직접 연산한다

인공신경망을 만들었는데 학습 중 데이터 증강을 통해, 혹은 실제 데이터 추론 상황에서 노이즈가 추가된 사진이 신경망에 입력되는 상황을 생각해 보자. 신경망이 잘 학습됐다면 노이즈와 관계없이 정답을 출력할 것이다.

▲ 그림 7 : 사진에 노이즈가 있는 상황(위)과, 신경망이 노이즈를 만드는 상황(아래)

그렇다면 <그림 7> 중 아래 이미지와 같이 상황을 약간 비틀어 보자. 입력된 이미지에는 노이즈가 없는데, 인공신경망 일부분에서 약간의 노이즈가 발생하는 것이다. 역시나 추론 결과는 정확하다. 이는 노이즈 정규화(Noise Regularization)라는 방법으로 신경망 학습에서 때때로 사용되는 방법이다. 즉, 인공 뉴런은 개별적으로 연산 과정에서 작은 문제가 발생해도 전체에 영향을 미치지 않는다. 이는 각각 요소의 정확도가 중요한 기존 순서도 프로그램과 크게 구분된다.

그렇다면 우리가 디지털 회로의 정확성을 포기하고 모든 요소를 오로지 인공신경망을 위해 투입하면 어떻게 될까? 이것이 바로 단순히 저장만 하는 메모리가 아닌 연산용 메모리(Computational Memory)이다. 뉴로모픽 반도체 중 하나의 종류이자, PIM(Processing In Memory)의 최종적인 형태 중 하나라고 할 수 있다.

▲ 그림 8 : CPU의 y=wx 계산(왼쪽)과 전류 흐름을 통한 계산(오른쪽)

예를 들어, 사용자가 ‘y=wx’의 값을 계산해야 한다고 해 보자. w는 고정된 값이며, x를 통해 y를 계산하는 것이 목적이다. 만약 CPU를 통해 연산을 한다면, <그림 8> 좌측 이미지와 같은 과정이 벌어지게 된다. 이 간단한 계산을 위해서는 CPU가 메모리에서 w와 x의 값을 불러온 뒤, 해야 할 작업을 분석하고 ALU를 여러 차례 가동해야 한다. 이후 결괏값을 다시 메모리에 적어주는 작업까지 수행해야 한다.

하지만, 오른쪽과 같은 회로를 구성한다면 어떨까? 앞에서 살펴본 디지털 회로와 같이 흐르는 전류에 따라 값을 정한다고 한다면 <그림 8>의 오른쪽 계산과 같이 입력 전압의 값(x)을 통해 y의 값을 알 수 있을 것이다. 이를 통해 우리는 지금 거대한 CPU 설계와 메모리로 구성된 시스템이 할 일을 고작 저항 1개와 전선 몇 개로 해낸 것이다. 여기서 설계를 조금만 늘리면 더욱 많은 숫자 합을 동시에 수행할 수 있다.

▲ 그림 9 : y=wx를 4번 수행하는 CPU 알고리즘(왼쪽)과 뉴로모픽(오른쪽)

<그림 9>를 보면 전류 흐름을 통한 뉴로모픽은 CPU가 여러 루프를 반복해 돌아야 계산되는 값을 ‘한 곳에서, 동시에’ 처리할 수 있다는 것을 알 수 있다. 이는 무려 8개의 숫자를 동시에 곱한 것인데, 이런 연산이 바로 위에서 본 GEMM의 훌륭한 예시가 될 수 있다. 여기서 x와 w만 어떤 식으로든 변화시킬 수 있다면, 대규모 GEMM 연산기가 되는 것이다.

물론 누설전류 및 외부 노이즈로 인해 매번 정확하게 wx라는 값이 흐르지는 않을 것이다. 하지만 인간의 뇌세포도 이와 유사하다. 인간은 아침을 굶고 나왔거나, 조금 지치는 상황에서도 기존에 잘하던 일이면 대부분의 일을 잘 해낸다. 컨디션의 차이가 있다면 개별 뇌세포가 내놓는 신호가 달라지겠지만, 전체 결과에는 큰 영향이 없다. 이러한 현상은 뉴로모픽 반도체에서도 비슷하게 발생한다. 노이즈는 늘어나기도 하고, 줄어들기도 하므로 위와 같은 연산을 대규모로 수행한다면 전체적인 노이즈는 줄어들게 되는 것이다.

뉴로모픽 반도체 : 더 똑똑한 반도체를 이기는 다수의 반도체

이런 칩은 반도체 설계 측면에서 매우 큰 변화를 불러올 수 있다. 일단 가장 큰 장점은 웨이퍼 면적을 상당히 절약할 수 있다는 것이다. 위에서 언급했듯 뉴로모픽 반도체는 기존 연산용 칩에 들어가는 ALU 등과 비교했을 때 수많은 설계를 없앨 수 있다.

그뿐만 아니라, 메모리 자체도 아낄 수 있다. wx에서 w값은 반도체 회로에 사용된 재료의 고유한 전류 값인 전도도(Conductivity)에 해당하는데, 이는 어떤 의미로는 이미 저장돼 있는 데이터라고 볼 수 있다. 기존에는 곱셈을 수행하기 위해서 HBM 등 메모리에 저장돼 있던 w값을 연산장치로 가져와야 했는데, 이제는 메모리 자체에서 w값을 통해 연산까지 할 수 있는 것이다. 뉴로모픽 반도체는 기존 반도체와 비교해 다른 용도를 위해 사용된 면적을 절약해서 전부 인공 뉴런과의 연결 개수를 늘리는 데 사용할 수 있다.

인공지능 기술의 발전은 어찌 보면 메모리가 CPU의 역할을 수행하니, ‘다수의 덜 똑똑한 반도체가 소수의 똑똑한 반도체를 이겨 나가는 과정’이라 할 수 있다. 첫 편[관련기사]에서 살펴봤듯 분기(Branch)와 같은 과정은 예측하기 매우 힘들기 때문이다. 반면 GPU는 분기와 같은 작업을 포기하고, 더 많은 실수 연산 장치를 투입해 CPU에는 불리한 작업인 인공지능 기술로 진출했다. 뉴로모픽 반도체 칩은 여기서 한 단계 더 나아갔다. 인간의 뇌에 더 가까운 모습을 한 것이다. 실제로 인간의 개별 뇌세포는 GPU의 연산 단위보다 훨씬 단순하지만, 그 수는 매우 많다는 것을 알 수 있다.

뉴로모픽 반도체 칩은 SK하이닉스와 같은 메모리 반도체 회사에 매우 큰 기회라고 생각한다. 일반적으로 CPU, GPU와 같은 칩은 설계가 어렵다. 복잡한 논리 회로들을 여러 개의 금속층을 이용해 연결해야 동작하기 때문이다. 하지만 뉴로모픽 반도체는 ALU와 같은 기능이 필요 없기 때문에 CPU, GPU와 비교했을 때 설계가 간단하다. 칩 내부의 모습은 단순한 구조의 반복일 것이다. 이미 메모리 반도체 회사들은 낸드플래시와 같은 비휘발성 메모리*를 만들면서 미세 소자 안의 전도성 등을 바꾸는 방법에 노하우가 있다. x값은 입력 전압 값에 대응하고, w값은 전도도 등으로 대응시키면 뉴로모픽 칩에 필요한 모든 요소를 만들기 수월할 것이다.

* 비휘발성 메모리 : 전원이 차단돼도 기존 값을 저장하는 메모리

메모리 반도체 회사들은 설계는 단순하지만, 똑같이 생긴 소자를 세계에서 가장 잘 만든다. 12Gb D램은 성인 엄지손톱 2배 수준 면적에 120억 개 이상의 쌍(트랜지스터+저장소)*이 형성돼 있다. 반복적 구조의 소자 안에 저항값 등을 이용해 w에 해당하는 값을 기록하고 전류를 흘릴 수 있다면 뉴로모픽 반도체를 만들 수 있는 것이다.

* 현재의 일반적인 D램 구조. 트랜지스터(T) 1개에 저장소(C) 1개가 붙는 1T1C 구조. CPU 내부의 S램의 경우 6T1C 구조로 저장소당 더 많은 트랜지스터가 필요함

파격적 시도, 어마어마한 도전

이러한 뉴로모픽 반도체들이 상용화된다면, 기존 인공지능 기술로 개발된 수많은 서비스에 더 많은 사람이 접근할 수 있게 될 것이다. 예를 들면, 현재 챗GPT의 기반이 된 GPT-4의 경우, 수백 기가바이트(GB) 이상 메모리 공간을 사용하는 것으로 알려져 있다. 이를 사용하기 위해서는 수천만 원의 GPU를 여러 개 묶어야만 한다. 하지만 뉴로모픽 반도체가 상용화된다면, 수만 원짜리 인공지능 스피커 수준에도 GPT-4급의 신경망을 탑재할 수 있을지도 모른다.

그러나 뉴로모픽 반도체가 아직 본격적으로 등장하지 않은 여러 이유가 있다. 첫 번째 이유는 무작위성을 가진다는 것이다. 매번 구동할 때마다 결과가 달라지면 문제가 생겼을 때 이것이 신경망 학습 문제인지, 칩 신뢰성 문제인지, 입력값 문제인지 등을 구분하기 힘들어진다. 이렇게 되면 사용자들이 사용 자체를 꺼리게 될 가능성도 높다. 특히나 현시점에 익숙하고, 잘 구동되는 GPU라는 대안이 있을 때는 더욱 그렇다.

두 번째 이유는 기존 연산 칩 회사들의 강력한 견제와 경쟁이다. 칩이 기존 컴퓨터 구조와 멀어질수록 이론상의 최대 효율은 올라가지만, 사용하기는 번거롭다. 만약 기존 반도체 회사들이 뉴로모픽 반도체를 만들되, 뉴로모픽 반도체보다 좀 더 폰 노이만 구조 컴퓨터에 가까운 구조로 구성할 경우, 뉴로모픽 반도체를 원하는 고객들은 조금 더 익숙한 형태의 반도체를 사용할 가능성이 높아질 것이다. 실제로 지금도 이러한 움직임은 일어나고 있다. 인텔의 뉴로모픽 칩 로이히(Loihi)[관련기사]의 경우, 폰 노이만 구조의 컴퓨터 구조에 SNN*이라고 부르는 인간 뇌세포의 정보 전달 메커니즘을 접목하고자 하고 있다.

* SNN(Spiking Neural network) : 인공 뇌세포 간 신호 전달을 인간에 좀 더 가깝게 만든 방식의 신경망

뉴로모픽 반도체 경쟁에서 밀리지 않기 위해서는 다양한 경험을 가진 인재를 모으고 고객에 더 가까이 다가갈 필요가 있다고 생각한다. 아날로그 신호 전문가, 인공지능 연구원 등 다양한 사람들을 모으고 이야기를 들어 방향을 정해야 한다. 또한, 뉴로모픽 반도체는 매우 다양한 방식으로 구현될 수 있다. 그래서 이 글에 나온 뉴로모픽 반도체는 다양한 미래 반도체의 대안 중 하나일 뿐임을 기억했으면 한다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 5편] 챗GPT 등 인공지능의 시대 : 메모리의 연산, 차세대 지능형 메모리 PIM과 PNM의 등장 (5/7)

정인성 작가 — Mon, 19 Jun 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 현재 전 세계를 가장 뜨겁게 달구는 키워드다. SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재하고 있다.

이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 인공지능으로 바뀌면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지를 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해 볼 것이다. (필자 주)

“PIM은 연산의 효율을 높여주는 것이지, 1만 개의 이미지 필요량을 5,000개로 줄이지는 않기 때문이다. PIM으로 인해 더 빠른 연산이 가능해지면서, 메모리 반도체 회사들은 더 많은 용량의 메모리를 생산해야 되는 상황이다.”

인공지능의 발전에 필요한 새로운 반도체

우리는 첫 장에서 인공지능과 반도체가 어떻게 함께 발전해 왔는지 알아봤다. 인공지능에서 반도체는 대부분 기존에 있던 인프라를 개선하는 역할이었다. GPU(Graphic Processing Unit)는 CPU(Central Processing Unit)가 할 수 없었던 대규모의 부동소수점* 연산을 가능하게 했고, HBM(High Bandwidth Memory)은 GPU 기반 학습에서 대역폭과 물리적으로 한정된 공간을 이겨내기 위해 사용됐다. 또, 낸드플래시(NAND Flash)는 GPU 학습에 필요한 데이터를 저장, 가공한 뒤 빠른 속도로 학습 서버로 전송하는 역할을 했다.

* 부동소수점 : 실수에서 정수와 소수가 본래 소수점의 위치를 고정하는 고정소수점과 대비되는 개념으로 소수점의 위치를 바꿔 정수와 소수를 구분 표기해 연산에 용이하게 하는 것. 본래의 실수가 123.485인 경우, 1.23485X 10^2, 혹은 0.00123485X10^5 등으로 연산 표기한다.

이런 반도체들 덕분에, 기존 CPU만으로는 불가능했던 일이 가능해졌다. 인공지능 기술은 대량의 데이터를 짧은 시간 안에 투입하는 방식으로 프로그래밍 방법론 자체를 변화시켰으며, 반도체들은 과학자들이 필요로 하는 요구사항에 맞춰 더 높은 성능, 더 큰 용량으로 발전했다.

하지만, 일정 수준의 발전을 이룬 반도체는 미세화에 큰 어려움이 생기기 시작했다. 예를 들면, 반도체 제조의 핵심이라 할 수 있는 노광기*의 가격은 한 대당 1,000억 원을 넘어서고 있고, 다음 세대 장비는 4,000억 원 이상으로 추정하고 있다. 그 외 기술적인 여러 가지 장애물과 함께 다양한 이유로 GPU와 메모리 반도체 모두 성능 발전의 속도가 점점 느려지기 시작했다.

* 노광기 : 반도체 제조 Photo공정에서 미세한 회로를 그리기 위해 빛을 직접 노출(Exposure)시키는 장비로 Stepper, EUV Scanner 등이 있다.

이런 흐름에 맞춰 우리의 초점도 약간 바뀌어야 한다. 단순히 더 빠르고 더 큰 용량의 메모리 반도체 개발로는 한계가 있어, 인공지능 혹은 컴퓨팅 시스템 자체를 다시 설계해야 할 필요가 있다. 당연히도 이를 위해선 새로운 개념의 반도체가 필요하다.

캐시메모리의 등장과 GPU의 부상

지난 수십 년간 컴퓨터를 괴롭혀 온 장애물 중 하나는 메모리 성능 한계였다. 본래 폰 노이만 구조로 컴퓨터를 연산장치와 메모리로 구성했을 때, 메모리의 용량과 속도는 무한하다는 가정이 있었다. 이 중 메모리 용량 문제는 메모리 반도체 전문 기업들이 기술을 발전시키며 해결해왔으나, 그중에도 메모리의 동작 속도가 발목을 잡았다. 성능 향상이 가장 빠르던 1980년대 후반부터 2000년대 중반까지 CPU의 동작 속도는 매년 약 60%씩 상승하고 있었으나, D램의 반응 속도는 10% 정도 상승하는 데 그쳤기 때문이다. [관련 자료]

위와 같은 문제로 인해 CPU 내부에 초고속 메모리를 직접 탑재하기 시작했다. 이것이 캐시메모리(Cache Memory)다. 캐시메모리는 일반 D램 대비 반응 속도가 10배 이상 빠르기 때문에, CPU가 데이터를 필요로 할 때 빠르게 읽기·쓰기 요청에 응할 수 있다. 물론 캐시메모리가 제 역할을 하기 위해서는 캐시메모리의 용량이 충분히 커야 할 뿐만 아니라, CPU가 다음에 쓸 데이터를 최대한 정확하게 예측하고 저장하는 기술이 필요했다. 이 모든 것이 CPU의 트랜지스터를 소모하는 과정이었다.

이러한 문제들 때문에 GPU가 인공지능 산업의 중심이 될 수 있었다. GPU는 거대한 캐시메모리와 분기 예측기* 등에 사용할 트랜지스터까지 전부 연산장치에 투입할 수 있었기 때문이다. 특히 반도체 기술이 더욱 발전하면서 GPU가 처리할 수 있는 연산 능력도 기하급수적으로 늘어나게 됐다. 거대한 공장이 끊임없이 돌아가려면 튼튼한 재고 창고와 강력한 물류체계가 필요하듯, GPU는 고용량·고대역폭 HBM*을 탑재해 쉬지 않고 인공지능 작업을 처리하고자 했다. 거대한 캐시메모리를 만들 트랜지스터까지 아껴 연산장치를 투입했으니, 이제 메모리 반도체가 연산장치들에 데이터를 전달해야 하는 상황이 된 것이다.

* 분기 예측기 : CPU 내에서 분기 예측을 수행하는 디지털 회로. 조건 분기의 다음 명령을 예측하고 실행해 계산 대기 시간을 낭비하지 않아 CPU의 성능을 높여준다.
* HBM(High Bandwidth Memory) : D램 여러 개를 수직으로 연결해 기존 D램보다 데이터 처리 속도를 대폭 끌어올린 고대역폭 반도체로 고성능 컴퓨터와 그래픽 카드에서 사용된다.

▲ SK하이닉스가 개발한 차세대 메모리반도체 PIM이 적용된 ‘GDDR6-AiM’

PIM : 연산 반도체 역할의 일부를 가져오다

우리는 메모리와 연산용 반도체(GPU, CPU 등)는 창고와 공장과 같고 이는 도로로 연결된 것과 같다는 것을 앞서 살펴봤다. 하지만 사실 이 안에는 컴퓨터 프로그램이 가지는 중요한 요소가 빠져있다. 바로 ‘연산용 반도체는 중간 결과물을 메모리에 저장해야 한다’는 것이다. 이는 실제 공장과는 달리 재료가 한번 들어오면 완제품이 만들어지는 구조가 아닌 제조 공정 단계별로 생산되는 재공품(생산과정 가운데 있는 미완성품)을 창고에 보관했다가, 가공하기 위해 다시 가져오는 것과 같다.

▲ 그림 1 : 메모리와 연산용 반도체의 데이터 처리 과정을 창고와 공장 간의 가공 과정으로 비유한 예시

<그림 1>는 메모리와 연산 반도체 사이에 발생하는 데이터 처리 과정을 가상의 공장(연산 반도체)과 창고(메모리)의 모습으로 설명한 예시이다. 공장이 원자재 완제품으로 만들기(데이터 처리) 위해서는 절단과 도색 두 가지 작업이 필요하다. 여기서 공장의 역할은 절단과 도색 두 가지 작업을 하는 것이지 원자재와 재공품을 보관하는 것이 아니다. 때문에 절단과 도색을 할 때 마다 창고에서 원자재와 재공품을 가지고 오고, 다시 가져다 놓는 일을 반복해야 한다. 이런 이동은 번거롭고 시간이 많이 소요된다. 때문에 공장에 작은 선반 같은 것을 두고 임시로 원자재와 재공품을 보관하면 더 빠르고 편해질 것이다. 여기서 말한 선반이 바로 캐시메모리의 역할이다.

여기서, 공장의 효율적인 생산, 즉 연산장치와 메모리를 통한 인공지능 동작 성능을 높이려면 어떻게 해야 할까? 메모리의 동작 속도를 높이는 방법이나 재공품 선반(캐시메모리)의 크기를 키우는 방법이 있을 것이다. 하지만 전자의 경우, 앞서 이야기 했듯 동작 속도의 성능 향상의 한계로 인해 어려움이 있다. 또한, 후자의 경우, 지금도 캐시메모리는 동일 용량의 D램보다 10배 이상 많은 면적을 차지하기 때문에 매우 비효율적이다.

그렇다면, 여기서 한 가지 아이디어가 떠오른다. ‘자주 해야 하는 작업에 필요한 물건은 굳이 공장으로 옮기지 않고, 이를 창고에서 바로 처리한다면 효율이 오르지 않을까?’라는 것이다. 이렇게 해서 등장한 아이디어가 바로 PIM(Processing-In-Memory)이다.

▲ 그림 2 : PIM이 적용되면 데이터 처리 과정이 비약적으로 줄어든다.

<그림 2>는 <그림 1>에서 메모리를 PIM으로 변경했을 경우의 데이터 처리 과정이다. 두 그림을 비교해 보니 PIM이 왜 필요한지 좀 더 명확하게 보인다. 데이터 전송은 연산 과정에서 상당 부분을 차지한다. 그래서 메모리 반도체 회사들은 처음부터 메모리 반도체에서 연산용 반도체로 데이터를 전송할 필요 없도록 방법을 찾은 것이다. PIM을 사용하면, 메모리 반도체의 데이터 전송 과정이 줄어들고 이로 인해, 데이터 처리 속도가 상당히 향상될 뿐만 아니라, 전성비(전력 대비 성능비)도 매우 높아진다. PIM은 인공지능 등이 요구하는 각종 연산을 메모리에 내재화해 전체적인 성능뿐 아니라, 전성비까지 개선하는 훌륭한 아이디어인 셈이다.

반도체 설계 관점에서 보면, PIM은 두 가지 방법으로 만들 수 있다. 첫째는 기존 D램 칩 내부에 연산기를 탑재하는 방식이고, 둘째는 D램과 매우 가까운 곳에 별도의 논리연산을 수행하는 칩을 배치하는 것이다. 전자는 D램 칩의 면적이 넓어지지만, 용량에 비례해 자동으로 연산 속도가 올라가는 장점이 있고, 후자는 로직 칩이 동반되어 메모리 반도체 회사 입장에서는 큰 비용을 들이지 않고 탑재 가능한 장점이 있다. 엄밀하게는 후자는 PNM(Processing-Near-Memory)이라 부른다. 연산 장치가 메모리 반도체에 가까이 있을 뿐, 별도의 칩에 있기 때문이다.

▲ 그림 3 : D램의 뱅크 내부에 연산기가 탑재돼 있는 PIM(왼쪽)과 D램 다이 하단에 별도로 로직 다이가 적용되는 PNM(오른쪽)

이런 메모리는 인공지능 개발사와 인공지능을 활용하는 서비스 회사 모두에게 매우 큰 이점을 준다. 인공지능 개발사는 현재 자신의 회사가 개발 중인 인공지능에 활용할 데이터는 충분하지만, 학습 속도가 느릴 때 PIM과 같은 솔루션을 도입함으로써 학습 속도를 크게 개선할 수 있다. 만약 인공지능 시장이 거대 신경망을 자주 학습시켜야 하는 방향으로 진화한다면, PIM은 매우 매력적인 솔루션이 될 것이다. 인공지능을 도입해 서비스하는 회사들에게 운용 비용 감소의 이점을 제공할 수 있기 때문이다. 또한, 전력 대비 성능이 높기에 전기를 적게 쓸 뿐만 아니라, 더 적은 개수의 GPU가 탑재된 서버로도 동일한 수준의 서비스를 제공할 수 있어, 공간에 대한 임대료도 낮아지게 된다.

뿐만 아니라, PIM과 같은 솔루션은 GPU 이외의 반도체를 인공지능 시장에 끌어들일 수 있을 것이다. CPU의 경우, 조건에 맞춰 선택지를 택하는 각종 분기 처리 등을 향상하기 위해 총 연산 능력을 줄였는데 PIM이 도입되면 그 단점을 상쇄시키는 동시에 CPU의 장점 또한 유지할 수 있다.

메모리 회사의 유망한 미래 사업

PIM은 메모리 반도체 회사 입장에서 매우 훌륭한 미래 시장이 될 수 있다. PIM이 탑재되어도 메모리 반도체의 사용량은 줄지 않기 때문이다. 예를 들어, PIM이 탑재된 시스템에서 작동되는 특정 인공지능이 1만 개 이미지를 처리해야 한다고 해도 메모리는 여전히 1만 개의 이미지가 들어갈 용량이 확보돼야 한다. PIM은 연산의 효율을 높여주는 것이지, 1만 개의 이미지 필요량을 5,000개로 줄이지는 않기 때문이다. PIM으로 인해 더 빠른 연산이 가능해지면서, 메모리 반도체 회사들은 더 많은 용량의 메모리를 생산해야 되는 상황이다.

다만, PIM을 사용하기 위해서는 기존의 소프트웨어를 고쳐야 한다는 장애물이 있다. PIM이 존재하지 않던 시절의 소프트웨어들은 연산을 위해 다음의 과정을 거칠 수밖에 없다.

메모리에서 값을 읽어 온다.
→ 읽어온 값을 연산 칩이 처리한다.
→ 다시 메모리에 적는다.

이런 연산 과정을 가진 소프트웨어 기반의 컴퓨터에 아무리 PIM을 적용해도 기존 소프트웨어들은 어떤 장점도 얻을 수 없다. PIM을 통한 장점을 활용하기 위해서는 다음의 형태로 프로그램을 고쳐야만 한다.

PIM으로 연산 명령을 보낸다.
→ PIM의 처리 결과를 확인한다.

이러한 입장을 이해해야만 PIM의 잠재력을 온전히 보여줄 수 있다. 아직 많은 소프트웨어 회사들은 PIM을 잘 이해하지 못한다. 이 때문에 PIM의 잠재력을 100% 보여주고, 고객의 마음을 사로잡기 위해서는, 메모리 반도체 회사가 소프트웨어의 입장을 이해해야 하는 시대가 된 것이다.

인공지능의 시대, ‘PIM’이 핵심

인공지능 시대가 도래하면서 데이터를 이용해 수많은 연산을 해야 하는 상황이 됐다. 데이터를 저장하고 운송하는 주체가 메모리 반도체인 이상, 인공지능 시대는 메모리 반도체 회사에 엄청난 기회가 되고 있다.

하지만, 이 기회는 공짜가 아님을 유념해야 한다. 메모리 회사 앞에는 메모리의 큰 고객인 GPU, CPU 칩 메이커들을 비롯해, 최고의 효율을 뽑아내고 싶어 하는 클라우드 고객들, 수많은 인공지능 알고리즘 연구개발, 인공지능을 활용한 서비스 제공 기업 등 다양한 이해관계자들이 존재한다.

PIM은 단순한 메모리 반도체가 아니기 때문에 앞에서 언급한 이해관계자들과 단편적인 관계를 맺을 순 없다. PIM의 판매량이 늘어날수록 이해관계자들과의 관계는 새롭게 구축될 것이다. 고객이었던 상대가 어느 순간 경쟁자가 되기도 하고, 직접적인 관계가 없던 상대가 가장 중요한 고객이 될 수도 있다.

이러한 변화에서 PIM이 고객들에게 더 큰 호응을 얻기 위해선, 고객의 입장이 돼야 한다. 단순한 제품이 아니기에 이론상의 최대 성능에만 집중해선 안 된다. 실제로 고객들이 SK하이닉스의 PIM과 PNM 제품을 사용했을 때 얼마나 큰 효용을 얻는지가 중요해질 것이다. 특히 단순한 메모리가 아닌 만큼 예상치 못한 문제가 발생했을 때 얼마나 빠르게 해결할 수 있는지도 중요하다. 결과적으로, 완전히 새로운 아이디어인 PIM과 PNM 제품이 확실한 효용 증대를 불러오고 큰 불편함이 없다는 것이 증명될수록 고객들은 기꺼이 PIM과 PNM 제품을 도입할 것이다.

고객들은 전성비가 10% 나빠지고, 가격이 10% 비싸져도 새로운 칩을 도입했을 때 기존에 고민했던 문제를 빠르게 해결할 수 있다면 기꺼이 도입할 것이다. 결과적으로 새로운 비즈니스가 아닌 기존 고객과의 신뢰를 기반으로 변화되는 요구사항을 만족시키는 혁신이 중요하다. 이런 면에서 SK하이닉스는 PIM과 PNM 제품을 출시하고 있는 상황이기에 미래가 더욱 기대된다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 4편] 챗GPT 등 인공지능의 시대 : 메모리 공유를 통한 성능향상, CXL로 이루다 (4/7)

정인성 작가 — Tue, 23 May 2023 15:00:00 +0000

서버 컴퓨터의 메모리 용량은 CPU 성능만큼이나 중요하다. 메모리 용량이 클 경우, 서버에 더 많은 프로그램을 탑해 다양한 작업 수행이 가능해지기 때문이다. 주 기억장치인 메모리의 용량이 작은 서버는 보조기억장치 용량이 아무리 커도 많은 프로그램을 동시에 실행시킬 경우 부족한 메모리 용량을 해결하기 위해 보조기억장치(SSD 또는 HDD)를 활용한 가상 메모리*라는 기술을 사용하게 되는 데, 이로 인해 속도는 느려진다. 운이 없는 경우, 진행하고 있던 작업이 에러로 중단되기도 한다.

* 가상 메모리 : SSD(Solid State Disk)나 HDD(Hard Disk)의 일부 영역을 마치 시스템 메모리인 것처럼 사용하는 기법. 메모리 안에서 자주 사용하지 않는 내용을 보조기억장치(SSD 또는 디스크)에 옮겼다가, 데이터가 필요할 때 다시 메모리에 불러오는 식으로 동작해 속도가 느려지는 문제를 가지고 있다.

그리고 인공지능 시대가 열리면서, 더 많은 데이터를 더 빨리 처리해야 하는 상황이 됐다. 당연히, 메모리 용량은 더욱 중요해졌다. 이 때문에 인공지능 학습 서버(컴퓨터)는 CPU(Central Processing Unit, 중앙 처리 장치)가 사용하는 일반 메모리뿐만 아니라, GPU(Graphic Processing Unit, 그래픽 처리 장치) 자체에도 고성능, 고용량 메모리인 HBM(High Bandwidth Memory)을 탑재하고 있다. 재미있는 것은 GPU에서 메모리를 장착했음에도 CPU 메모리 용량이 줄어들지 않았다는 것이다.

▲ 표 1 : 8개 GPU와 1.1TB 메모리를 가진 인공지능용 컴퓨터 ‘p4d’와 ‘p4de’의 스펙표 (출처 : AWS)

<표 1>은 아마존 웹서비스(AWS)의 인공지능 학습용 컴퓨터 ‘Amazon EC2 p4d(이하 p4d)’의 사양이다. p4d는 클라우드 환경에서 머신러닝 등 인공지능 구현을 위한 고성능 컴퓨터(HPC)의 일종으로 세계에서 가장 뛰어난 성능의 슈퍼컴퓨터 중 하나이다. 해당 컴퓨터에는 CPU를 비롯해 NVIDIA의 인공지능용 데이터 서버 GPU인 A100이 8개가 장착돼 있다. p4d는 GPU 8개를 통해 320~640GB라는 거대한 용량의 GPU 메모리를 가지고 있음에도, CPU가 별도로 1TB가 넘는 메모리를 사용하고 있음을 알 수 있다. 이는 큰 용량의 메모리가 인공지능 시대에 얼마나 큰 가치가 있는가를 시사한다.

성능 향상을 위한 새로운 표준, ‘CXL’

이처럼 메모리가 더욱 중요해지면서, 최근 주목받고 있는 것이 CXL(Computer eXpress Link)이다. CXL은 제품 그 자체라기보단, 컴퓨터 시스템 내부에서 CPU나 메모리, 저장 장치 간의 데이터를 더 빠르게 전송하기 위한 인터페이스 기술이다. 조금 더 자세히 살펴보자면, CXL은 기업들이 모여서 만든 컴퓨터 확장 부품의 표준이다. 표준의 중요성은 우리 모두 매우 잘 알고 있다. 만약 한국전력이 220V로 모든 전원을 통일하지 않았다면, 한국에서 가전 사업을 영위하는 것은 매우 힘들었을 것이다. 가전제품 회사 입장에서 같은 가전제품이 다양한 전압을 지원하게 조치해야만 하기 때문이다. 이는 소비자의 부담으로 전가된다.

컴퓨터도 마찬가지다. 우리가 NVIDIA의 GPU를 장착하든, AMD의 GPU를 장착하든 컴퓨터 내의 동일한 PCIe* 슬롯에 끼우면 운영체제가 스스로 새로운 GPU를 찾아내며, 사용자는 아무 문제 없이 새로운 GPU를 사용할 수 있다. 이런 일이 가능한 이유는 컴퓨터를 구성하는 메인보드, CPU, GPU, OS(운영체제) 등을 제조하는 기업 등이 협의해 PCIe라는 규격에 따라 각 기기를 통신시키자고 정했기 때문이다.

* PCIe(PCI Express) : 기존 PCI(Peripheral Component Interconnect)의 속도를 2배 이상 향상한 인터페이스 기술. PCI는 컴퓨터에 주변장치 GPU, 무선랜 등을 장착할 수 있는 고속 확장 슬롯의 인터페이스 기술

▲ 그림 1 : 메인보드의 PCIe 슬롯. 주로 그래픽 카드나 SSD가 장착된다.

CXL도 이와 같은 표준이다. 서버의 역할이 늘어남에 따라, 한 작업을 수행하기 위해 더 다양한 기기들이 관여해야 하는 상황이 만들어지면서 새로운 표준이 필요해진 것이다. 기존의 서버들은 대부분 CPU와 자체 메모리 정도로 간단하게 구성돼 있었다. 대부분의 작업은 CPU가 메모리를 직접 사용하며 수행했다. 하지만 서버가 하는 일이 인터넷 서비스뿐만 아니라 인공지능과 클라우드 등 각종 인프라 관리까지 매우 다양해지면서, 서버 내부의 CPU 외 GPU, FPGA* 등 다양한 확장 카드가 적용됐다.

* FPGA(Field-Programmable Gate Array) : 프로그래밍을 할 수 있는 중간 형태의 집적회로(IC)로 비메모리 반도체의 한 종류다. 회로 변경이 불가능한 일반적인 반도체와 달리 용도에 맞게 회로를 수정할 수 있다. 칩 설계 단계에서 칩을 시뮬레이션하는 용도와 CPU, GPU 등이 대응하기 힘든 독특한 작업을 빠르게 처리하는 용도로 사용된다.

서버의 성능을 최대한 끌어내기 위해서는 각종 확장 카드가 서로 하는 일을 방해하지 않으면서도 처리하고 있던 데이터를 빠르게 공유할 수 있어야 한다. 이를 위해 나온 표준이 CXL이다. 즉, CXL 표준을 준수하는 제품들을 서버 컴퓨터 내부에 함께 적용하면, 각 칩이 서로 잘하는 업무를 분담하기 쉬워진다. 이를 통해 전반적인 작업의 효율을 증대시킬 수 있다.<

▲ 그림 2 : SK하이닉스의 CXL 2.0 메모리와 같은 공유 메모리는 메모리 용량을 확장하면서, 다양한 연산 장치들이 빠르게 프로그램을 처리할 수 있다.

CXL 표준이 등장한 중요한 이유 중 하나는 바로 메모리의 확장 및 공유다. 최근 인공지능 기술 등이 발전하면서, CPU가 잘 해내지 못하는 작업이 늘어났다.* 이 문제를 해결하기 위해서는 서버 컴퓨터 내의 총 메모리 용량을 늘려 수용 가능한 데이터의 양을 늘려야 할 뿐만 아니라, 메모리 내부에 흩어져 있는 다양한 데이터를 가장 적합한 반도체가 접근해 처리할 수 있어야 한다.

* 메모리 접근과 산술 연산, 많은 분기를 통해 데이터를 처리하는 CPU 프로세스는 동시에 많은 연산을 해야 하는 인공신경망 학습에는 효율적이지 못하다. [관련기사]

이종 컴퓨팅: 공유 메모리의 이점

CXL 표준이 등장하기 전에는 연산 칩들이 메모리를 안전하게 공유할 방법이 없어, 칩 간 통신이 비효율적이었다. 현실의 예를 들어보자. 일반적으로 우리가 구매하는 컴퓨터나 노트북에는 그래픽 표시를 위한 GPU가 탑재돼 있다. 다만 이 GPU들은 대부분 CPU 칩 안에 함께 내장된 형태를 보인다. 이러한 GPU를 내장 GPU(iGPU)라고 부른다.

이런 GPU들은 NVIDIA 등의 외장 GPU(dGPU)와 달리 자체 메모리가 없어 컴퓨터 CPU에 연결된 D램을 사용해야 동작할 수 있다. CPU에 연결된 8GB 메모리 중 1GB 정도를 내장 GPU에 나눠주는 식이다.

▲ 그림 3 : CPU와 내장 GPU의 현재 협업 방식

얼핏 보면 동일한 물리적 메모리를 나눠 쓰고 있으니, CPU와 내장 GPU 간 협업이 쉬울 것 같다. 하지만 이들이 협업하기 위해선 복잡한 과정이 필요하다. 어떤 프로그래머가 GPU를 이용해 프로그램의 성능을 높이고 싶다고 해 보자. GPU는 병렬 연산에 강하므로, 병렬 연산해야 할 데이터는 GPU가 처리하게 만들고 싶을 것이다. 얼핏 봐서는 GPU가 직접 CPU가 처리하던 메모리에 접근하여 작업을 수행할 수 있을 것으로 보인다.

하지만 실제로는 그렇게 작동하지 않는다. CPU와 내장 GPU는 통일된 메모리를 사용하는 게 아니라, 메모리에 칸막이를 친 형태로 작동되기 때문이다. <그림 3>을 보면 알 수 있듯, 실제로 이런 작업을 하기 위해선 CPU와 GPU는 일단 서로의 메모리 공간에 공유해야 할 데이터를 복사한 뒤 작업해야만 한다. <그림 3>에서 <1>과 <3>과정이 낭비로 보이지 않는가? 메모리 공유만 잘 이루어진다면, GPU가 바로 과정<2>만 수행해 데이터를 처리할 수도 있었을 것이다.

위와 같은 이유로, CPU와 내장 GPU는 이론상 낼 수 있는 시너지를 제대로 낼 수 없었다. 복사로 인한 시간 및 에너지 소모가 클 뿐만 아니라, 반응 속도도 느려지기 때문이다. 현재 이런 메모리 공유 문제는 CPU와 내장 GPU뿐만 아니라, 다양한 하드웨어 사이에서 발생하고 있다. 물리적으로도 한 덩어리인 메모리에 칸막이가 존재한다면, 물리적으로 멀리 떨어진 칩끼리의 데이터 공유는 더욱 어려울 것이다. 이로 인해 다양한 반도체를 엮어서 작업을 하고자 해도, 시간 손해가 커서 큰 효율 개선이 일어나지 않는 것이다.

하지만, CXL과 같은 거대한 공유 메모리가 생기게 되면서 상황이 달라졌다. 번거로운 기기 간 메모리 공유가 CXL로 인해 간단해진 것이다. 이렇게 되면, ‘인공지능’이라는 하나의 작업을 위해 메모리를 쪼개서 CPU, GPU 등에 나눠줄 수 있게 된다. 기존에는 전체적으로 가장 뛰어났던 GPU가 대부분의 인공지능 일을 전담했다면, 이젠 특정 구역은 GPU가, 다른 부분은 FPGA가, 나머지는 CPU가 처리하는 식으로 바뀔 수 있게 된다.

이는 분업화라 할 수 있다. 기존에는 10명의 주방 직원이 동일한 코스요리를 똑같이 준비했다고 하면, 이제는 코스요리를 애피타이저, 메인(고기/생선), 후식 등으로 나눈 뒤 각 요리를 저마다 가장 잘할 수 있는 요리사에게 맡길 수 있도록 변한 것이다. 이러한 컴퓨터 동작 방식을 이종 컴퓨팅(Heterogeneous Computing)이라고 한다. 다양한 반도체들이 자신이 잘하는 연산 부분을 담당해 전체 성능을 개선하는 것이다.

▲ 그림 4 : 데이터를 인공신경망으로 학습하는 과정에서 각 부분에 최적화된 연산 장치를 사용해 전체 성능을 높일 수 있다. (해당 그림은 연산 장치의 분산을 설명하기 위한 예시로, 기술 개발에 의해 각 연산장치가 잘하는 부분이 달라질 수 있다.)

CXL의 또 한 가지 강점은 메모리 대역폭과 큰 용량이다. 우리가 HBM 편[관련기사]에서 살펴보았듯, 인공지능 환경에서는 메모리의 용량과 대역폭이 모두 중요하다. 다뤄야 하는 데이터가 크기 때문이다. 이 상황에서 CXL은 CPU 등 인공지능 분야에서는 다소 뒤처진 반도체에 큰 이점을 제공할 수 있다.

CPU가 기존에 사용하던 D램에 더해 CXL 메모리를 탑재할 경우, 메모리 용량과 대역폭이 모두 상당히 증가하게 된다. 현재 NVIDIA의 A100 GPU는 2TB/s의 높은 대역폭을 가지고 있는 대신 기기당 40~80GB 정도의 메모리밖에 탑재하지 못한다. 반면 현재의 CPU는 1TB가 넘는 큰 메모리를 장착할 수 있지만, 메모리 대역폭은 250~500GB/s 정도밖에 되지 않는다.

CPU에 CXL 메모리가 채용될 경우, CPU와 GPU의 대역폭 차이는 좁혀지고 CPU는 거대한 메모리 용량을 유지할 수 있게 된다. 만약 수많은 고성능의 CPU에 CXL 메모리를 채용하기 시작한다면, 인공지능 분야에서 GPU에 밀렸던 경쟁력을 어느 정도 찾을 수 있을 것이다.

GPU는 인공지능 추론 속도가 빠르지만 메모리 용량이 작고, CPU는 메모리가 크지만, 대역폭이 상대적으로 낮다. GPU에는 자주 호출되는 인공신경망을 소량 올려서 추론에 사용하고, CPU에는 자주 사용하지 않는 인공신경망을 다량 탑재해 사용하는 등의 방식을 사용한다면, 인공지능 비용을 아끼면서 더욱 높은 효율을 기대할 수 있을 것이다. 예를 들면, 다국어 번역 인공지능 서비스를 운영할 때, 영어 번역기는 수요가 크기 때문에, GPU에 탑재하고, 기타 사용 비율이 낮은 언어들은 CPU에 대량으로 탑재하는 등의 방식을 쓸 수 있다.

CXL로 만드는 새로운 컴퓨터

▲ 그림 5 : 기존 컴퓨터(좌)와 이종 컴퓨팅이 적용된 컴퓨터(우)의 구조

<그림 5> 중 우측 그림은 미래에 생겨날 수 있는 이종 컴퓨터가 적용된 컴퓨터의 예시 모습이다. 매우 이상적이고 멋진 모습으로 보일 수 있다. 하지만 이것은 더 나은 서비스를 누리게 될 일반인들의 입장이고, 반도체 회사나 소프트웨어 회사에 새로운 컴퓨터는 거대한 도전으로 다가온다. 컴퓨터는 프로그램 없이 동작할 수 없다. 그리고 기존의 프로그램은 왼쪽 그림의 기존 컴퓨터 모습에 최적화돼 있다. 컴퓨터의 구조를 바꾼다는 것은 기존에 쌓아 놓은 수많은 노하우, 안정성 등을 포기하고 불모지로 나아간다는 의미다.

노하우와 안정성을 포기한다는 것은 반도체 회사와 소프트웨어 회사 모두에게 큰 불확실성을 가져온다. 반도체 회사들은 자신들이 만든 새로운 CXL 기기가 소프트웨어 회사들이 만든 새로운 프로그램과 조화롭고 안정적으로 동작할지 확신할 수 없다. 소프트웨어 회사는 CXL 기기가 약속한 성능과 안정성을 만족하며 출시될지, 이후에도 끊기지 않고 성능 개선된 버전을 출시해 줄지 확신할 수 없다. 때로는 새로운 CXL 기기의 기능이 기존 파트너 회사의 영역을 침범하게 되기도 한다. 이로 인해 많은 회사가 새로운 시도를 어려워하게 되고, 기존 컴퓨터에 안주하게 된다.

▲ 그림 6 : SK하이닉스가 소프트웨어를 활용, SKT와 공동 개발한 H/W-S/W 통합 플랫폼인 CMS가 2022년 10월 OCP 글로벌 서밋에 전시된 모습 [관련기사]

SK하이닉스와 같은 메모리 회사 역시 새로운 컴퓨터를 만드는 핵심 일원이다. CXL 기반의 새로운 컴퓨터를 만들어 나가는 과정에서 소프트웨어 회사, 플랫폼 회사, 타 반도체 회사 등은 경쟁자이면서도 협력자, 그리고 고객이기도 한 구조의 관계를 맺게 된다. 이들과의 신뢰를 유지하면서도 새로운 관계로 협업하며 새로운 컴퓨팅 시스템을 만들어 가는 미래를 향해 함께 성장한다면 기업이 아닌 인류 모두에게 큰 이익이 될 것이다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 3편] 챗GPT 등 인공지능의 시대 : 고속 저장소, 낸드플래시와 SSD (3/7)

정인성 작가 — Mon, 17 Apr 2023 15:00:00 +0000

이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 인공지능으로 바뀌면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지를 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해볼 것이다. (필자 주)

빅데이터, 낸드플래시 시대의 도래

2010년만 해도 데이터 저장소(Storage)의 대명사는 하드디스크(HDD)였다. 하지만 하드디스크의 경우, 기계장치라는 특성과 구조상의 한계로 인해 데이터 처리 속도를 향상하는 데 큰 어려움이 있었다. 반면 낸드플래시*는 개별 칩의 반응 속도가 빨랐을 뿐만 아니라, 칩 여러 개를 사용하면 개수에 비례해 성능을 높일 수 있었다.

* 낸드플래시(NAND Flash Memory) : 전원이 꺼지면 저장된 자료가 사라지는 D램과 달리 전원이 없는 상태에서도 메모리에 데이터가 계속 저장되는 플래시 메모리의 일종

▲ 그림 1 : 낸드플래시가 적용된 SSD*, eMMC*, UFS* 등 SK하이닉스의 제품들

이러한 이유로 하드디스크는 메모리 회사들의 eMMC, UFS와 같은 낸드플래시 기반 제품에 자리를 내주어야 했다. 그리고 낸드플래시 메모리가 필요한 곳이 또 하나 생겨나기 시작했다. 바로 인공지능 데이터 학습이다.

* SSD(Solid State Drive) : 반도체를 이용해 정보를 저장하는 장치. 순수 전자식으로 작동하므로 기계식인 HDD보다 긴 탐색 시간, 반응 시간, 기계적 지연, 오류율, 소음을 크게 줄여준다.
* eMMC(Embedded Multi Media Card) : 데이터 고속 처리를 위해 모바일 기기에 내장되는 메모리 반도체. 모바일 기기의 보조 데이터 저장 공간으로 사용되는 탈착형 외장 메모리 카드(SD카드 등)와 달리, eMMC는 컨트롤러와 낸드플래시 메모리가 패키지로 통합돼 모바일 기기에 내장된다.
* UFS(Universal Flash Storage) : eMMC의 뒤를 이어 탄생한 저장 장치로 읽기와 쓰기가 동시에 가능한 초고속 플래시 메모리

학습 서버와 데이터

우리는 지난 2편(HBM 편)[관련기사 ]에서 GPU 내부에서 GPU 칩과 HBM이 어떻게 통신하고, HBM 안에 무엇이 들어 있는지 확인했다. 이제 우리의 이해를 조금 더 넓힐 시간이다. 거대 인공신경망을 학습하는 시스템이 어떤 모습일지 대략 살펴보자.

▲ 그림 2 : 신경망을 빠르게 학습시키기 위해 수많은 GPU가 탑재된 서버들이 연결된 인프라의 예시

<그림 2>를 통해 인공신경망을 학습시키기 위한 대략적인 과정을 살펴보자. 가장 먼저 1)네트워크나 CCTV 등 다양한 곳에서 데이터 소스가 발생해 원본 데이터가 저장소(Storage)에 저장된다. 2)해당 데이터 소스는 데이터 작업자에게 이동하며, 3)데이터 작업자는 데이터를 가공해 다시 저장소(Storage)에 저장한다. 이렇게 형성된 데이터 소스는 4)학습 서버로 이동해 인공지능 학습이 이뤄진다. 학습 서버 1개 내에는 여러 개의 GPU가 연결돼 있다. 필요한 경우 학습 서버까지도 여러 개 연결해 더욱 빠르게 학습시키기도 한다.

예를 들어, 2020년 공개된 인공지능 언어 모델 GPT-3*가 데이터를 학습하기 위해 사용된 데이터셋(Dataset)*의 크기는 약 680GB이고, 데이터를 학습하기 위한 총계산량은 3.114E23 FLOPS(FLoating-point Operations Per Second, 1초당 수행할 수 있는 연산 횟수) 정도로 엄청난 수치임을 고려하면, 이러한 GPU 간의 연결을 넘어 여러 GPU가 탑재된 학습 서버 간의 연결은 당연한 모습임을 알 수 있다.

* 최근 공개된 GPT-3.5와 GPT-4의 경우 데이터셋 정보가 공개되지 않아 정확한 데이터 크기를 알 수 없어 불가피하게 GPT-3에 적용된 데이터셋 크기로 표기
* 데이터셋(Dataset) : 머신러닝 알고리즘 등에 사용(처리, 분석)하기 위해 특정 주제나 분야에 관련성을 가지는 데이터들을 모아놓은 것

이번 편에서 우리가 생각할 부분은 두 가지다. 첫 번째는 GPU에 장착된 HBM 내 학습 데이터는 어디서 온 것이냐는 것이다. 학습 서버에 탑재된 GPU는 학습을 위해 데이터가 저장된 저장소(Storage)에서 데이터를 가져와야 한다. 이 저장소(Storage)는 학습에 필요한 데이터를 가능한 한 많이 탑재할 수 있어야 하므로 용량이 클수록 유리하다. 그뿐만 아니라 대용량의 학습데이터를 HBM으로 전송해야 하므로 속도도 빨라야 한다.

두 번째는 인공신경망 학습에 활용하기 전 데이터를 만들어서 어디에 어떻게 보관하는지다. 인공신경망을 학습하기 위해서는 데이터와 정답이 조합된 데이터가 필요하다. 그래야 인공신경망이 오답을 냈을 경우 좀 더 정답에 가까워지도록 학습할 수 있기 때문이다. 따라서 데이터는 가공하기 전 원본을 함께 보관해 두는 것이 좋은데, 이를 위해서는 더 많은 데이터를 저장하고 송수신하기 위해 대용량과 빠른 속도를 가진 저장소(Storage)가 필요하다.

위 두 가지 문제는 신경망 학습에 필요한 데이터가 커질수록 현실적으로 다가오게 된다. 한글, 영어 등의 대화 같은 자연어 인공신경망은 그나마 문제가 간단하다. 자연어 인공신경망을 기반으로 서비스되고 있는 GPT-3의 학습 데이터 크기는 680GB로 일반 PC에 탑재되는 SSD에도 모두 저장할 수 있을 만큼 데이터의 용량이 크지 않기 때문이다. 하지만 신경망이 학습해야 하는 자료의 종류가 음성이나 이미지 등일 경우에는 자연어 대비 수십 배 큰 데이터를 저장소(Storage)에 저장해야 하므로 용량에 부담이 생길 것이다. 특히 음성, 동영상 등의 데이터를 모아둔 뒤, 당장 어디에 쓸지 정하지 못한 상황이라 계속 데이터가 누적되는 상황이라면 저장소(Storage)는 더욱 중요할 것이다.

▲ 그림 3 : 최근 인공신경망은 다양한 데이터를 학습하고 있다.

실제로 2021년 구글은 인공신경망에 음성, 언어, 이미지 등을 한 번에 학습시킨 패스웨이(Pathway)*라는 차세대 인공지능 모델을 공개했다. 이러한 추세를 볼 때 앞으로 더욱 크고 다양한 형태의 데이터가 필요해질 것이며, 이는 데이터 처리 및 보관, 전송 등의 문제에 메모리 회사들이 중요한 역할을 하게 된다는 것이다. 바로 낸드플래시 때문이다.

* 패스웨이(Pathway) : 2021년 구글이 발표한 자체 인공지능 모델로 영상, 음성, 언어, 이미지 등 다양한 데이터 형태를 동시에 학습할 수 있는 다중 학습 모드를 지원하는 것이 특징이다.

고속 저장소와 인공지능 인프라

낸드플래시는 인공지능 학습 과정에서 발생하는 두 가지 문제를 해결해 준다. 데이터 접근 과정에서 발생하는 병목현상과 GPU의 데이터 처리 속도 대비 느린 저장소(Storage)의 데이터 전송 속도 문제이다. GPU가 신경망을 학습하는 데 필요한 데이터의 크기가 클 경우, 데이터를 불러오는 과정에서 발생하는 병목현상 때문에 학습 속도가 현저하게 느려진다. 학습에 필요한 데이터가 더 커져 서버 저장소(Storage)에 보관할 수 없는 수준이 되면 더욱 큰 성능저하가 나타난다.

▲ 그림 4 : 외부 저장소(Storage)에서 불러오는 데이터 전송 속도보다 학습 서버 내의 데이터 전송 속도가 더 빠르기 때문에 GPU가 학습할 데이터가 부족해지는 문제가 발생한다.

<그림 4>와 같이 빅데이터 학습 시 서버 내 저장소 용량의 한계로 외부 저장소(Storage)를 함께 활용한다. 하지만 학습 서버 내 저장소(Storage)와 GPU 간의 데이터 전송속도 대비 외부 저장소(Storage)와 학습 서버 내 저장소(Storage) 간의 데이터 전송 속도가 느려 GPU가 학습할 데이터가 부족해지는 문제가 생길 수 있다.

전송 속도가 중요한 이유는 학습을 위해 이동한 데이터를 지속해 교체해 줘야 하기 때문이다. 혹자는 한번 이동한 데이터를 여러 차례에 걸쳐 오랫동안 학습시키면 되는 것 아니냐고 이야기하기도 한다. 하지만 이럴 경우 과적합(Overfitting)* 등 학습 결과에 문제가 발생할 수 있다. 이를 방지하기 위해 데이터를 수시로 교체하며 최대한 다양한 데이터를 학습시켜야 하는 것이다. 결국, HBM에 너무 많은 데이터를 저장하는 것보다, 전송 속도 문제가 해결된 저장소 활용을 극대화하는 것이 중요하다.

* 과적합(過適合, Overfitting): 인공지능이 특정 데이터를 지나치게 학습해 일어나는 현상. 인공지능이 문제의 답을 외워 버리듯 행동하게 되며, 실전에서 한 번도 보지 못한 입력값을 접할 경우 정확도가 낮아지게 된다.

낸드 플래시는 위와 같은 문제를 높은 전송 성능으로 해결한다. 더 나아가 학습 서버로 데이터를 더 빠르게 전송하기 위해 고성능 저장소(Storage)를 수십 개의 학습 서버들이 공유하는 형태도 생각해 볼 수 있다. 올 플래시*나 SSD를 여러 개 탑재해 네트워크로 연결한 NAS* 등이 그 예이다. 고성능 저장소(Storage)는 더 많은 데이터를 더 빠르게 처리할 수 있기 때문에, 원활한 데이터 수급이 가능하다. 위에서 언급했던 데이터 전송 속도 차이로 인해 발생하는 데이터 부족 문제를 해결할 수 있게 된 것이다.

* 올 플래시(All-Flash): 수많은 낸드플래시나 SSD를 엮어서 만든 초고속, 초고용량 저장소(Storage)
* NAS(Network Attached Storage): 네트워크로 연결 가능한 디스크 드라이브의 총칭

하지만, 고성능 저장소(Storage)의 뛰어난 성능만으로 이 문제가 모두 해결되는 것은 아니다. 데이터가 이동하는 케이블 역시 중요한 역할을 한다. 보통 낸드플래시 기반의 고성능 저장소(Storage)는 빠른 데이터 처리가 가능하기에 일반적으로 사용되는 인터넷 케이블 소재인 구리선이 아닌 광(光)속의 2/3 속도를 자랑하는 광(光)섬유를 사용한다. 구리선의 경우 최대 10Gbps 정도의 전송이 가능하지만, 이는 시중에서 판매하는 일반적인 SSD의 데이터 처리 속도 절반에도 미치지 못하는 속도이다.

광섬유를 통해 더욱 많은 데이터를 더욱 빠르게 처리할 수 있게 된 고성능 저장소(Storage)는 각각의 학습 서버들과 직접 접근할 수 있다는 장점이 있다. 이는 개별 저장소(Storage) 없이 네트워크를 통해 직접 저장소(Storage)에 접근해 데이터를 불러올 수 있다. 특히 고성능 저장소(Storage)는 빠른 속도를 기반으로 학습 데이터 취득, 가공, 학습을 하나의 저장소(Storage)가 관리할 수 있다.

고성능 저장소(Storage)가 등장하기 전 데이터가 유튜브나 CCTV 카메라에서 실시간으로 전달되는 스트리밍 영상 데이터라면 그 영상을 저장하고, 데이터 작업자가 가공하기 위해 요청한 동영상도 전송해야 하며, 학습 서버가 요구하는 가공이 끝난 학습 데이터도 전송해 줘야 하는 등 저장소(Storage)에 큰 부담이 됐다. 하지만 고성능 저장소(Storage)가 등장한 후에는 한 곳에서 관리되기에 이러한 문제가 사라졌다. 이는 클라우드 시대에 맞춰 SK하이닉스와 같은 반도체 회사들이 오랫동안 메모리와 저장소(Storage) 개발에 노력해 온 덕분이다.

인공지능보다는 인공지능 생태계를

인공지능 학습에서 가장 중요한 메모리를 꼽으라고 하면 다들 HBM을 꼽을 것이다. 인공지능 시대를 연 반도체는 GPU이며, GPU를 가장 가까운 곳에서 돕는 칩이기 때문이다. HBM은 인텔의 신형 CPU부터 각종 스타트업의 NPU 등 모두가 중요하게 여기는 메모리이다.

하지만 인공지능 개발은 학습 데이터를 GPU가 한두 번 학습하고 끝나는 것이 아니다. 인공지능을 개발하기 위해서는 신경망에 끝없이 다른 데이터를 새로운 형태로 가공해 학습시켜야 한다. 이는 마치 전선에서 싸우는 병사와 후방 보급부대의 관계와도 비슷하다. 병사가 최전선에서 싸우기 위해서 탄약과 식량이 필요하듯, 최전선에서 인공신경망을 학습시키기 위해서는 신경망에 맞는 대량의 데이터가 제시간에 만들어지고 학습용 서버에 탑재된 GPU에 들어와야만 제 역할을 할 수 있다. 이런 관점에서 보면 인공신경망 데이터의 저장과 이동을 책임지는 낸드플래시는 인공지능 반도체의 후방 보급부대라고 할 수 있다.

지난 두 편에서 우리는 인공지능 기술 발전으로 인해 프로그래밍 모델이 어떻게 변했고, 이 프로그래밍 모델이 반도체에 요구하는 것이 어떻게 바뀌었는지 살펴봤다. 이번 낸드플래시 역시 같은 시각으로 바라보면 된다. 인공신경망을 개발하는 방식의 특성상 원본 데이터 취득에도, 데이터 가공에도 높은 읽기, 쓰기 능력이 필요해졌다. 인공신경망을 학습시킬 때는 전 단계에서 만든 거대한 학습 데이터 중 원하는 것을 취한 뒤 그 데이터를 GPU가 학습할 수 있도록 전송돼야 하며, 이를 위해 역시나 고성능 저장소(Storage)가 필요해진 것이다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[DGIST 시리즈 1편] 메모리 기반 연산 가속기: 저장과 연산을 동시에 하는 진정한 두뇌로

윤종혁 교수 — Wed, 22 Mar 2023 21:00:00 +0000

뉴스룸에서는 대구경북과학기술원 교수 7명과 함께 반도체 기본 모듈과 반도체 적용 사례, 메모리, 인터페이스 회로 등을 주제로 총 7편의 칼럼을 연재하고자 한다.
첫 순서는 전기전자컴퓨터공학과 윤종혁 교수로부터 컴퓨팅 프로세스의 발전과 이러한 발전이 인공지능(AI, Artificial Intelligence)기술에 어떤 기여를 하고 있는지를 알아보고 CPU, GPU, 그리고 메모리 반도체의 역할과 성능이 어떻게 컴퓨팅 프로세스의 발전에 기여하는지 알아볼 것이다.

※ 대구경북과학기술원(DGIST, Daegu Gyeongbuk Institute of Science and Technology): 반도체 융합기술, 뇌공학, 마이크로레이저 등 다양한 첨단 과학 기술을 연구하고 있다. 특히 반도체 분야에서는 전문적인 연구개발(R&D)과 함께 캠퍼스 내 반도체 제조 시설을 구축 운영하고 있다.

일상으로 스며든 인공지능 기술

멀게만 느껴지던 인공지능이 점차 우리에게 가까워지고 있다. 최근에 뉴스에서 끊임없이 언급되고 있는 챗GPT도 인공지능 기반의 기술이니 말이다. 하지만 20년 전만 하더라도, 인터넷을 통한 자연어 검색 등 큰 규모의 서버에서 구현한 인공지능 정도만이 그나마 유용했다(엄밀하게 말하면 이러한 것들을 인공지능이라고 부르기도 전의 시대다). 이에 비해 당시 컴퓨터, 스마트폰 등 말단 장치(엣지 디바이스*)에서의 인공지능은 아주 미흡한 수준이었다. 1990년대 말에서 2000년대 초까지 마이크로소프트 오피스(Microsoft Office) 프로그램에 등장하던 길잡이 강아지를 기억하는 사람들은 이해할 것이다. 이 길잡이는 도움말 색인에 겹치는 일부 정보만 보여주거나 전혀 다른 정보로 응답했고, 심지어 기능을 끄는 것조차 쉽지 않아 사용자들에게 도움을 주기는커녕 불편하고 귀찮은 존재로 인식되곤 했다.

* 엣지 디바이스 (Edge Device) : 데이터 처리가 네트워크 중심에 위치한 클라우드가 아닌 엣지(가장자리)에서 이루어진다는 점에서, 기존 스마트 디바이스들과 구분해 ‘엣지 디바이스’라 지칭한다.

그렇다면 현재의 인공지능 수준은 어떠한가? 스마트폰의 사진 및 카메라 앱의 사례만 들어도 쉽게 확인할 수 있다. 지금은 스마트폰에도 신경망을 모사한 NPU* 등의 인공지능 칩들이 탑재돼, 굳이 서버의 힘을 빌리지 않아도 검색어만 입력하면 관련 사진을 분류해 볼 수 있고, 손쉽게 사진 내 객체를 편집할 수 있는 기능까지 기본적으로 지원하고 있다.

과거에는 왜 이러한 진보된 인공지능 기술이 없었을까? 2016년에 인공지능의 진보를 전 세계 사람들에게 각인시킨 ‘구글 딥마인드 챌린지 매치(이세돌-알파고의 바둑 대국)’ 이전에는 사람들이 인공지능 응용 분야에 대해 생각하지 않았던 것일까? 인공지능이 숨 쉬듯 주위에 존재하는 요즘엔 많은 사람이 알고 있을 이야기지만, 인공지능의 근본 원리는 1940년대에 제안됐으며, 그 실용성은 1970년대부터 2000년대 초까지 제프리 힌턴(Geoffrey Hinton) 연구 그룹에서 발표한 제한된 볼츠만 머신*, 역전파 알고리즘* 이론 등으로 이미 확보됐다. 오래전부터 인공지능의 이론은 확립돼 있었으나 그 응용 분야가 비교적 최근에야 발전하기 시작한 이유는, 인공지능 구현을 위한 연산 기능의 한계 및 데이터(신경망 가중치 및 결과값 등) 저장에 필요한 하드웨어 리소스의 한계 때문이었다.

* NPU(Neural Processing Unit, 신경망처리장치) : 머신러닝 구동에 최적화된 프로세서. 소프트웨어를 통해 인공신경망을 만들어 학습해야 하는 GPU와 달리 하드웨어 칩 단위에서 인공신경망을 구현하고자 했다는 특징이 있다.
* 제한된 볼츠만 머신(Restricted Boltzmann Machine, RBM) : 가시층 노드와 은닉층 간에 간선이 없는 볼츠만 머신으로 입력 집합에 대한 확률 분포를 학습할 수 있는 생성 확률적 인공 신경망이다.
* 역전파 알고리즘(Backpropagation algorithm) : 다층 구조를 가진 신경망의 머신 러닝에 활용되는 통계적 기법의 하나로, 예측값과 실제값의 차이인 오차를 계산해 이를 다시 반영해 가중치를 다시 설정하는 학습 방식

▲ 연산 및 메모리 접근에 따른 에너지 소모

우리가 흔하게 알고 있는 CPU와 GPU가 결국 최적의 MVM 연산을 지원하지 못하므로, 학계 및 산업계에서는 신속하고 에너지 효율적인 연산을 지원하기 위해 ASIC* 설계를 기반으로 한 연산 가속기들을 개발하고 있다. ASIC 칩들은 주로 디지털 연산 가속기이다. 큰 크기의 MVM에 특화된 연산 유닛을 많이 구현하고, 인공지능 네트워크 구조에 따라 가변 크기 MVM도 쉽게 지원할 수 있다.

그렇다면 디지털 연산 가속기는 인공지능 연산 하드웨어 자원을 확보할 수 있는 궁극적 해결책일까? 앞서 언급했듯, 인공지능 하드웨어의 요점은 MVM을 얼마나 효율적으로 빠르게 연산하는지에 달려있다. CPU, GPU, ASIC 기반 디지털 연산 가속기로 넘어오면서 연산 유닛의 효율성과 연산 속도는 증가했는데, 전체 시스템의 연산 효율성도 그에 정비례해 증가했을까? 이를 계산하기 위해서는 연산 전체 동작에 어떤 에너지가 얼마나 드는지 알아볼 필요가 있다.

컴퓨터의 일반적 구조인 폰 노이만 구조*에서는 연산 장치가 메모리에서 데이터를 읽어와 처리하고 다시 메모리로 보내는 방식으로 동작한다. MVM 연산은 인공지능 신경망의 입력과 메모리에 저장된 가중치 간의 곱 연산이므로, 1) 입력과 가중치를 연산 유닛까지 전달하는 에너지 및 2) 이를 이용한 연산 에너지가 전체 시스템의 연산 효율성을 결정한다. 이때, 입력은 외부에서 연산 유닛으로 직접 전달되므로 에너지 비중이 낮은 편이지만, 가중치의 경우 외부 D램에서 연산 유닛까지 데이터를 전달하는 데 연산 에너지 대비 약 500배 이상을 소모한다. 2020년 11월 미국 DARPA 워크숍에서 필립 웡(Philip Wong) 스탠퍼드대학교 교수도 메모리에서의 에너지 소모가 최대 연산 에너지 효율성을 제한한다고 했다. 즉, 우리가 연산 에너지를 줄이는 등 연산 효율성을 높이기 위해 노력했으나, 사실은 가중치를 메모리에서 읽고 쓰는 데 대부분의 에너지가 쓰이고 있었다. 이는 전체 시스템의 연산 효율성을 개선하기 위해 메모리의 읽기/쓰기 횟수가 줄어야 함을 의미한다.

* ASIC (Application Specific Integrated Circuit) : 일반적인 집적회로와 달리 특정한 제품에 사용할 목적으로 설계된 비메모리 반도체 칩
* 폰 노이만 구조 (Von Neumann Architecture) : 주기억 장치, 중앙 처리 장치, 입출력 장치의 전형적인 3단계 구조로 이루어진 프로그램 내장형 컴퓨터 구조. 오늘날 사용하고 있는 대부분의 컴퓨터가 이 기본 구조를 따르고 있지만, 병목 현상으로 인해 고속 컴퓨터의 설계에서 한계를 보인다.

▲ 폰 노이만 구조에서 PIM 연산 구조로의 변화

연산 효율성을 위한 PIM 기반 가속기의 두 가지 구조: IMC, NMC

이에 착안해 등장한 것이 폰 노이만 구조를 탈피한 PIM(Processing In Memory) 기반 연산 가속기다. PIM은 메모리 내에서 연산을 수행하는 구조로, 가중치는 메모리 내에 그대로 존재하고 입력이 전달돼, 연산을 메모리에서 수행 후 그 결괏값만을 출력해주는 방식이다. 그리고 이러한 방식은 크게 메모리 내 연산(IMC)*과 메모리 인접 연산(NMC)*으로 나뉜다. 이는 PIM의 의미를 메모리 회로 내 연산으로 볼 것이냐, 메모리 모듈 내 연산으로 볼 것이냐의 차이로 구분할 수 있다. IMC는 메모리 회로를 연산이 가능하도록 수정 설계해 ASIC으로 구현하는 것이고, NMC는 메모리 모듈(메모리 칩을 포함한 반도체 기판) 내에서 HBM* 등 가중치를 위한 고집적 메모리와 MVM에 특화된 ASIC이 같이 집적된 것을 말한다. 참고로 설명하자면, 학계에서 PIM은 주로 IMC의 의미로 사용하며, 산업계에서는 NMC의 의미로 사용된다.

▲ 메모리 내 연산(IMC, In-Memory Computing) 모델 예시

기존 폰 노이만 구조의 경우 CPU와 메모리 간 연결이 메인보드-커넥터-메모리 모듈(DIMM)* 등 다수의 PCB*로 구성돼 있다. 반면 NMC의 경우 SiP*, 3D IC 등을 활용해 PCB 레벨이 아닌 단일 패키지 내에서 메모리와 연산 ASIC이 연결돼 가중치 접근을 위한 메모리 읽기/쓰기에 소모되는 에너지 및 지연시간을 크게 줄였다. IMC의 경우 NMC 방식에서 더 나아가 메모리 내에서 연산을 수행함으로써 앞서 말한 에너지 소모와 지연시간을 획기적으로 줄인 연산 방식이다.

그렇다면 IMC 방식이 더 효율적으로 보이는데 왜 IMC와 NMC 방식은 공존하고 있을까? 여기에는 연산 크기의 가변성, 연산 및 메모리 집적도, 대역폭 등의 이유가 작용한다. NMC는 한국의 강점인 고집적 메모리 반도체를 그대로 활용하면서 MVM 크기를 가변적으로 지원하는 연산 ASIC을 인접 배치 및 추가하는 것만으로 PIM 연산 구조를 지원할 수 있다. 반면 IMC는 효율성은 뛰어나지만 기존 메모리 회로를 연산에 용이하도록 수정 설계할 필요가 있어 높은 연산 효율성 대비 집적도 면에서 손해를 보고, 이는 가중치 저장 용량의 손실 및 대역폭의 하락으로도 이어진다.

▲ 메모리 인접 연산(NMC, Near-Memory Computing)의 모델 예시

* 메모리 내 연산(IMC, In-Memory Computing) : 메모리가 직접 연산하는 기술, 주 연산 장치로 데이터를 이동하지 않고도 연산이 가능하기 때문에 매우 빠른 데이터 처리가 가능하며, 방대한 데이터를 빠르게 처리하고 분석하는 데 유리하다.
* 메모리 인접 연산(NMC, Near-Memory Computing) : IC패키지에 메모리와 연산 장치를 통합해 더 빠른 데이터 처리를 가능하게 하는 방법
* HBM(High Bandwidth Memory) : 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품
* 메인보드-커넥터-메모리 모듈(Dual In-line Memory Module, DIMM) : 여러 개의 DRAM 칩을 회로 기판 위에 탑재한 메모리 모듈로, 컴퓨터의 주기억 메모리로 쓰인다.
* PCB((Printed Circuit Board) : 전자 회로로 구성된 반도체 기판. 대부분의 전자 기기에 사용된다.
* SiP(System in Package) : 여러 블록을 개별적인 칩으로 구현한 후 수동 소자들까지 한꺼번에 단일 패키지에 결합한 하나의 완전한 시스템

PIM 성능을 결정짓는 가중치 용량과 이에 따른 연산 가속기 개발

한편, 연산 효율 외에도 저장 용량은 PIM에서의 중요한 성능 지표 중 하나다. 최근 오픈AI에서 GPT-3.5를 기반으로 개발한 챗GPT는 1,750억 개 이상의 가중치로 구성돼 있다. 그리고 각 가중치가 16비트 부동소수점(FP16)을 사용하므로 가중치 저장 용량에만 350GB 정도가 필요하다. 연산에 필요한 350GB의 가중치를 동시에 로드한 채로 연산할 수 없으므로, 결국 NMC의 연산 ASIC 또는 IMC 회로에서 많은 가중치를 활용할 수 있어야 가중치 업데이트 및 중간 결괏값 저장 횟수를 줄일 수 있다. 이에 따라 전체 동작 중 연산 동작을 수행하는 비율이 높아지고, 데이터 전송에 쓰이는 에너지는 줄어들게 되는 것이다. 이것만 고려하면 고집적 HBM을 활용한 NMC 기반 PIM 시스템이 더 주효한 접근으로 보인다.

그렇다면 큰 규모의 인공지능 시스템 외에, 엣지 AI에서는 어떨까? 엣지 AI에서는 단일 칩 내 모든 가중치를 탑재할 수 있는 응용 분야가 많이 존재한다. 엣지 AI는 배터리 기반으로 동작하는 경우가 많으며 초저전력 동작을 요구하기 때문에 메모리-연산 유닛 간의 데이터 이동에 소모되는 전력을 수용할 수 없는 경우가 많다. 따라서 말단 장치에서는 IMC와 같이 연산 에너지 효율이 높은 회로에 모든 가중치를 선탑재한 말단 엣지 AI 구현이 필요하다. 이때, 엣지 AI의 고도화를 위해서는 IMC 기반 PIM 시스템의 연산 효율성과 더불어 선탑재가 가능한 가중치 용량이 중요한 역할을 한다.

업계에서의 고도 인공지능을 위한 NMC 기반 PIM 시스템 연구 개발에 발맞춰, 학계에서는 엣지 디바이스 및 인공지능의 고도화를 위해 SRAM*, eDRAM*, D램 등의 휘발성 메모리 기반 PIM 연산 가속기와 RRAM*, PCRAM*, MRAM* 등의 차세대 비휘발성 메모리 기반 PIM 연산 가속기 설계 연구를 진행하고 있다. 휘발성 메모리 중 SRAM의 경우 CMOS 공정의 접근 용이성으로 인해 활발한 연구가 수행되고 있다. 전류 방식 연산부터 저항비, 전하 공유(Charge Sharing), 용량성 결합(capacitive coupling) 방식 등이 활용되고 있으며, 그중 커패시터*의 낮은 공정 편차를 활용하는 전하 공유 및 용량성 결합 방식이 SRAM-PIM 연산 가속기의 주된 연구 흐름이라고 할 수 있다.

▲ SRAM 기반 PIM 연산 가속기의 연산 방식 종류 (출처: B. Zhang et al., “PIMCA: A Programmable In-Memory Computing Accelerator for Energy-Efficient DNN Inference” IEEE Journal of Solid-State Circuits, pp. 1–14, 2022, doi: 10.1109/JSSC.2022.3211290)

비휘발성 메모리는 휘발성 메모리 대비 높은 집적도와 연산 효율성을 가지고 있고, 가중치 유지를 위한 전원 유지의 필요가 없어, 초저전력 엣지 디바이스에 더 적합하다. 비휘발성 메모리 중 MRAM은 다른 비휘발성 메모리 대비 낮은 ON/OFF Ratio(1과 0을 표현할 때의 저항값 비율)로 인해 다중 비트 인코딩 등에 불리한 편이어서, RRAM과 PCRAM 등의 높은 ON/OFF Ratio를 활용한 PIM 연산 가속기들이 많이 연구되고 있다. 다만 비휘발성 메모리는 소자별 저항값 편차가 크다는 점 등의 낮은 기술 성숙도로 인해 부속 회로 구현이 추가로 필요하다. 이 때문에 PIM 연산 가속기의 전체 면적당 집적도 및 연산 효율성 면에서 SRAM 등 휘발성 메모리 기반 PIM 연산 가속기에 뒤처지고 있으나, 소자의 기술 성숙도 측면에서 발전 가능성이 높다. 이를 반영해 한국에서도 많은 연구개발(R&D) 사업을 진행 중이다.

* SRAM (Static Random-Access Memory) : 전원이 공급되는 동안 데이터를 온전히 저장하는 메모리, 단 몇 초 만에 데이터가 사라지는 DRAM과 차이점이 있다.
* eDRAM (Embedded DRAM) : ASIC 또는 마이크로프로세서의 동일한 다이 또는 멀티 치프 모듈 (MCM)에 통합된 DRAM
* RRAM (Resistive Random-Access Memory, 저항성 메모리) : 유전체 고형 상태 재료에 대한 저항을 변경해 작동하는 비휘발성 RAM의 유형
* PCRAM (Phase-Change RAM, 상변화메모리) : 일부 재료의 변화를 이용해 데이터를 저장하는 반도체 메모리. PCM은 플래시 메모리와 DRAM의 특성을 모두 갖추고 있으며, 플래시 메모리와 마찬가지로 비휘발성이므로 전원이 차단돼도 정보가 손실되지 않는다. DRAM과 마찬가지로 PCM은 데이터를 빠르게 처리하고 전력 효율이 높다는 특징이 있다.
* MRAM (Magnetoresistive Random-Access Memory, 자기저항성 메모리) : 데이터 저장에 대한 자기 저항을 이용하는 비휘발성 반도체 메모리의 일종. 플래시 메모리처럼 MRAM은 전원이 차단돼도 정보가 손실되지 않고, DRAM처럼 데이터를 빠르게 처리해 전력 효율이 높다.
* 커패시터 (capacitor): 메모리 반도체에서 데이터가 저장되는 장치를 지칭하며, 데이터가 담기는 방이라고 볼 수 있다.

더 나은 인공지능 실현을 위한 과제

과거 인공지능 개발은 앞서간 이론과 그것을 실현하기에는 부족한 하드웨어 간의 간극에 의해 발목이 잡혔다. 시간이 지남에 따라 하드웨어에서 CPU, GPU, 구글의 TPU* 등의 디지털 연산 가속기가 개발돼 오면서 인공지능 실현에 걸림돌이 되던 연산량 부분에서 획기적인 개선이 이뤄졌다. 여기에 더 나아가 PIM 연산 가속기의 등장으로 기존에 데이터 저장만을 담당하던 메모리가 이제는 연산을 포함한 두뇌의 역할에 다가서고 있다. 하지만 연산 분해능, 저장 용량, 지연 시간, 전력 소모 등 회로의 특성이 명확하지 않아, 지금까지 PIM 연산 가속기 연구는 갈 길이 멀다. 이를 극복하기 위해 앞으로는 하드웨어 영역에서 인공지능 알고리즘 지원을 위한 성능 개선 연구가 꾸준히 이뤄져야 한다. 또한 알고리즘 영역에서도 PIM 연산 가속기 특성을 고려한 인공지능 신경망의 최적화가 필요하며, 이를 기반으로 회로와 알고리즘의 결합이 PIM 연산 가속기 연구에서의 중요한 축이 될 것이다.

* TPU(Tensor Processing Units) : 구글이 자체 개발한 인공지능 전문 칩으로, 구글의 AI 기계 학습 엔진인 텐서 플로우에 최적화돼 있다. 2016년 1세대, 2017년 2세대 TPU가 공개됐다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 2편] 챗GPT 등 인공지능의 연산을 높여준 세계 최고 성능 D램, HBM의 등장(2/7)

정인성 작가 — Mon, 13 Mar 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 최근 전 세계를 가장 뜨겁게 달구는 키워드다. 그래서 SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재할 예정이다.

이번 연재는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 기존의 프로그램이 인공지능으로 바뀌면서 0과 1의 세계가 구체적으로 어떻게 변화하는 것인지 알아보고, 이를 실행하는 데 필수적인 반도체는 어떤 중요한 역할을 해야 하는지 확인해볼 것이다. 이를 통해 반도체는 인공지능을 포함한 새로운 ICT 기술의 등장에도 두려워하기보다는 세상을 변화시킬 혁명의 주인공이 될 것이다. (필자 주)

인공지능 시대의 개막

2012년, 사물 인식 대회였던 이미지넷 챌린지(ImageNet Challenge)에서 이변이 일어난다. 이미지넷 챌린지는 전 세계에 있는 사물 인식 알고리즘에 동일한 데이터를 준 뒤, 주어진 데이터 내에서 누가 더 정확하게 사물을 분류하는지 겨루는 대회다. 2012년 전까지 이 대회는 매해 극히 적은 수준의 정확도 개선이 일어나고 있었지만, 인공신경망 알렉스넷(AlexNet)이 대회에 등장하면서 그 흐름이 바뀐다.

알렉스넷은 수많은 사물 데이터를 인공신경망에 투입함으로써 신경망을 학습시키는 방식으로 만들어졌다. 알렉스넷은 기존의 사물인식 알고리즘과는 다르게 동작했다. 사진에 복잡한 처리를 하고 각종 특징을 뽑아내어 알고리즘에 전해주는 대신, 사진을 그대로 투입하면 인공신경망이 결괏값을 스스로 판단해내는 방식으로 동작했다. 알렉스넷은 대회에서 압도적인 차이로 우승했고, 이후 이미지넷 챌린지의 승자는 전부 인공신경망으로 변화하게 된다. 인공지능의 시대가 열렸음을 보여주는 상징적이고 결정적인 사건이었다.

인공지능이 메모리에 던진 과제

알렉스넷은 처음부터 GPU* 사용을 염두에 두고 만들어진 인공신경망이었다. 앞서 설명했듯 사물 인식 프로그램(인공지능)을 만들기 위해서는 수십억 개의 인공 뉴런 사이 연결 강도를 올바른 값으로 지정해줄 필요가 있다. 하지만 올바른 값은 단 한 번에 찾아낼 수 없다.

* GPU(Graphics Processing Unit) : 각종 대규모 병렬 연산에 강점을 가진 반도체. 본래 그래픽 처리에 사용되었으나, 인공지능 기술이 대규모 병렬 연산을 통해 구현 가능하다는 사실이 알려지면서 최근 인공지능 분야에서 큰 인기를 끌고 있다. GPU와 인공지능의 관계를 더욱 자세히 알고 싶다면 지난 칼럼을 참고바란다.

▲ 이미지넷 챌린지 TOP5 모델의 정확도는 2011년 73.8%를 기록했으나, 2012년 알렉스넷이 등장함에 따라 가파르게 상승, 2016년 93.95%에 다다르게 된다.

연구원들이 찾아낸 방법은 수없이 많은 데이터를 투입해가며 서서히 올바른 값을 찾아가는, 연산이 매우 많이 필요한 과정이었다. 이 과정에서 정확도가 50%에서 51%, 그리고 90% 이상까지 서서히 높아졌다. ‘프로그래밍’이라는 단어보다는 ‘학습’이라는 단어가 더 어울리는 이유이기도 하다.

한편, 인공신경망이 더 많은 사물을 정확하게 구분하기 위해서는 주어진 사진 내에서 더욱 다양한 정보를 뽑아낼 수 있어야 한다. 그렇게 하려면 신경망의 크기를 키우고, 더 많은 데이터를 투입해 학습시켜야 한다. 그러기 위해서는 더 큰 메모리가 필요하다. 실제 알렉스넷 논문에도 메모리 용량의 중요성을 언급하는 부분이 있음을 알 수 있다.

In the end, the network’s size is limited mainly by the amount of memory available on current GPUs and by the amount of training time that we are willing to tolerate.*
* 출처. ImageNet Classification with Deep Convolutional Neural Networks (nips.cc)

이 글에서 알 수 있듯, 네트워크(신경망) 크기를 키우지 못한 이유 중 하나로 메모리 용량을 언급하고 있다. 당시에도 연구팀은 더 큰 메모리와 학습 시간만 주어졌다면, 더 높은 점수를 낼 수 있다고 생각했을 것이다. 메모리가 인공지능 시대에 중요한 역할을 한다는 사실은 이미 11년 전부터 알려져 있던 것이다.

실제로 알렉스넷은 이런 한계를 뛰어넘기 위해 GPU 2개(GTX 580)를 결합하는 테크닉을 사용하는 등 다양한 연구를 해야 했다. 이 문제에 대해 메모리 회사가 내놓은 답은 무엇이었을까?

HBM : 고대역폭 메모리의 부상

메모리는 다양한 특성을 가졌다. 이중 메모리 구매자가 중요하게 살펴보는 특성은 대역폭(Bandwidth), 반응 속도(Latency), 용량(Capacity)이다. 대역폭은 메모리에서 한 번에 빼낼 수 있는 데이터의 양을 의미한다. 반응 속도는 CPU나 GPU의 요청이 들어왔을 때 얼마나 빨리 첫 반응을 할 수 있는지를 뜻한다. 용량은 메모리 안에 얼마나 많은 데이터를 담을 수 있는지를 말한다.

▲ 데이터가 메모리에서 CPU/GPU로 이동하는 모습을 적재물(데이터), 창고(메모리), 공장(CPU/GPU), 그리고 도로의 너비(대역폭)에 비유

메모리를 일종의 데이터 창고라고 한다면, 대역폭은 창고로 들어오는 도로의 너비다. 도로가 넓다면 한 번에 지나다닐 수 있는 자동차 수가 많음으로, 창고에서 많은 양의 데이터를 한 번에 빼낼 수 있다. 반응 속도는 도로 위에서 돌아다니는 자동차들의 속도다. 용량은 창고의 총 크기라고 생각하면 된다.

HBM*은 대역폭과 용량에 중점을 두고, 반응 속도를 다소 양보한 제품이다. 따로 제조된 D램 칩을 여러 개 적층한 뒤, D램에 TSV* 공법을 이용해 칩을 관통하는 전극을 생성하는 것이다.

* HBM(High Bandwidth Memory) : 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품
* TSV(Through Silicon Via) : 수천 개의 미세한 구멍을 뚫고 이를 관통하는 전극으로 여러 개의 칩을 연결해 데이터를 전달한다. 기존 방식 대비 신호 전달 속도가 빠르고, 집적도(Density)를 확보하기도 훨씬 용이함

HBM은 일반 PC용 D램과는 매우 구분되는 장점이 있다. 일단, D램을 여러 개 적층했으므로 기반 면적당 높은 용량을 확보할 수 있다. 그뿐만 아니라 반도체 제조에 가까운 방식인 TSV를 사용하기에 좁은 면적에 여러 D램의 데이터 연결 통로를 촘촘하게 밀집시켜 만들 수 있다. 덕분에 고작 칩 하나 면적 수준에서 메모리 4개 이상의 대역폭을 가진다. 4차선 도로를 짓는 대신 4개 층을 가진 1차선 도로를 만드는 셈이다. 다만, 칩을 적층한 이유로 발열 해소에 문제가 생길 수 있어, 개별 칩의 동작 속도는 약간 줄었다. 이로 인해 반응 속도에서 약간의 손해가 발생한다.

▲ 더 많은 대역폭을 가지는 HBM의 장점

본래 HBM은 고성능 그래픽 처리를 위해 탄생한 제품이다. 그래픽 처리는 모니터에 표시될 수백만 개의 픽셀(Pixel)을 계산해야 하기에 매우 높은 대역폭과 실수 연산 능력을 필요로 했다. 이로 인해 그래픽 처리는 컴퓨터 역사에서 일찌감치 CPU에서 독립하여 GPU, 혹은 VGA라는 이름의 그래픽 전용 가속 카드가 처리하게 발전했다.

메모리 회사들 역시 GPU가 요구하는 고대역폭 메모리를 GDDR(Graphics Double Data Rate)이란 이름으로 꾸준히 공급해 왔다. 그리고 인공지능학자들이 GPU를 이용해 돌파구를 열면서, GPU의 든든한 동반자였던 고대역폭 메모리 역시 날아오르게 된 것이다. 여기에 그래픽 처리를 능가할 정도로 높은 메모리 용량을 요구하게 되면서 HBM이 더욱 빛을 보게 된 것이다.

인공지능에 HBM이 필요한 이유: 학습

인공지능을 만드는 첫 단계는 학습이다. 학습은 과거의 프로그래밍으로 따지면 프로그램 자체를 구현하는 매우 중요한 작업이다. 연구원들은 신경망을 구성하고 난 뒤, 신경망을 초기화하고 본격적으로 학습 작업에 들어간다.

신경망 학습을 위해서 연구원들은 수만~수백만 개의 데이터를 준비한다. 이 데이터는 단순한 사진, 글자 등의 조합이 아니다. 연구원들은 문제-정답으로 한 쌍을 갖춰준 뒤 신경망이 특정 문제를 풀었을 때 오답을 내면 에러를 줄이는 방향으로, 신경망 내부 수백~수백억 개의 뉴런 연결 강도를 조정해 주고, 정답이 나왔을 경우 정답을 더 말하는 방향으로 연결 강도를 조정해 준다. 이는 24시간 내내 GPU를 구동해도 수시간, 수개월이 걸리는 매우 고된 작업이다. 학습 과정에서 각 인공 뉴런 사이의 연결 강도는 수십만 번 이상 변화한다.

당연하지만 이 작업을 빠르게 하기 위해서는 학습 데이터가 최대한 연산 장치에 가까이 있어야 한다. 먼 곳에 있는 학습 데이터를 가져와야 할 경우 학습 데이터를 전송하는 데 너무나 많은 시간이 들기 때문이다. 당연히 GPU 칩과 최대한 가까운 곳에 메모리를 두려 하게 된다. GPU 회사가 HBM의 큰 고객이 될 수밖에 없는 이유다.

또한 짐작할 수 있겠지만, 학습 과정에서 사용되는 메모리 용량은 추론* 시에 사용되는 메모리보다 훨씬 크다. GPU 내부 메모리에는 학습 대상 인공신경망 + 학습시킬 데이터 배치(Batch)* + 각종 연구 개발용 정보 등 다양한 데이터가 들어가야 하기 때문이다. GPU 내부에 한 번에 배치를 많이 넣을수록 학습이 안정적으로 진행될 수 있다. 실제로 신경망의 크기가 1이라고 하면, 학습 데이터에 사용되는 메모리가 4~5 이상 되는 경우도 있다.

* 추론 : 인공신경망이 실제로 문제를 푸는 행위
* 배치(Batch) : 일종의 인공신경망 학습 단위. 데이터의 묶음으로 구성됨

▲ GPU와 메모리가 하는 일, GPU는 메모리에 저장된 인공신경망 일부와 데이터 일부를 지속적으로 가져와 연산(학습 및 추론)하고 중간 산출물과 최종 결과 등을 메모리에 저장하는 과정을 반복한다.

고성능 GPU는 한 번에 처리 가능한 연산량도 크기 때문에, 한 번에 많은 데이터가 GPU 코어에 투입되어야 제 성능을 발휘할 수 있다. 거대한 재고 창고와 공장을 자전거 도로로 연결하면 공장이 쉴 수밖에 없다. 따라서 거대한 공장에는 넓은 도로가 필요하듯, 고성능 GPU 역시 큰 대역폭을 필요로 하는 것이다.

인공지능에 HBM이 필요한 이유 : 추론

한편, HBM은 학습뿐만 아니라 추론에서도 강력한 힘을 발휘하고 있다. 최근 챗GPT 등 초거대 언어 모델이 대두하기 시작했는데, 이들은 추론에도 매우 큰 메모리가 필요하다. 일반적으로 추론용 GPU는 NVIDIA T4 등 학습용 GPU보다는 메모리가 적은 GPU 모델이 사용된다. 하지만 초거대 모델의 경우 8~16GB 정도의 메모리로는 추론을 돌릴 수 없다.

지금 유행하는 챗GPT의 경우 자료형 선택에 따라 320~640GB 정도의 메모리를 사용할 것으로 예상된다. 이는 현재 필자의 작업용 컴퓨터 메모리의 10배 이상인 어마어마한 수치다. 컴퓨터 본체도 아니고, 부속으로 달리는 GPU가 이런 큰 용량을 감당해야 하는 것이다.

혹자는 GPU 대신, 거대한 서버 컴퓨터에 CPU를 탑재한 뒤 일반 메모리를 대량으로 탑재해 추론에 사용하면 되지 않느냐고 생각할지 모른다. 실제로 메모리 용량만 놓고 비교할 경우, CPU에 메모리 640GB가 탑재된 서버가 GPU로 640GB를 확보한 것보다 더 싸다. 하지만 이 경우 추론 속도가 너무 느려 사용하기 힘들어진다. Hugging Face*에 공개된 GPT-2 알고리즘 기준 CPU에서 추론 시 처리당 0.05~0.1초의 시간이 필요했다. 이보다 100배 이상 거대한 GPT-3 모델의 경우, CPU에서 처리당 10초 이상이 소요된다는 의미다. 이는 상업적으로 사용하기 힘든 속도다. 결국 GPU를 엮어서 쓸 수밖에 없는 것이다.
* 참고. Accelerated Inference with Optimum and Transformers Pipelines (huggingface.co)

당연히 이런 대용량 메모리를 GPU에 탑재하기 위해서는, 면적당 메모리 집적도가 매우 높아야 한다. 현실적으로 메모리 회사가 1~2년 만에 D램 칩 자체 밀도를 3~4배 늘리는 것은 불가능하다. 그 때문에 HBM과 같은 면적 대비 밀도가 높은 칩이 필요한 것이다. 물론 HBM을 사용할 경우 GB당 가격은 일반 DDR 메모리보다 훨씬 높아지게 되지만, 인공지능 기술이 가져다주는 매우 높은 부가가치 덕분에 칩의 인기는 매우 높다.

HBM을 사용하는 NVIDIA A100 카드와 GDDR을 사용하는 NVIDIA A6000 카드의 메모리가 사용하는 면적 차이를 보면 그 힘을 알 수 있다. 두 그래픽 카드의 물리적 크기는 동일하지만, 사용 가능한 메모리 용량은 A6000이 24~48GB, A100이 40~80GB다. A100이 2배 가까이 더 크다. 대역폭 역시 A600은 약 800GB/s이지만, A100은 1,900GB/s로 2배 가까이 크다. A6000 대신 A100을 사용할 경우, 동일 컴퓨터에 신경망을 2배 집적할 수 있을 뿐만 아니라 개별 신경망 작동 속도까지 2배로 상승하게 되는 것이다.

▲ 일반 메모리와 HBM 메모리의 인공신경망 구동 비교, GDDR 메모리 등 일반 메모리는 물리적 공간을 크게 차지하기에 GPU 카드 하나의 메모리 용량을 늘리는 데 한계가 있다. 반면 HBM은 동일 면적에서 더 높은 밀도를 가지기에 GPU 카드당 더 많은 메모리를 부착할 수 있고, 더욱 큰 용량의 인공신경망을 담을 수 있다.

HBM은 복잡한 카드 간 연결을 줄여주는 역할도 한다. 이미 알렉스넷에서 봤듯이, GPU 메모리 용량이 부족하면 신경망을 둘로 쪼개 각기 다른 GPU 카드에 탑재해야 한다. 최근 유행하는 초거대신경망은 A100 카드 한 장에 들어가지 못해 동일 카드를 여러 장 묶어 사용해야만 한다. 이로 인해 인공지능 초반에 알렉스넷이 해야 했던 것 이상으로 번거로운 일을 해주어야 할 것이다. 수백 GB의 신경망을 여러 개의 GPU에 나눠 담는 동시에 추론 속도에 큰 영향을 받지 않게 하는 등 여러 테크닉을 구사해야만 한다.

만약 단일 GPU에 탑재된 메모리가 더욱 크다면 이런 번거로움이 줄어든다. HBM은 동일 GPU 카드 면적에 더 높은 메모리를 제공할 수 있기에 꾸준히 인공지능학자들에게 큰 도움이 될 것이다. NVIDIA의 차기 학습용 GPU인 H100의 경우 80GB 메모리부터 시작한다. A100 역시 40GB에서 출발하여 80GB 카드를 출시했으므로 더 큰 메모리를 가진 H100 제품이 나올 것도 예상할 수 있다.

결론

HBM은 인공지능 시대가 열리면서 가장 주목받은 메모리다. 우리는 HBM이 대두하는 과정을 분명하게 이해해야 할 필요가 있다. 본래 메모리 비즈니스의 덕목은 ‘매해 같은 용량을 더 싸게 파는 비즈니스’가 핵심이었다. CPU 기반의 프로그램은 예측할 수 있는 방식으로 발전해 왔고, 매해 더 큰 용량의 메모리를 제공하면 되는 것이었다. 메모리 회사가 해야 할 일은 더 많은 프로그램을, 혹은 용량이 더 큰 동영상을 동시에 수행할 수 있게 하는 것이었다. CPU의 동작 방식상, 이 모든 데이터를 한 번에 접근하려 하진 않을 것이기 때문이다.

하지만 인공지능 기술이 나타나면서 상황이 바뀐다. 인공신경망 기반의 프로그램, 인공지능은 메모리 공간을 크게 차지할 뿐만 아니라, 주어진 시간 내에 접근해야 하는 메모리의 총량도 압도적으로 컸다. 이로 인해 용량 대비 가격이 비싸더라도, 더 큰 용량과 더 큰 대역폭을 제공하는 메모리를 원하게 된 것이다. 본래 메모리에 수백~수천만 원의 지출을 하는 것은 어마어마한 비용이었지만, 부가가치가 높은 인공지능 입장에서는 HBM 가격은 ‘고작 수백만 원’에 불과하다.

우리는 이런 사실을 잘 이해할 필요가 있다. 프로그램, 나아가 IT 환경의 변화는 비즈니스의 가정 자체를 뒤집어 놓을 수 있다는 것이다. 신기술로 인해 ‘대역폭과 총용량’의 가치가 ‘용량당 가격’의 가치를 넘어섰다. 앞으로 새로운 기술들이 나타날 때마다 이 기술은 과연 메모리에 무엇을 요구하게 될지 고민해 봐야 할 시대다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

“챗GPT로 이것까지 해봤습니다” SK하이닉스와 분야 전문가가 함께한 챗GPT 체험기

SK하이닉스 — Wed, 08 Mar 2023 15:00:00 +0000

“스마트폰의 등장과 비견할 만한 혁신입니다.”

세상에 스마트폰이 등장했을 때처럼 놀라운 혁신이 등장했다. 챗GPT(Chat Generated Pre-trained Transformer)의 이야기다. 최근 언론을 비롯해 다양한 플랫폼에서 연일 언급되고 있는 챗GPT는 인류의 미래를 변화시킬 핵심 기술이라는 평가를 받고 있다.

뉴스룸은 다양한 분야에 창작 활동을 챗GPT에 입력하고, 그 결과물에 대한 평가를 전문가들에게 들어보는 시간을 가졌다. 지금부터 챗GPT가 만든 시(문학), 시놉시스(영상), 코딩(파이썬)의 사례와 전문가들의 의견을 들어보자.

일상 너머의 언어, 시(詩)

먼저 챗GPT는 과연 어떻게 시를 쓸까? 사람들이 써놓은 시를 학습해 비슷한 형태의 흉내를 내는 수준이었을까? 챗GPT를 활용해 시를 쓰고, 그 수준이 어느 정도인지 확인해 보기 위해 김종훈 고려대학교 국어국문학과 교수에게 평가를 요청했다.

Q. 챗GPT가 쓴 시에 대한 전반적인 평가 부탁드립니다.

A. 시를 평가할 때는 다양한 기준이 있지만, 쉽게 이해할 수 있도록 간단한 기준을 정해서 평가를 해봤는데요. 첫 번째로는 이 표현을 독자들도 쉽게 쓸 수 있는 표현이냐, 아니냐를 고려해봤고, 두 번째로는 해당 표현의 필연성이 있는가를 기준으로 평가했습니다.

결론부터 말씀드리면, 기대 이상이었다고 할 수 있을 것 같아요. 저 역시도 시를 보고 ‘괜찮은 표현이다’ ‘일상적이지 않은 표현이다’ 생각이 들었던 부분이 많이 있었거든요. 물론, 우리가 일상에서 사용하는 익숙한 표현, 혹은 특정 낱말을 설명하기 위한 산문적인 요소들이 있어서 아쉬움이 있었지만 그래도 이 정도의 시를 만들었다는 것은 아주 놀라운 일이라고 생각합니다.

Q. 챗GPT에 만들어 달라고 한 시, ‘목련의 이름’을 조금 더 자세히 평가해 주시겠어요?

A. 전체적으로 읽어보고 한 구절, 한 구절 읽어봤는데요. 시의 전체 형태를 봤을 땐, 제법 그 형태를 잘 만드는 것 같았습니다. 특히 입력값인 ‘목련의 이름’과 ‘생일’이라는 주제를 표현하기 위해 상당히 노력했다는 느낌도 들었고요.

한 구절씩 살펴보면 특정 표현은 정말 좋다고 느꼈는데요. 첫 문단에서 ‘힘의 상징, 빛의 광선’ ‘5월 어느 날 태어난 갱신의 시간’과 같은 표현으로 목련(매그놀리아)을 설명하는 것은 상당히 놀라운 부분이었습니다.

특히 두 번째 문단에서 ‘은혜로 충만한 삶의 빛나는 본보기’라는 구절은 이걸 읽고 어떤 삶이 은혜로 충만할 것이며, 어떤 본보기가 될 것인지, 그리고 이 표현에 담긴 의미가 무엇인지를 고민하게 만들기도 했습니다. 이는 독자들에게 아주 중요한 요소인데요. 해당 구절 다음에 오는 표현들은 어떤 표현인지, 무엇을 이야기하고자 하는 지를 상상하고 그려볼 수 있기 때문입니다. 비슷한 맥락으로 마지막 문단과 행의 ‘영원히 선포되는 은혜의 상징’도 상당히 인상적인 표현이라고 생각이 드네요.

물론 지나치게 주제를 설명하려고 한다거나 우리가 일상에서 사용하는 표현들이어서 조금 아쉬운 부분이 있기는 했습니다만, 전반적으로 이해가 안 되는 난해한 표현이나 의미 전달이 되지 않는 형태의 시가 나오지 않은 것만으로도 상당히 유의미한 결과물이지 않나 생각합니다.

Q. 마지막으로, 챗GPT와 같은 인공지능이 시와 같은 문학계에 끼칠 영향에 대해 어떻게 전망하시나요?

A. 저는 개인적으로는 인공지능이 우리의 시를 좀 더 높은 수준으로 끌어올릴 수 있다고 생각하고 있습니다. 인공지능이 발전하면서 문학계에서도 인공지능을 활용하고자 하는 움직임이 더욱 많아지고 있는데요. 실제로도 인공지능이 쓴 시를 모아놓은 시집이 발간되기도 했으며, 인공지능과 시인들이 함께 만든 시를 엮은 시집도 등장한 상황입니다.

인공지능의 발전 속도가 워낙 빨라서 조금 놀랍기는 하지만, 인공지능은 우리가 사용하는 일상 너머의 언어를 표현하는 데 뛰어난 능력이 있는 것 같다는 것입니다. 사람들은 보통 우리가 평소 사용하는 언어의 영역, 그 외연을 뛰어넘기 어려워하거든요. 이는 일상 지각 밖에서 표현을 찾아내는 일이니까요. 하지만 인공지능은 각각의 낱말이 갖는 의미와 낱말의 사용 사례 등을 통해 우리가 생각하지 못한 다양한 표현을 만들어내는 능력이 뛰어나다고 느꼈습니다.

이제 시인들도 이런 인공지능의 능력을 활용해보면 좋지 않을까 생각합니다. 인공지능을 통해 새로운 창의력의 모티브를 얻고 시인들은 이러한 모티브를 잘 다듬어서 본인의 창의력을 더욱 발산하는 것이죠. 또한, 인공지능으로 인해 시인들이 위협을 받게 될 것이라는 지적에 대해 저는 오히려 이러한 위협이 시인들에게 좋은 자극이 될 것으로 생각합니다. 시인들은 이제 시를 쓰면서 더욱 많이 고민하겠죠. ‘인공지능도 쓸 수 있는 수준의 시를 쓸 순 없다’라며 기존에 쓰던 시보다 더욱 훌륭한 시를 쓰지 않을까요?

그리고 이렇게 만들어진 훌륭한 시들이 다시 또, 인공지능의 학습 데이터로 들어가게 되고, 인공지능의 수준이 높아지면, 시인들은 또, 이것을 모티브로 더 훌륭한 시를 만들어 낼 수 있다고 생각합니다.

간단하지만 간단치 않은 이야기, 시놉시스(Synopsis)

두 번째는 전체적인 줄거리를 표현하는 영화 시놉시스를 챗GPT는 과연 어떻게 썼을까? 우리는 최근 메모리 반도체 시장을 주제로 챗GPT에 제작해달라 요청했고, 그 결과물을 영화 제작 전문 업체 ‘스튜디오 N’의 손기선 프로듀서에게 요청했다.

▲ 챗GPT가 만든 시놉시스로 만들어 본 이미지 콘티

Q. 챗GPT가 만든 시놉시스, 어떻게 보셨나요?

A. 먼저 저는 이러한 인공지능이 쓴 시놉시스가 평가할 수 있을 정도로 작성됐다는 것 자체가 놀라운데요. 보통 어떠한 이야기의 시작을 살펴보면 인물이 특정 상황에서 어떤 선택을 해야 하는지 고민하는 데서 시작되는 경우가 많거든요. 작가는 인물이 겪을 만한 갈등을 고민하고 이를 이야기로 구성하는 것이죠. 이것은 지금까지는 오직 인간만 가능한 영역이었습니다.

물론 현재 이 결과물로 어떠한 콘텐츠를 만들기에는 아직 부족해 보입니다. 기승전결을 갖추긴 했지만, 캐릭터의 성격이나 사건의 이야기가 쉽게 납득할 수 있는 수준이 아니거든요.

하지만, 챗GPT가 쓴 시놉시스를 보니 머지않아 더욱 발전할 인공지능이 이러한 인간의 영역을 침범할 수도 있겠다는 생각이 들었어요. 좀 더 자세히 설명해 드리자면, 납득하기 어려운 수준이긴 했지만, 챗GPT가 쓴 시놉시스에도 인물의 갈등과 고민, 선택이 존재했으며 이로 인해 사건이 변화하는 등 이야기 자체는 구성이 됐다는 점이 상당히 놀라웠습니다.

Q. 그렇다면, 시놉시스 영역을 챗GPT가 완전히 대체할 수 있을까요?

A. 현재 상황에서는 어려울 수 있습니다. 다만, 지금까지의 발전 속도를 생각해보면 머지않아 정말 사람이 쓴 시놉시스보다 뛰어난 시놉시스가 만들어질 가능성도 있다고 생각합니다.

그리고 인공지능이 쓴 시놉시스의 수준이 빠르게 향상된다면 콘텐츠 업계에서도 굳이 이것을 쓰지 않을 이유는 없다고 생각해요. 결국 더 이상 사람이 시놉시스를 쓰지 않는 날도 올 수 있겠죠. 다만, 살펴봐야 할 것은 챗GPT의 동작 구조입니다. 아무리 챗GPT가 수준 높은 글을 쓰게 되더라도 아무런 주제도, 아무런 키워드도 입력되지 않은 상황에서 시놉시스를 창작하지 않아요. 결국 어떤 키워드를 입력하느냐가 중요해질 것입니다. 결국, 원하는 방향성을 갖춘 시놉시스를 만들도록 하는 일종의 ‘연출’이 사람의 영역이 될 것으로 생각합니다.

언젠가는 챗GPT가 콘텐츠 업계에 혁신을 가져오겠지만, 이런 혁신의 상황에서도 사람들은 어떤 연출을 할 수 있는가, 챗GPT를 얼마나 잘 활용할 수 있는가로 평가받고, 그에 따른 역할을 하게 되지 않을까요?

프로그램이 프로그램을… 코딩하는 ‘챗GPT’

마지막으로 코딩(Coding) 능력을 확인해봤다. 챗GPT의 코드 생성 능력은 빠르고 정확하다는 평가가 있었던 만큼, 실제로 어느 수준인지 확인하기 위해 SK하이닉스 장비/품질분석시스템 김지원 TL에게 챗GPT를 활용한 코딩의 결과물에 대한 평가를 요청했다.

Q. 챗GPT에 간단한 코딩부터 다소 복잡한 코딩까지 입력하셨는데요. 전반적인 평가를 부탁드립니다.

A. 상당히 놀라운 결과를 얻을 수 있었습니다. 천지가 개벽한다는 표현이라면 적절할 것 같은데요. 현재 챗GPT의 코딩 능력을 보고 있자니, 언젠가는 사람이 직접 프로그램을 만들지 않아도 될 날이 올 수도 있겠구나 싶네요. 해외의 한 스타트업 CEO가 언급한 ‘프로그래밍의 종말(The End of Programming)’이라는 표현이 정말 공감되는 수준이었습니다.

특히 저는 ‘자연어 입력 → 프로그램 코드’로 연결되는 진정한 의미의 노코드 툴(No-code Tool)*이 챗GPT를 통해 탄생한 것이 아닐까 싶을 정도로 감탄했습니다. 단순히 코드만 생성해주는 것이 아니라 코드에 대한 설명과 결괏값 예시까지 보여주기 때문에 더욱 놀라운 수준인 것이죠. 저는 프로그래밍은 결국 개발자가 원하는 결과를 얻기 위해 컴퓨터와 대화하는 과정이라고 생각하는데요. 컴퓨터와의 대화 수단으로 사용돼 왔던 것이 과거 ‘0101…’로 만들어지는 이진법으로 시작해 C언어, 파이썬과 같은 프로그래밍 언어를 넘어, 이제는 ‘자연어’가 활용되고 있는 것처럼 느껴졌습니다.

* 노코드 툴(No-code Tool) : 코딩을 모르는 비(非) 개발자, 일반인도 간단히 개발을 할 수 있게 도와주는 도구. 코딩을 최소화, 간소화해 일반인도 개발자와 유사한 수준의 개발이 가능하게 만들어준다.

Q. 현재 챗GPT의 코딩 능력은 어느 정도 수준인가요?

A. 위에서 보여드린 것처럼 간단한 입출력을 갖는 기능의 프로그램이나 널리 알려진 알고리즘 정도는 지금의 챗GPT로도 충분히 처리가 가능한 수준입니다. 챗GPT의 코딩 능력을 더 자세히 살펴보기 위해 유명 코딩 문제은행에서 구분하는 0~5단계의 난이도 별 문제들을 활용해 테스트해보니 현재 챗GPT의 코딩 수준은 2단계(한글 입력 기준) 정도인데요. 실제 IT 기업들이 개발자를 뽑을 때 진행하는 코딩 면접의 문제가 1~4단계 수준인 것을 감안하면 단 몇 초 만에 2단계 수준의 결과물을 만드는 것은 상당한 수준이죠. 더 놀라운 점은 챗GPT가 생성할 수 있는 프로그래밍 언어가 수십 개 이상*이라는 점입니다. 효율성 측면에서는 그야말로 압도적이라고 볼 수 있을 것 같습니다.

* 챗GPT로 생성할 수 있는 프로그래밍 언어 리스트 : C, Python, JAVA, JavaScript, PHP, Ruby, Swift, Kotlin, Rust, Go, Perl, Lua, TypeScript, Scala, Dart, Julia, Shell script, R, MATLAB, SAS, Visual Basic, COBOL, FORTRAN, Lisp, Prolog 등

특히 프로그래밍을 하다 보면 요구사항이 변경되기도 하고, 예외 처리를 추가해야 하거나 성능을 개선해야 하는 등 다양한 변화가 반복적으로 필요한데요. 이러한 변화를 시도하는 과정에서도 챗GPT는 과거에 입력했던 내용들을 잊지 않고 새롭게 생성하는 코드에도 적용해 주는 것이 정말 인상적이었습니다.

Q. 챗GPT에서 다소 아쉬웠던 점이나 개선이 필요한 점은 무엇이 있었나요?

A. 현재 챗GPT를 포함한 생성형 인공지능(Generative AI) 기반의 모든 대규모 언어 모델에는 몇 가지 해결해야 할 문제가 있는데요. 그중 가장 큰 문제는 ‘할루시네이션*’ 에러가 발생한다는 것입니다. 이러한 할루시네이션 현상은 인공지능 모델이 내는 결과가 확률(0~100%)에 기반하기 때문인데요. 사실관계의 확인보다는 다음에 오는 결과의 확률이 얼마나 높은가를 기준으로 하므로 사실관계와 달라도 이것을 사실인 것처럼 표현하는 것이죠.

이와 함께 ‘표절과 저작권’이라는 윤리 문제나, 현재 수준에서 한국어에 대한 부족한 지원과 같은 문제들은 아직도 해결이 필요한 상황입니다. 위에서 언급한 문제들은 아직 뾰족한 해결책이 없어서 아직은 더 지켜봐야 한다는 것이 저의 개인적인 생각입니다. 물론, 압도적으로 빠른 속도와 다양한 프로그래밍 언어를 지원한다는 점을 고려해본다면 확실히 엄청난 성능인 것은 분명하고요.

* 할루시네이션(Hallucinations, 환각) 에러 : 생성형 인공지능이 모르는 것을 그럴듯한 표현으로 아는 척하는 현상

Q. 더욱 발전된 챗GPT가 프로그래밍 분야에 끼칠 영향에 대해서 전망해주신다면?

A. 사실 이러한 혁신과 변화가 챗GPT가 처음은 아닙니다. 앞서 말씀드렸던 노코드 툴의 경우에도 몇 년 전부터 이미 유행하고 있고, 챗GPT의 이전 모델인 GPT-3를 활용한 코드 생성 인공지능도 이미 선보여진 바 있죠. 이외에도 구글(알파코드)이나 마이크로소프트(코덱스), 네이버(클로바스튜디오) 등에서도 인공지능을 활용한 프로그래밍 서비스를 제공하고 있습니다.

저는 이러한 변화가 긍정적으로 작용할 것으로 생각하는데요. 개발자들은 끝없는 반복 작업에 고생하지 않아도 될 것이며, 무한한 모방과 학습을 통해 얻어지는 이러한 창의성으로 혁신을 만들 수 있을 것입니다. 물론, 인공지능 기술이 더욱 발전함에 따라 향후에는 단순한 프로그래머보다는 인공지능과 잘 소통할 수 있는 인공지능 프롬프트 엔지니어(AI Prompt Engineer)가 더 주목받을 수도 있겠죠.

국내 기업도 챗GPT 서비스에서 ‘두각’

지금까지 세 가지 사례를 통해 챗GPT의 수준과 향후 성장성을 살펴보았다. 이러한 챗GPT의 뛰어난 성능을 적극 활용하는 국내 기업들도 있다. SK텔레콤은 챗GPT 기반의 인공지능 대화 서비스 에이닷(A.)을 통해 최적화된 인공지능 서비스를 제공하고 있다. 특히, 에이닷을 위해 자체 기술로 제작한 슈퍼컴퓨터 타이탄(TITAN)을 구축하기도 했다. 에이닷 서비스를 담당하는 김승식 SK텔레콤 GLM모델링팀 매니저는 “챗GPT가 자연어 처리 분야에서 큰 주목을 받고 있는데, 에이닷은 자연어 처리 능력에 더해 한국어에 특화된 모델인 점이 강점이다”라며 “한국어 학습에 있어서는 더 높은 이해력과 활용도를 기대할 수 있을 것”이라고 밝히기도 했다.

Q. 최근 뜨거운 관심을 받고 있는 챗GPT 기반의 인공지능 서비스 ‘에이닷’에 대한 간단한 설명 부탁드립니다.

A. 에이닷은 GPT-3 모델을 기반으로 하는 인공지능 대화 서비스인데요. 일상 대화 형식의 사용자 인터페이스를 통해 사용자와 인공지능의 자연스러운 대화를 이어갈 수 있습니다. 모델에 학습된 다양한 분야의 지식과 정보를 전달할 뿐 아니라 사용자 맞춤형 서비스로 원하는 콘텐츠를 제공하기도 합니다.

저희 에이닷은 ‘사용자 교감을 통해 성장하며 진화하는 서비스’를 지향하고 있는데요. 사용자와 높은 수준의 ‘지식 대화’, 친구와 대화하는 듯한 ‘감성 대화’ 사용자가 원하는 서비스를 더 쉽게 제공할 수 있도록 하는 ‘목적 대화’에 집중하고 있습니다.

슈퍼컴퓨터 타이탄(TITAN)의 실제 모습(출처 : SK텔레콤)

Q. 인공지능 서비스를 위해 구축한 ‘타이탄’에 대해서도 자세히 설명해 주시겠어요?

A. 네. 앞서 말씀드린 대로 타이탄은 에이닷을 위해 구축한 슈퍼컴퓨터인데요. 국내에서 가장 강력한 GPU 기반의 슈퍼컴퓨터로 하드웨어와 소프트웨어 측면에서 봤을 때 과학 기술 연산에 초점이 맞춰진 그동안의 슈퍼컴퓨터와 다르게 인공지능 구동에 최적화된 슈퍼컴퓨터로 이해하시면 될 것 같습니다. 특히, 저희 SK텔레콤 자체 기술로 만든 슈퍼컴퓨터이기 때문에 추후 개발에 따른 인공지능의 변화에 발 빠르게 대응할 수 있다는 장점이 있습니다.

에이닷이 거대 언어 모델에 기반을 둔 서비스이기 때문에 모델을 학습하기 위해 대량의 GPU 리소스를 필요로 하는데요. 이 때문에 타이탄에서는 1,040개의 NVIDIA A100 80G 제품을 사용하고 있습니다. 해당 제품에는 SK하이닉스의 HBM2E가 적용돼 있는데요. HBM2E는 초당 2테라바이트(TB) 이상의 메모리 대역폭 제공을 통해 더 빠른 데이터 처리를 돕고 있습니다. 이는 용량뿐 아니라 대역폭 측면에서도 국내에 구축된 슈퍼컴퓨터 중 가장 뛰어난 수준입니다.

결국 ‘인공지능 반도체’가 핵심

결국 수많은 인공지능을 제대로 구현하기 위해선 반도체가 꼭 필요하다. 인공지능은 엄청난 양의 데이터를 최대한 빠르고 효율적으로 처리해야 하는데, 이러한 데이터 처리는 메모리 칩과 같은 하드웨어에서 담당하고 있기 때문이다.

그렇다면 인공지능을 구현하는 과정에서 반도체는 어떤 역할을 하게 될까? 인공지능과 반도체의 상관관계를 SK하이닉스의 제품을 기준으로 살펴보도록 하자.

SK하이닉스에서 생산하는 많은 반도체 중에서도 ‘인공지능 반도체’로 주목받고 있는 것은 HBM과 PIM이다. 이 두 반도체가 무엇인지 살펴보고, 인공지능을 구현하기 위해 어떤 역할을 하는지 알아보기 위해 SK하이닉스 이현배 TL(HBM기술전략)과 장택완 TL(Solution AT)과의 미니 인터뷰를 준비했다.

Q. 최근 챗GPT 등 인공지능이 높은 관심을 받으면서 PIM과 HBM 등 이른바 ‘인공지능 반도체’라 불리는 제품들이 주목받고 있는데요. 각각 해당 제품에 대해서 간단히 설명해주세요.

장택완 TL 지능형 메모리라고도 불리는 PIM(Processor-In-Memory)은 CPU에서 수행하는 연산 작업의 일부를 메모리에서 직접 수행할 수 있도록 만든 제품인데요. 엄청난 양의 데이터를 처리해야 하는 인공지능 컴퓨팅 과정에서 데이터 이동 간 발생하는 병목현상을 제거하는 데 아주 효과적인 제품입니다.

특히 PIM은 메모리에서 CPU로 데이터가 이동하는 것을 줄여, 컴퓨터의 전력 소모도 줄일 수 있는 제품이기도 합니다. 2022년 2월 저희 SK하이닉스가 개발한 PIM 제품인 GDDR6-AiM은 메모리 사용이 많이 필요한 연산에서 최대 16배 빠른 속도를 낼 수 있으며, 전력 소모 역시 80% 절감할 수 있습니다.

이현배 TL 여러 개의 DRAM Core를 TSV(Through Si Via, 실리콘 관통 전극) 적층이라는 고도의 기술로 구현한 것이 HBM(High Bandwidth Memory)인데요. 일반적인 DRAM보다 압도적으로 높은 성능의 제품이라고 생각하시면 좋을 것 같습니다. 챗 GPT와 같은 인공지능은 GPU(Graphic Process Unit) 등을 통해 아주 방대한 양의 데이터를 복잡한 연산을 통해 처리하는데요. 여기서 이런 방대한 양의 데이터를 일시적으로 처리할 수 있는 고효율/고성능 메모리인 것이죠.

더 많은 데이터를 더 빠르게 처리하는 과정에 가장 큰 문제는 데이터 이동 간 발생하는 병목현상인데요. HBM은 더 빠른 동작 속도를 자랑하면서도 고대역폭을 제공함으로써 더 많은 데이터가 동시에 이동할 수 있도록 하고 있습니다. 인공지능을 구현하기 위해 최적의 제품입니다.

Q. ‘인공지능 반도체’의 미래는 무엇이라고 생각하시나요?

장택완 TL 미래의 초거대 인공지능 모델에서는 학습뿐만 아니라 ‘추론’ 과정도 상당히 중요합니다. 추론 과정에서 메모리 접근이 빈번하게 발생하기 때문에 결국, 메모리 자체에서 연산이 가능한 PIM은 뛰어난 성능을 보일 수밖에 없죠. 결국 PIM과 같은 인공지능 반도체는 필수 요소이고 그 필요 수량은 지속 성장한다고 말할 수 있습니다.

Q. 챗GPT와 같은 인공지능의 열풍이 반도체 업계에 끼치는 영향은 무엇이 있을까요?

이현배 TL 우리 인류는 지속해 방대한 양의 데이터를 효과적으로 처리하고자 하는 니즈가 있었습니다. 방대한 데이터를 학습해 구현에 성공한 지금의 인공지능이 이러한 니즈를 방증하는 결과물이기도 하죠. 결국 더 많은 데이터를 생성하고, 처리하기 위해 메모리 반도체에 대한 수요는 더욱 늘어날 것으로 생각합니다.

[인공지능과 반도체 1편] 챗GPT 등 인공지능의 시대 : 프로그래밍과 인공지능, 그리고 GPU의 등장 (1/7)

정인성 작가 — Thu, 23 Feb 2023 15:00:00 +0000

전통적 프로그램이 동작하는 방식

우리는 이미 20년 전에도 컴퓨터 없는 세상을 상상할 수 없었다. 21세기 초, 인터넷 뱅킹이 생겨나기 시작했고, 각종 인터넷 쇼핑몰이 생겨났다. 수많은 회사가 엑셀과 같은 스프레드시트 프로그램을 사용해 회계 작업의 효율성을 높였고, 워드프로세서 프로그램들을 통해 수기 작업을 대체했다. 이후에는 개별 컴퓨터에 보관되던 작업물이 중앙 서버에 집중되기 시작했고, 각 직원은 자신의 물리적 위치에 구애받지 않고 일할 수 있게 됐다. 그렇다면 의문이 하나 생길 것이다. 대체 프로그램이란 무엇인가?

간단한 예를 들어 보자. 한 직원이 문서 내의 모든 행에 있는 숫자를 합하는 프로그램을 만들고 싶어 한다고 가정해보겠다. 그리고 현재 문서가 다섯 줄이라면 어떻게 해야 할까? 제일 첫 단계는 일단 ‘사람이라면 어떻게 하는지’ 고민하는 것이다. 아마도 마음속에 제일 먼저 떠오르는 것은 무언가를 ‘다섯 번 반복’하면 된다는 사실일 것이다.

▲ 그림 1 : 무언가를 다섯 번 반복하기 위한 코드의 흐름

하지만 이렇게 다섯 번 반복해서는 의미가 없다. 수를 모두 합해야 하기 때문이다. 반복할 때마다 사라지지 않고 누적되는 어떤 값을 만들어야 한다. 따라서 프로그램을 다음과 같이 개조할 수 있다.

▲ 그림 2 : 다섯 줄의 숫자를 합하는 프로그램의 흐름

해냈다! 드디어 프로그램의 구조를 만들었다. 이제 이 순서도에 맞춰서 프로그래밍 언어로 코드를 만들면 된다. 파이썬(Python)*이라는 프로그래밍 언어로 만든다면 아래와 같은 모습이 될 것이다. 프로그래밍 언어를 모르는 사람이라도, 아래 코드를 읽는 것에는 큰 어려움이 없을 것이다.

* 파이썬(Python) : 귀도 반 로썸(Guido van Rossum)이 개발한 프로그래밍 언어. 초보자도 사용하기 편하다는 특징이 있다.

▲ 그림 3 : 완성된 다섯 줄의 숫자를 합하는 파이썬 프로그램 코드

만약 지금 만든 프로그램을 다섯 줄의 한계 없이, 어떤 데이터가 입력되더라도 파일의 끝까지 더하는 프로그램으로 개선하고 싶다면 어떻게 해야 할까? 아마도 ‘다섯 번 반복’을 무언가 다른 것으로 바꿔야 한다는 짐작이 가능할 것이다. 다행히도 이미 ‘누군가’가 파일을 읽을 때 EOF(End of File)을 알려주는 기능을 추가했다. 이 기능을 활용하면 된다. 위 그림에서 빨간 네모 친 부분을 바꾸면 된다는 의미다.

이렇게 우리는 전통적 프로그램을 완성하고, 개선까지 해냈다. 우리는 이 과정에서 여러 가지 사실을 알 수 있다. 가장 중요한 것은 순서도를 만드는 것이다. 시키고 싶은 작업이 있다면, 프로그래밍 언어는 달라도 순서도의 모습 자체는 동일하다는 것을 명심해야 한다. 다시 말하면, 순서도를 떠올리지 못하면 프로그램을 만들 수 없다는 의미다.

또, 한 가지 사실은 프로그램을 만드는 과정에서 ‘누군가’ 다른 사람이 만든 코드에 크게 의존하게 된다는 것이다. 사실 위에서 구체적으로 언급하지는 않았지만, EOF 확인 이외에도 ‘파일을 읽는 것’, ‘모니터에 출력하는 것’ 등 역시 다른 누군가가 만든 함수다. 이런 기능들은 운영체제(OS, Operating System)가 제공하기도 하며, 누군가 다른 사람이 특정 프로그래밍 언어로 만들어 두기도 한다. 프로그래머들은 프로그래밍을 시작하기 전 이런 다양한 요소들을 고려한다. 예를 들어, 만약 내가 만들고 싶은 프로그램을 개발하기 위해선 데이터를 매우 특별한 방식으로 바꿔야 하는데, 그 기능이 자바(Java)*에 이미 존재한다면 자바로 코드를 만드는 것이 효율적이다.

우리가 매일 사용하는 워드프로세서, 스프레드시트, 웹 브라우저 등 대부분의 프로그램이 위와 같은 작업을 통해 만들어진 것이다. 그렇다면 인공지능 시대에는 무엇이 바뀌는 것일까?

* 자바(Java) : 오라클(Oracle)사가 개발한 프로그래밍 언어의 일종

신경망과 인공지능

위에서 우리가 살펴본 프로그래밍 방법은 완벽한 것 같지만 사실은 그렇지 않다. 여기에는 두 가지 문제가 있다. 하나는 프로그램이 스스로 배우지 못한다는 것이다. 우리는 프로그램을 고치기 위해 순서도를 고쳐야 했다. ‘다섯 번 루프’를 ‘EOF로 대체하지 않는 이상, 프로그램은 영원히 파일의 첫 다섯 줄만을 가져와 처리했을 것이다.

더 큰 문제는 따로 있다. 바로 인간이 순서도를 만들지 못하는 프로그램은 만들 수 없다는 것이다. 프로그래밍의 첫 단계를 해내지 못하니 다음 단계로 가지 못하는 것이다.

사진이 입력되면 동물의 종류(개와 고양이)를 구분하는 프로그램을 만들어야 한다고 해 보자. 여러분은 개와 고양이를 어떻게 구분하는가? 아마 바로 떠오르는 것은 주둥이의 모습일 것이다. 그래서 아래와 같은 순서도를 만들었다고 해 보자.

▲ 그림 4 : 개와 고양이를 구분하는 간단한 프로그램의 흐름

그런데 문제가 생긴다. 누군가 동물 주둥이가 가려진 사진을 두 개 가지고 온 것이다. 이제 프로그램이 작동하지 않는다. 프로그래머는 놀라 허겁지겁 새로운 알고리즘을 만들기로 한다. 눈동자의 모양을 확인하는 코드를 추가하면 개와 고양이의 구분이 가능할 것이다. 하지만 새로운 개, 고양이 사진을 가지고 올 때마다 이런 일이 계속 생겨날 것이다. 위와 같은 순서도 기반의 프로그램으로는 도저히 개와 고양이를 구분하는 안정적인 프로그램을 만들 수 없을 것이다. 현실에서는 개와 고양이를 구분하는 눈, 코 등의 요소들을 찾아내는 것도 힘든데, ‘주둥이, 눈동자 모양’만 골라내는 코드를 만드는 것 역시 매우 힘들다. 특정 사진에서는 쉽게 찾아낼 수도 있지만, 수백만 개의 다양한 사진에서 특정 요소를 골라내기는 매우 어려운 일이다.

▲ 그림 5 : 개와 고양이 구분하는 프로그램을 구성하기란 매우 어렵다.

하지만 인간은 사진을 보면 ‘척 보면 딱’ 개와 고양이를 구분해낸다. 스스로 어떻게 구분했는지는 잘 모르지만, 할 수 있다. 그렇다면, 인간과 비슷한 구조의 프로그램을 만든다면 어떻게 동작하는지는 몰라도, 개와 고양이를 잘 구분할 수 있게 될 것이라는 가정이 가능하다. 따라서 아래의 구조와 같은 프로그램을 만들어 보게 된다. 이제 프로그램에는 순서도가 없고, 수 없이 연결된 인공적인 신경세포가 가득하다. 이를 ‘인공신경망’이라 부른다.

인공신경망의 입력 부분에 사진을 투입하면, 출력 부분에서는 개인지 고양이인지가 출력되는 것이다. 이제 프로그래머가 해야 하는 일은 저 수많은(수백만~수백억 개) 신경세포들 사이의 연결 강도를 지정해 주는 것이다. 하지만 순서도가 없으니 각 세포가 뭘 하는 것인지 하는지 알 수가 없다. 개와 고양이를 구분하기위해 첫 번째, 두 번째… 백만 번째 인공 뇌세포는 무엇을 해야 하는 건지 어떻게 알 수 있겠는가? 이 문제로 인해 인공신경망이라는 개념은 1960년대에 처음 등장했음에도 50년 가까운 세월 동안 빛을 보지 못했다. 우리가 학습이라고 부르는 것은 일종의 프로그래밍 방법이다.

▲ 그림 6 : 인공신경망이 동작하는 방식

* 입력층 : 입력을 받아들이는 층
* 은닉층 : 입력층으로부터 입력값을 받아 가중치를 계산하는 부분으로 가중치의 수정으로 인한 학습이 진행되는 층
* 출력층 : 결과를 출력하는 층

오랜 연구 끝에, 과학자들은 역전파(Backpropagation)*, 초깃값 세팅 등 다양한 방법을 개발했다. 위 방법들과 함께 대량의 학습 데이터를 투입할 경우, 우리들이 개별 세포들의 역할을 모르더라도 잘 동작하는 프로그램, 즉 인공지능을 만들 수 있게 된 것이다. 이렇게 해서 새로운 세상이 열리게 됐다. 새로운 이론들을 통해 신경망을 학습시키자, 신경망 내 다양한 은닉층은 각자의 역할을 가질 수 있게 됐다.

* 역전파(Backpropagation) : 맨 마지막 층의 값부터 비교하는 방법으로 학습하면서 차례차례 역으로 원하는 곳까지의 결과값을 얻어내는 과정

이 대목에서 우리는 반도체 엔지니어들이 인공지능 기술을 어떻게 접근해야 하는지 알 수 있다. 예를 들면, 우리가 인공지능의 ‘학습’이라고 부르는 것은 결국 수백만 개가 넘는 인공 뉴런 사이의 연결 세기를 ‘제대로’ 지정해 주는 일이었을 뿐이다. 반도체 엔지니어가 인공지능에 접근하는 방법에 대해 다음 예를 통해 설명해보겠다.

▲ 그림 7 : 인간의 얼굴을 찾아내는 가상의 인공신경망 예

<그림7>의 예는 사람의 얼굴만을 골라내 출력하는 가상의 인공신경망이다. 우리가 이 신경망을 구성한 뒤 학습시키게 되면, 각 층은 대략 위와 같은 역할을 가지게 된다. 일단 입력층에 가까운 은닉층이 원, 가로선, 세로선, 대각선 등 특정 도형들에 활성화가 되게 학습된다. 그다음 은닉층은 인간의 얼굴을 찾기 위해, 눈 코 입 등을 찾으려 한다. 이때 사진 원본 대신 그 전 단계 은닉층이 제공해준 정보를 사용하는 것이다.

눈을 탐지하는 은닉층은 눈이라는 신체 부위의 특징상, 원에는 크게 반응해야 하지만, 세로선에는 거의 반응하지 않아야 할 것이다. 만약 입을 찾아야 한다면, 가로선이 가장 중요하고 세로선은 별로 중요하지 않을 것이다. 과학자들이 발견한 학습 방법론의 의의는 사람이 일일이 눈, 코, 입 등을 얼굴 구분에 중요한 요소를 지정해주지 않아도 데이터만 투입해 주면 자동으로 내부의 신경망이 층을 나눠 위와 같은 역할을 가지게 만들 수 있다는 것이었다.

당연하지만 인공신경망을 키우고 은닉층이 깊어질수록 더욱 세밀한 분석을 할 수 있게 된다. 더 많은 은닉층이 있다면, 대각선에 반응하는 선이 학습 과정에서 생겨날 수 있고, 눈과 코 출력 결과를 또 모아서 눈과 코 사이의 거리를 확인하는 세 번째 은닉층이 생길 수도 있다. 이 과정에서 점점 인간 얼굴을 구성하는 더 많은 요소를 고려할 수 있게 되며, 정확도가 높아지게 되는 것이다.

‘현재 인공지능의 학습이란 것은 수많은 소수점을 변경하고 저장하는 것을 반복하는 것이다.’

이것이 여러분이 반도체를 알기 위해서 프로그램을 이해해야 하는 이유다. 위와 같은 이해를 해야만 이후 중요한 변화가 생겼을 때 대응할 수 있다. 만약 인공지능 기술의 트렌드가 바뀌어, 신경망의 크기가 매우 작아지면? 역전파를 대체할 학습 방법론이 생겨나면? 이런 세세한 트렌드 변화는 프로그램들이 원하는 반도체의 특성을 바꾼다. 만약 ‘인공지능은 큰 메모리가 필요하다’라고 암기식으로 접근한다면, 이때 잘못된 결론을 내리게 될 것이다.

프로그램을 위해 진화해 온 CPU

반도체 입장에서의 프로그램을 조금 더 자세하게 살펴보자. 앞서 우리는 순서도 기반으로 만들어진 프로그램을 살펴봤다. 이런 프로그램들은 그 자체로는 의미가 없으며, CPU(Central Processing Unit, 중앙처리장치)가 있어야만 의미를 가진다. 프로그래머는 앞서 만든 순서도를 컴퓨터가 이해하는 기계어로 변환한 뒤, 메모리에 저장한 다음 CPU에 프로그램을 실행해 달라고 요청하는 것이다.

위 예에서 알 수 있지만, 프로그램을 수행하기 위해서는 크게 세 가지의 연산 종류가 필요함을 알 수 있다. 하나는 덧셈, 뺄셈 등의 사칙연산, 메모리 입출력, 비교와 분기다. 분기라는 것은 조건에 맞춰 선택지를 택하는 것을 의미한다. 인간 입장에서 ‘1부터 5까지 더한다’라는 작업은 컴퓨터 입장에선 아래와 같이 보이게 된다. 일반적으로 CPU 내부에 레지스터라는 고속 저장소가 있으므로, 변수 2개(N, S) 정도는 메모리 접근 없이 처리할 수 있지만 설명을 간단히 하기 위해 이런 부분은 과감히 생략하겠다.

▲ 그림 8 : 연산 칩 입장에서 1에서 5까지 더하는 프로그램의 흐름과 CPU와 메모리의 역할

위 작업을 분석해 보면 메모리 접근과 산술 연산이 매우 빈번하지만, 분기 역시 자주 발생함을 알 수 있다. 이와 마찬가지로 현대 컴퓨터 프로그램의 상당 부분은 분기 처리로 이뤄져 있다. “ESC 버튼을 입력하면 → 현재 프로그램을 종료하라”와 같은 간단한 명령조차 분기다. “출금 버튼을 누르고 대상 계좌가 입력되면, 돈을 송금하라”와 같은 명령도 분기가 필요하다.

그렇다면 CPU가 계속 활용되기 위해서는 어떻게 해야 할까? 위 순서도에 따르면 세 가지 성능이 개선되면 된다. 산술 연산 속도, 분기 처리 속도, 메모리 접근 속도가 높아지면 된다. 위 예에서는 연산을 한 바퀴 돌 때 메모리 접근 6회, 산술 연산 2회, 비교 및 분기 1회가 포함돼 있다. 여기서 만약 메모리 접근과 산술 연산이 회당 1의 시간이 필요하고, 비교 및 분기에 10의 시간이 필요하다고 가정하면, 현재 작업 한 바퀴 수행에 걸리는 시간은 18(6*1+2*1+1*10)이다. 그런데 CPU가 비교 및 분기에 시간이 5로 개선된다면, 이 시간은 13으로 줄어 30% 가까이 빨라질 것이다.

CPU는 다양한 연산 종류와 분기 등이 섞여 있는 프로그램을 처리해야 했기 때문에 이 3가지 능력을 골고루 발전시키는 방향으로 발전했다. CPU 회사들은 미세화의 힘으로 얻어낸 새로운 트랜지스터들을 이런 능력을 향상하기 위해 아낌없이 투자했다. 기존 프로그램이 CPU만 바꾸면 빨라지게 되니, 새로운 수요는 계속 창출될 수 있었다. 지난 수십 년간 인텔의 CPU가 세계를 지배한 이유가 이것이다.

GPU의 등장과 인공지능

하지만 인공지능 기술이 크게 발전하면서 완전히 다른 형태의 프로그래밍이 생겨났다. 인공지능, 정확하게는 인공신경망 기반의 프로그램은 아래와 같은 구조로 움직인다. 과연 프로그램과 반도체의 입장에서 인공지능은 어떤 모습으로 보일까?

▲ 그림 9 : 연산 칩 입장에서 인공신경망의 구성

이 안에는 분기라는 것이 없다. 대신 산술 연산과 메모리 접근이 압도적으로 많다. 위에서 살펴본 CPU 기반 프로그램의 경우, 고작 몇 번의 연산과 분기만 처리하면 결괏값이 출력됐다. 하지만 인공신경망은 수백~수억 번의 연산을 거쳐야 결괏값을 출력할 수 있다. 실제로 인공신경망은 CPU 기반의 일반적 프로그램보다 코드의 크기가 매우 크다. 이런 인공신경망을 빠르고 효율적으로 동작시키기 위해서는 당연히 수천 개의 숫자 연산을 동시에 수행할 수 있으면서, 큰 메모리에 빠르게 접근할 수 있는 능력이 중요시된다. 따라서 위와 같은 프로그램은 CPU에서는 효율이 매우 낮다.

이는 인공지능 과학자들에게 큰 문제였다. 1970년대 인공지능 시도가 좌절된 원인 중 하나이기도 했다. 만약 위 문제가 해결되지 않으면, 이론적 돌파가 생겨도 무용지물이 될 것이다. 이 문제는 반도체 기술의 발전이 해결했다. GPU(Graphics Processing Unit, 그래픽처리장치)가 등장한 것이다.

GPU는 본래 컴퓨터의 그래픽 처리를 전담하기 위해 설계된 반도체 칩이다. GPU는 우리가 보는 화면에 그림을 빠르게 그려주는 일을 한다. 그래픽 작업의 경우, 분기가 필요치 않고 픽셀과 픽셀의 선후관계 없이 위치마다 각각의 색상 값을 계산해서 그려주면 된다. 이처럼 분기 없이 동시에 여러 작업이 가능한 GPU는 그래픽을 구현하는 작업에서 CPU보다 압도적인 효율을 보이며, 빠르게 발전했다. 이 과정에서 우리가 아는 NVIDIA가 떠오르게 된다.

NVIDIA는 그래픽 시장을 장악한 뒤에도 지속해서 GPU의 새로운 용도를 찾아다녔다. 이런 과정의 일환으로 2007년, CUDA 등 GPU 기반 프로그램 개발을 도와주는 도구를 만들어왔다. 그리고 인공지능 기술의 이론적 돌파가 진척되자, 과학자들은 더 빠르게 인공지능 개발을 도와줄 수 있는 칩을 찾아 나섰다. 그들은 GPU를 적극적으로 채용했고, GPU를 사용할 경우 5배 이상의 성능 향상을 이룰 수 있음을 확인했다. 인공지능을 구현하기에 CPU는 분기 예측 등 필요치 않은 곳에 트랜지스터를 낭비하는 비효율적인 칩이었다. 이렇게 이론적 돌파와 새로운 반도체가 만나 세상을 바꿀 인공지능(AI) 혁명*이 시작된다.

그리고 이 국면에서 빼놓을 수 없는 반도체가 또 있다. 바로 메모리다. 인공신경망의 크기는 기존 CPU 기반 프로그램보다 매우 거대하다. 인공신경망은 어딘가 저장돼 있어야 하므로, 인공지능에 사용되는 GPU는 큰 메모리가 필요하다. 이 때문에 인공지능 시대에 메모리 반도체 기업들 역시 주목받는 것이다.

* 출처 : Large-scale Deep Unsupervised Learning using Graphics Processors, Stanford Univ, 2009

프로그래밍 방법론에서 반도체까지

이번 편에서는 새로운 프로그래밍 방법론이 반도체 입장에서 어떻게 보이는지를 개략적으로 알아봤다. 프로그램은 인간이 생산적인 일을 하기 위한 수단이다. 프로그램은 순서도를 이용한 전통적인 방법으로도 만들 수 있고, 인공신경망 학습 방식으로 만들 수 있다. 그리고 사용자들은 순서도를 이용해 만든 프로그램과 인공신경망 중, 자신이 원하는 프로그램을 잘 돌리는 반도체를 택하는 것뿐이다. 만약 사용자가 엑셀과 같은 기존의 프로그램을 돌리고 싶다면 고성능 CPU를 이용할 것이고, 인공지능 기반의 언어 생성 등을 하고 싶다면 GPU를 이용하면 될 것이다.

이 글을 통해 후배, 동료 여러분에게 하고 싶은 말은 기술과 기술의 관계를 이해하며 나아갔으면 한다는 것이다. 캐나다의 연구원들은 기존 순서도 형태의 프로그램으로 해낼 수 없던 수많은 일을 인공신경망으로 해냈다. 그리고 인공신경망 구동은 기존 프로그램과 비교해 더 많은 사칙연산 횟수와 메모리가 필요했던 것일 뿐이다. 이러한 개선은 결국 위에서 살펴본 분기 속도를 2배로 올렸더니 전체 프로그램이 수십 퍼센트(%) 빨라졌던 것과 다르지 않다. 이런 사실을 잊지 않는다면, 이후에 새로운 프로그래밍 기술이 생겨났을 때 그 프로그램이 어떤 연산을 요구할지, 어떤 형태의 메모리를 요구할지도 알 수 있을 것이다.

다음 편부터는 인공지능 기술과 그 주변을 이루는 생태계를 살펴볼 것이다. 그리고 그 생태계들이 가지고 있는 한계와 어려움을 찾아보고, 반도체가 이를 어떻게 도와줄 수 있을지 살펴볼 것이다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[제3시선, 최고가 최고를 만나다 with 정지훈] 미래를 여는 인공지능, 인공지능을 만드는 반도체 EP.4 (4/4 – 완결편)

SK하이닉스 — Mon, 16 Jan 2023 15:00:00 +0000

제3시선, 최고가 최고를 만나다

‘제3시선, 최고가 최고를 만나다’는 최고의 ICT 업계 전문가들이 서로의 시선에서 공통의 주제를 이야기하며 세상을 바라보는 새로운 시선을 넓혀가는 연재 콘텐츠입니다. ICT 분야의 최고 전문가와 최고의 ICT 기술을 만들어 내는 SK하이닉스 구성원 간의 만남. 기존 인터뷰 콘텐츠에서 볼 수 없었던 이야기를 만나볼 수 있습니다.

이번 시리즈는 국내 최고의 인공지능 전문가인 정지훈 대구경북과학기술원(DGIST) 겸임교수와 SK하이닉스 구성원(권용기 PL, 김성재 PL, 류동일 TL, 주영표 부사장)들이 만나 미래를 변화시킬 인공지능 기술과 반도체를 주제로 총 4편으로 구성될 예정입니다.

지금까지 인공지능의 등장과 발전, 활용사례, 그리고 SK하이닉스의 인공지능 반도체에 대해 알아봤는데요. 이번 편은 정지훈 교수님과 함께하는 제3시선 마지막 편으로 지난 편에서 다루지 못한 이야기와 함께 다가올 인공지능 시대에 대한 간단한 전망을 나눠볼 계획입니다. SK하이닉스와 정지훈 교수가 나누는 인공지능과 인공지능 반도체에 관한 마지막 이야기, 지금부터 시작합니다. (편집자 주)

인공지능(AI, Artificial Intelligence)으로 변화할 우리의 미래, 정지훈 교수와 대담에 참여한 SK하이닉스 구성원들은 어떻게 생각하고 있을까?

지금까지 우리는 인공지능의 등장과 발전, 그리고 인공지능 반도체에 대한 이야기를 나눴다. 이를 통해 현재 우리의 삶 다양한 곳에서 인공지능이 적용되고 있으며, 더욱 많은 곳에서 인공지능이 활용될 것이라는 전망을 할 수 있었다. 공상 과학이나 영화 속 이야기들이 점차 현실이 되어가고 있는 상황에서 인공지능 산업 최전선에 있는 이들은 어떤 생각을 하고 있을까?

인공지능 전문가 정지훈 교수와의 마지막 대담에서는 인공지능 시대에 대비하는 SK하이닉스 구성원들의 이야기와 지난 콘텐츠에서 다루지 못했던 2022 SK 테크 서밋(이하 테크 서밋)에 대한 이야기를 나눠볼 예정이다.

▲ 테크 서밋에서도 인공지능은 핵심 비즈니스로 각광받았다.

인공지능을 위한 프로세서, NPU

정지훈 교수 지금까지 인공지능에 대한 많은 이야기들을 나눴는데요. 2022 SK 테크 서밋(이하 테크 서밋)은 SK하이닉스와 SK그룹이 다가올 인공지능 시대를 어떻게 대비하고 있는지 살펴볼 수 있는 좋은 자리였던 것 같습니다. 말로 설명하기 어려운 새로운 기술들을 이해하기 쉽게 전시한 것 역시 아주 인상적이었습니다.

앞에서 설명해주신 SK하이닉스의 인공지능 반도체(PIM, iCIS, HBM3, CMS-CXL)를 비롯해 SK그룹에서 준비하고 있는 다양한 인공지능 비즈니스들을 보면서 ‘SK그룹이 정말 인공지능에 진심이구나’라는 것을 느끼기도 했는데요. SK에서 준비하고 있는 인공지능 관련 비즈니스 중 앞에서 다루지 못했던 인공지능 비즈니스에 관해 설명해주실 수 있을까요?

김성재 PL 네. 저희 SK하이닉스는 인공지능에 대해 다양하게 접근하고 있지만, 저는 국내 인공지능 분야에서 선두에 있는 사피온*에 대해 이야기하고 싶습니다. 테크 서밋 전시에서도 살펴봤지만, 사피온 칩은 SK텔레콤과 SK스퀘어 그리고 SK하이닉스가 협력을 통해 개발한 국내 최초의 NPU* 인공지능 반도체인데요. 지난 2020년 11월, 국내 최초로 개발한 인공지능(AI) 반도체 상용제품인 ‘SAPEON X220’을 출시했습니다.

* 사피온(Sapeon): 국내 최초의 데이터센터용 비메모리 반도체 ‘사피온 칩’을 개발한 기업. ‘사피온 칩’은 SK텔레콤이 SK스퀘어, SK하이닉스와 함께 ‘SK ICT 연합’을 구성해 개발에 성공했다.
* NPU(Neural Processing Unit): 신경망처리장치로, 머신러닝 구동에 최적화된 프로세서. 소프트웨어를 통해 인공신경망을 만들어 학습해야 하는 GPU와 달리 하드웨어 칩 단위에서 인공신경망을 구현하고자 했다는 특징이 있다.

▲ 정지훈 교수와 SK하이닉스 구성원들이 국내 최초 인공지능 반도체 사피온 부스에서 데이터 처리방식에 있어 CPU, GPU와의 차이점에 관해 이야기 나누고 있다.

정지훈 교수 테크 서밋 전시 부스에서도 사피온에 관한 설명을 한참 들었던 기억이 나네요. 국내 최초의 NPU라는 점이 아주 인상적이었는데요.

김성재 PL인공지능을 위한 프로세서인 ‘NPU’에 대해 조금만 더 설명해 드리자면. 먼저 기계, 혹은 컴퓨터의 연산 처리 장치를 생각해보면 좋을 것 같아요. 보통 연산 처리 장치를 떠올리면 PC에 사용되는 CPU(중앙처리장치, Central Processing Unit)가 가장 먼저 생각나겠죠. 그리고 최근 비약적인 성능향상을 보여주며 인공지능 등 다양한 곳에서 활용되고 있는 GPU*도 떠오를 것 같아요. 다만, 한 가지 유념할 점은 GPU는 인공지능을 위한 반도체는 아니에요. 행렬 연산에서 CPU보다 유리하기 때문에 많이 사용돼 왔던 것이죠.

NPU는 GPU보다 더 빠르게 더 많은 데이터를 연산할 수 있는 진짜 ‘인공지능 반도체’입니다. 이름에서 알 수 있듯 NPU는 사람의 신경망을 본떠 인공 신경망을 구현하고자 한 프로세서거든요. 현재 사피온에서 개발한 SAPEON X220은 인공지능 환경에 최적화된 프로세서로 GPU와 비교하면 혁신적인 성능 향상을 이뤄냈습니다.

* GPU(Graphics Processing Unit) : 초기 GPU는 단순히 CPU의 연산 결과를 그림이나 글자 신호 등으로 변환해 송출하는 보조 부품으로 인식됐지만, 3D(3차원) 게임이 등장하면서부터 3D 그래픽의 전용 프로세서로 개발됐다. 더 빠르고 더 많은 3D 구현을 목적으로 병렬방식의 데이터 처리 성능이 향상되면서 지금은 그래픽 구현을 넘어 더 넓은 영역에서 활용되고 있다.

류동일 TL 실제로 지난 2022년 9월, 글로벌 인공지능 반도체 성능 테스트인 MLPerf(엠엘퍼프)에서 SAPEON X220은 비슷한 스펙의 GPU와 비교해 뛰어난 성능을 선보였는데요. 데이터센터 추론 벤치마크에서 GPU 대비 2.3배 이상 높은 성능을 기록했습니다. 성능뿐만 아니라 전력 효율성에서도 2배 넘는 효율을 보이면서 차세대 인공지능 반도체로서 존재감을 확실하게 드러냈죠.

정지훈 교수 앞서 이야기 나눴던 HBM3나 GDDR6-AiM과 같은 메모리 기반의 인공지능 반도체뿐만 아니라 프로세서 분야에서도 사피온과 SK하이닉스가 확실한 두각을 보이는 것이군요. 인공지능 반도체와 관련해 다양한 분야에서 활약할 SK하이닉스의 모습을 기대해 보겠습니다.

인공지능 시대 이끌어갈 SK하이닉스

정지훈 교수 마지막으로 이번 대담에 참여해주신 여러분의 이야기를 들어보면 좋을 것 같은데요. 앞서 많은 이야기들을 해주셨지만, 각자 마지막으로 하고 싶은 이야기들을 나누면서 이번 대담을 마무리하도록 하겠습니다.

주영표 부사장 보통 인공지능 관련 연구개발을 하고 있다고 하면, 일부만 생각하는 경우가 많은데요. 예를 들면, 특정 문제를 해결하기 위한 인공지능 개발, 기존에 나와 있는 인공지능의 성능 향상을 위한 솔루션 개발, 아니면 인공지능 알고리즘 그 자체를 연구하는 경우 정도로 국한하는 것이 일반적이죠. 이러한 접근방식으로 인해 우리는 결국 알고리즘이나 연산 장치에만 집중하게 되는데요. 실제로 인공지능을 위한 알고리즘과 연산 장치는 최근 비약적으로 발전하고 있고요.

저는 우리가 더 넓은 범위에서 인공지능을 바라봐야 한다고 생각합니다. 한쪽으로만 치우친 발전은 결국 시스템의 균형을 무너뜨릴 위험이 있기 때문이에요. GPU가 쉬지 않고 연산할 수 있도록 쉬지 않고 데이터를 넣어줄 수 있는 주변 시스템이 필요합니다. 데이터처리의 중요도가 높아지는 만큼 메모리 반도체의 발전 역시 중요해지겠죠. DRAM 메모리 반도체를 비롯해 NAND 메모리에서 절대 강점을 가지고 있는 우리 SK하이닉스는 인공지능 시대에 아주 큰 역할을 할 수 있으리라 생각합니다.

정지훈 교수 맞습니다. 더욱 뛰어난 인공지능을 위해선 보다 높은 품질의 많은 데이터가 필요하니까요. 수없이 많은 데이터를 처리하기 위해서 결국 메모리 반도체의 발전은 필수적이라고 생각합니다. 인공지능 시대는 SK하이닉스에는 새로운 기회가 될 수 있다고 생각해요.

류동일 TL 저는 아직 주니어로서 다가올 인공지능 시대에 대해서도, SK하이닉스에서 제가 해내야 할 일에 대해서도 기대감이 아주 큽니다. 개인적인 목표나 바람에 대해서 말씀드리자면, 우리가 앞으로 직면하게 될 많은 문제를 해결하는 과정에서 인공지능이 활용되는 사례가 많아지길 기대하고 그 안에서 제 역량을 십분 발휘하고 싶습니다.

SK하이닉스의 구성원으로 당연히 우월한 성능의 제품 개발과 양산이 주된 목표이지만, 더 나아가 저희가 개발하고 있는 제품들이 더욱 다양한 곳에 활용되며 인공지능 시대를 여는 데 이바지할 수 있으면 좋겠습니다. 현재 저희가 개발하고 있는 iCIS* 역시 인공지능을 더 넓은 영역에서 활용할 수 있게 하는 대표적인 사례가 될 것으로 예상합니다.

* iCIS(intelligent CMOS Image Sensor) : 카메라 센서인 CIS에 인공지능 기능을 도입한 차세대 CIS 제품

정지훈 교수 인공지능의 상용화를 생각해본다면 새로운 인공지능 반도체의 개발이 중요한 쟁점이 되겠네요.

류동일 TL 맞습니다. 저 역시 인공지능 상용화 관점에서 접근했을 때 가장 관심이 많은 분야 중 하나가 경량화된 인공지능이거든요. 별도의 연산 장치나 클라우드 등을 거치지 않고 디바이스 레벨에서 자유롭게 인공지능 연산이 가능한 모델이 더욱 많아져야 인공지능의 상용화도 가능하다고 생각합니다.

권용기 PL 앞으로 다가올 인공지능 시대를 준비하기 위해 저희가GDDR6-AiM을 개발했듯 다양한 분야에서 인공지능 시대에 대비하고자 하는 노력이 필요한 것 같습니다. 물론 정부 차원에서도 인공지능 시대를 준비하기 위한 다양한 지원 사업*들을 진행하고 있으며, 학계에서도 뉴로모픽 반도체*나 CIM(Computation in Memory)과 같은 다양한 연구들이 활발히 이어지고 있는 상황입니다.

저희가 샘플 개발에 성공한 GDDR6-AiM의 경우, 개발에 성공한 것 자체로 인공지능 시대를 위한 ‘큰’ 첫 발걸음으로 분명한 의미가 있지만, 아직은 시작 단계이므로 앞으로 할 일이 더욱 많다는 점은 분명할 것입니다. 우리가 개발한 지능형 반도체를 중심으로 변화할 컴퓨팅 패러다임과 완전히 새로워질 인공지능 시대를 만들어 나갈 수 있으면 좋을 것 같습니다.

* 정부는 인공지능 산업 육성을 위해 ▲차세대 지능형 반도체 사업단 조직 운영 ▲2029년까지 1조 원 규모의 사업비 투자 및 PIM 인공지능 반도체 사업단 운영 ▲2028년까지 4천억 원 규모의 사업비 투자를 진행하고 있다.
* 뉴로모픽 반도체 : 인간의 뇌 구조를 모방해 만든 반도체 칩으로 대용량 데이터를 병렬 처리해 적은 전력으로도 복잡한 연산, 추론, 학습 등이 가능하다.

김성재 PL 저는 이번 대담을 통해 느낀 점을 말씀드리고 싶은데요. 테크 서밋도 느꼈지만, 이렇게 다양한 부문의 구성원들과 만나 이야기해보니 우리 SK하이닉스가 정말 다양한 측면에서 인공지능을 준비하고 있다는 사실을 느낄 수 있었습니다. 사실 저희가 인공지능 관련 업무를 진행한다고 해도 하드웨어 부문에서 어떤 형태로 인공지능 비즈니스에 접근하고 있는지, 그리고 우리가 하는 일들과 어떤 협업 포인트를 찾을 수 있을지 잘 몰랐거든요.

이번 대담과 테크 서밋을 통해 정말 다양한 측면에서 다른 팀과 협업할 수 있고, 논의할 수 있겠다고 생각하게 됐습니다. 이후에도 다른 팀들과의 다양한 교류를 통해 더 나은 기술을 개발해 인공지능 시대를 여는 데 이바지할 수 있으면 좋을 것 같습니다.

정지훈 교수 저 역시 이러한 점을 인상 깊게 봤는데요. 다양한 분야에서 인공지능을 준비할 뿐만 아니라 부서 간 연계가 필요한 프로젝트들도 상당수 있었던 것 같아요. 특히 사피온처럼 SK그룹 내 계열사 간의 협업도 활발히 이뤄지고 실제로 성과도 보이는 것도 아주 놀라웠습니다.

특히, 개발단계에서 성과를 보이는 것에 더불어 상용화 단계까지 진입하고 있다는 점을 보면서 SK하이닉스를 종합 반도체 기업을 넘어 종합 인공지능 기업이라고 불러도 되겠다는 생각도 들었습니다. 지금까지 해왔던 것처럼 앞으로도 인공지능 시대를 선도하는 대표 기업으로 SK하이닉스가 우뚝 섰으면 좋겠습니다. 이상, 대담을 마치도록 하겠습니다. 감사합니다.