정인성 작가 – SK hynix Newsroom

[인공지능과 반도체 7편 – 완결] 챗GPT 등 인공지능의 시대 : 메모리 반도체의 위상, 다시 세우다

정인성 작가 — Mon, 28 Aug 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 현재 전 세계를 가장 뜨겁게 달구는 키워드다. SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재하고 있다.이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 컴퓨터가 인공지능을 구현하면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지를 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해 볼 것이다. (편집자 주)

대 변화의 시대: ICT 기술 간의 상호작용

21세기에 일어난 ICT 산업의 변화는 가히 혁명적이라 할 만하다. 전 세계 대부분 사람이 ‘구글’이라는 검색 엔진과 ‘마이크로소프트 윈도우’라는 동일한 운영체제를 사용하고 있다. 이걸로는 부족했는지 대부분의 사람이 손에 컴퓨터를 하나씩 들고 다니며, 쉽게 인터넷에 연결되는 세상이 됐다. 그리고, 마침내 인공지능 기술이 등장했다.

새로운 ICT 기술들이 서로 영향을 주고받는 모습을 보면 놀라움 그 자체다. 여러분은 어느 순간 구글이나 네이버 등 검색엔진의 자동완성, 오타 교정 능력과 번역기의 성능이 크게 향상됐음을 느꼈을 것이다. 특히 구글의 경우는 BERT*와 같은 인공지능 기반 언어 모델이 개발됐기 때문이다. 그리고 이를 통해 많은 고객들로부터 끌어모은 정보는 다시 더 많은 데이터로 생성 활용하는 검색 엔진 회사로 거듭나며 정교한 인공지능 기반 서비스를 제공할 수 있게 됐다. 그리고 이렇게 정교화된 서비스들은 다시 스마트폰, PC 등에서 더 많은 소비자를 끌어모으고 있다.

* BERT(Bidirectional Encoder Representations from Transformers): 구글이 만든 자연어 처리 모델. 이는 검색엔진에서 광범위한 자연어 처리(NLP) 작업에서 단어의 의미와 문맥을 보다 잘 이해하고 유용한 검색 결과가 효과적으로 일치하도록 도와준다.

▲ 그림 1: 소프트웨어 회사, 사용자, 반도체 회사 모두가 이익을 보는 구조

동시에 반도체 수요에도 영향을 미친다. 사용자가 많은 플랫폼에는 그만큼 다양한 사용자 요구가 존재한다. 이러한 요구를 충족시키기 위해 인공지능 기술을 이용하려는 스타트업이 증가하고, 이들은 인공지능 반도체를 대량으로 구매해 신경망을 학습시키고 인공지능 서비스를 제공한다. 이는 엔지니어가 사용하는 PC부터 클라우드의 학습 서버까지 다양한 ICT 분야의 수요가 늘어나며 기술의 선순환이 이뤄지는 것이다. 이렇게 기술들은 상호작용하며 성장해 간다. 가르치고 배우며 함께 성장한다는 의미의 ‘교학상장(敎學相長)’이란 사자성어가 매우 어울린다.

다시 돌아보기: 인공지능, 소프트웨어, 반도체

이러한 선순환이 어디서 시작됐는지 돌아보자. 우리가 원하는 것은 인공신경망을 통해 구현되는 인공지능 기술이었다. 인공신경망의 개념은 1960년대에 등장했지만, 2012년에 이르러야 사람들의 주목을 받게 됐다. 그 이유는 인공신경망을 현실 세계에서 빛을 보게 해줄 요소 기술* 발전이 부족했기 때문이다.

* 요소 기술: 생각이나 계획을 실제로 변화시키고 발현할 수 있는 발명이나 혁신

▲ 그림 2: 학계와 반도체의 혁신을 향한 긴 여정

그림 2는 인공지능 기술이 반도체 업계와 학계가 어떻게 상호작용했는지 간단히 정리한 연대표이다. 과거 인공신경망이 구현되지 않았던 이유는 ▲데이터 학습 방법을 잘 모르고(이론 미비) ▲연산 능력이 부족했기 때문(하드웨어 미비)이다. 그중 전자의 문제는 캐나다의 제프리 힌턴 연구팀이 알렉스넷(AlexNet)을 통해 해결했고, 후자의 문제는 GPU(Graphics Processing Unit, 그래픽 처리 장치)의 발전과 과학자들의 GPU 채택을 통해 해결됐다.

GPU가 등장했던 이유는 두 가지였다. ▲컴퓨터의 용도가 고급 그래픽 분야로 확장됨으로써 사용자들이 전용 칩*을 원하게 된 것 ▲파운드리 회사의 기술 발전으로 제품 양산이 용이해진 것(엔비디아와 같은 GPU 기업들은 팹리스 기업으로 제품 생산을 위한 파운드리 모델이 필요)이다.

* 1999년, 엔비디아(NVIDIA)가 지포스(GeForce)라는 이름의 그래픽 컨트롤러(GPU로 명명)를 내놓기 전까지 그래픽 작업은 CPU(Central Processing Unit, 중앙처리장치)의 한 부분에서 이뤄졌다. 게임 등으로 컴퓨터의 용도가 확장되면서 그래픽 처리 작업이 많이 늘어났고, CPU를 통해 모든 작업을 처리하기 어려워지자, 그래픽을 처리하는 별도의 장치인 GPU가 등장했다.

이렇게 이론적 돌파와 반도체 기술의 발전이 합쳐지자, 인공지능은 드디어 주목받기 시작했다. 인공지능의 발전은 소프트웨어와 반도체 등 각 ICT 산업 분야에 큰 변화를 만들었다. 먼저, 전 세계 인공지능 개발자들은 인공지능에 특화된 GPU를 생산하는 엔비디아에 락인(Lock-In)*됐고, 덕분에 엔비디아는 인공지능 반도체 사업에 큰 성공을 이루고 있다.

* 락인(Lock-In): 고객이 특정 제품이나 서비스를 벗어나지 못하게 되는 현상

한편, 인공지능은 데이터 중심(Data-Driven)으로 개발되어 왔다. 이를 반도체의 측면에서 보면, 방대한 양의 데이터를 빠르게 처리할 수 있는 반도체 칩이 주목받게 된 것이다. 덕분에 메모리 반도체 회사의 인공지능용 초고성능 D램 제품 HBM*은 큰 인기를 얻고 있다. 게다가 데이터센터의 서버에 저장된 각종 데이터를 인공신경망이 이해하는 형태로 바꿔야 할 필요가 생기며, 일반 서버 메모리의 판매량도 급격히 늘어나고 있다.

* HBM(High Bandwidth Memory, 고대역폭 메모리): 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 AI용 고성능 메모리[관련기사]

결국 인공지능은 유망했던 미래 기술에서 현실의 거대한 사업 모델이 됐고, 이제 전문 인공지능 개발 기업부터 데이터 가공 기업 등 인공지능 관련된 다양한 회사가 생겨났다. 이 과정에서 인프라의 효율성과 성능은 더욱 중요해졌으며, 방대한 데이터의 저장 및 이동이 필요한 곳에는 낸드플래시(이하 낸드)가 채택됐다. 즉, GPU가 CPU와 경쟁해 자리를 차지하고 데이터 중심의 프로그래밍 방법론을 확립하는 동안 메모리 반도체는 그들과 함께 큰 혜택을 보고 있는 셈이다.

인공지능 시대의 메모리 반도체

그러면 현재 메모리 반도체의 상황을 알아보자. 알렉스넷의 성공으로 메모리는 인공지능 기술의 핵심 파트너임을 모두가 알게 됐다. 이러한 변화 과정에서 인공지능 기술이 메모리 반도체에 필요로 하는 것은 세 가지다. ▲GPU에 끊임없이 처리할 작업과 데이터를 넘겨줄 고성능(고대역폭) 메모리 ▲거대한 신경망과 학습 데이터를 담을 수 있는 대용량 메모리 ▲거대한 인공지능 학습 인프라를 유지하고 효율을 높이기 위한 고용량, 고성능 낸드다.

하지만 최근에는 인공지능 기술의 이러한 요구 사항을 반도체가 선제적으로 충족하지 못하고 있다고 생각된다. 인공지능 기술이 매년 향상되면서 반도체에 요구하는 성능 향상 폭도 더욱 커지고 있지만, 반도체 미세화의 난이도가 높아짐에 따라 반도체의 성능 향상은 상당히 제한되기 때문이다. 아직 메모리를 100% 대체할 수 있는 유일한 기술은 ‘용량이 더 크고 동작 속도가 더 빠른 메모리’밖에 없다는 것이 다행이다.

메모리 반도체 기업 구성원들은 기술을 개발해 경쟁자를 이기고, 다양한 이해관계자를 만족시킴으로써 더 나은 세상에 기여하고, 회사의 성장에 기여해야 한다. 이를 위해서는 특정 고객이 인공지능 기술에서 정말 어려워하는 부분이 무엇이고, 메모리 회사가 이를 어떻게 해결해 줄 수 있는지를 선제적으로 제시할 수 있어야 한다.

예를 들어, 지난 4편[관련기사]에서 살펴본 CXL(Computer eXpress Link)처럼 메모리의 확장 및 공유를 통해 다양한 서비스에 최적화된 메모리 환경을 제공할 수 있다. CXL 인공신경망(CXL + 한 개의 연산칩) 구조와 HBM 인공신경망(HBM + 여러 개의 GPU) 구조 등 서비스에 따라 최적화된 구성 환경은 다를 것으로 생각된다.

어떤 회사가 라틴어, 티베트어 그리고 타히티어와 같이 사용 빈도가 낮은 언어의 번역 인공지능 서비스를 제공한다고 가정해 보자. 사용 빈도가 낮다는 것은 인공신경망의 사용 횟수가 적다는 것으로 이를 위해 고정적으로 연산칩과 인공신경망을 할당하는 것은 비효율적이다. CXL + 한 개의 연산칩 구조를 통해 연산칩 한 개가 여러 인공신경망을 사용하게 하는 것이 더욱 효율적일 것이다. 반대로 사용 빈도가 높아 인공신경망을 자주 사용해야 한다면, HBM + 여러 개의 GPU 구조를 통해 인공신경망의 성능을 최대한 발휘하는 것이 효율적이다. 메모리 반도체 회사는 이런 틈을 파고들어야 한다.

▲ 그림 3: 거대 메모리를 통해 효율적인 연산이 진행되면 비용이 절약되는 효과를 보여주는 가상 예시

또, 메모리 반도체 회사들은 불가능해 보이는 사업을 가능하게 만들 수도 있다. 챗GPT와 같은 거대 인공신경망은 현재 ▲신경망 학습에 데이터가 너무 많이 필요하고 ▲인공신경망 크기가 너무 커서 탑재할 서버의 가격이 너무 비싸다는 문제를 가지고 있다.

아예 학습에 필요한 데이터가 확보되지 않는 사업이라면 메모리 반도체 회사가 도와줄 수 없다. 하지만 만약 특정 고객이 데이터는 충분한데 거대 신경망을 모바일 기기에 넣어야 하는 사업 모델을 구상했다면 어떻게 할 것인가? 이 사업 모델의 사업성이 크다면, 고객은 기꺼이 새로운 기기를 개발하고 그 기기에 들어가는 새로운 반도체를 탑재하려고 할 것이다. 어쩌면 이런 사업 아이템이 뉴로모픽 반도체 시장 진출의 시작점이 될지 모른다. 혹은 사업 아이템이 극단적으로 기기의 전력을 아낄수록 큰 이득을 보는 상황이라면 PIM[관련기사]을 제안해 볼 수 있다.

▲ 그림 4: 그림과 같은 모험을 하기 위해서는 크기, 가격, 발열 등 단점을 넘어설 만한 장점이 필요하다.

이러한 내용들은 예시일 뿐이다. 핵심은 시장이 인공지능으로 무엇을 하고자 하는지 파악하고, 현재의 기술로 구현 불가능한 것을 파악해 대안을 제시하는 것이다. 인공지능 기술이 과거에 연산칩과 메모리 반도체 역할의 두꺼웠던 벽을 허물 기회를 준 것이다. 이 기회를 적극적으로 활용하면 인공지능 시대를 이끌어갈 수 있을 것이다.

영원한 것은 없다: 변화에 집중하라

그렇다고 위와 같은 기회가 영원히 지속될 것이라는 생각은 금물이다. 현재의 인공지능 기술을 가능하게 만든 이론은 ‘역전파*’다. 역전파 방법론이 등장하자 ‘인공지능 학습’이라는 추상적이고 애매했던 목표가 단순한 최적 함수 탐색 문제로 변화하게 된다. 거대한 인공신경망을 조금 복잡한 함수로 보게 된 것이고, 덕분에 기존의 과학기술에서 널리 사용되던 기울기 하강법*과 같은 최적화 방법을 쓸 수 있게 된 것이다.

* 역전파(Backpropagation): 예측한 출력값과 실제 출력값의 차이인 오차를 계산하고, 이것을 다시 역으로 전파해 가중치를 조정해 예측 출력값과 실제 출력값을 일치시키는 방법. 본래 순전파(Feedforward)는 입력받은 데이터에 가중치를 곱하여 출력하는 방법이나, 역전파는 이를 보완한 것으로 대수적인 방법으로는 풀 수 없었던 문제를, 수치 해석적으로 오차가 작아지는 쪽으로 조금씩 값을 조절하는 과정을 반복하여 학습을 가능하게 함
* 기울기 하강법: 경사 하강법이라고도 하며, 예를 들어 어두운 밤 산에서 내려갈 때, 오르막이 아닌 아래로 기울어진 곳을 찾아 내려가듯이 손실 함수 값이 낮은 곳을 찾아 원하는 함수를 방법 중 하나. 특정 함수에 입력값을 넣은 뒤, 함수의 출력값과 원하는 기댓값의 차이를 줄이는 방향으로 함수를 갱신해 가는 방법

▲ 그림 5: 역전파 덕분에 단순 최적화 문제로 바뀐 인공신경망 학습

하지만 역전파와 기울기 하강법 기반의 학습은 장점만 있는 것은 아니다. 현재의 인공지능이 데이터를 매우 많이 필요로 하는 이유가 바로 기울기 하강법의 한계 때문이다. 현재의 인공지능은 1개의 데이터로 최적의 함수를 찾으려고 할 때 과적합*이 발생할 수 있다. 이런 이유로 과학자들은 매우 많은 데이터를 투입해 데이터당 학습량을 매우 적게 설정해 신경망을 조금씩 학습시킬 수밖에 없게 된다. 결국 인공지능 기술을 현재 수준까지 이끌어 온 것도 역전파이지만, 인간 수준의 인식능력을 갖추기 어렵게 하는 이유도 이 방법론의 한계 때문이다.

* 과적합(Overfitting): 기계 학습에서 학습 데이터를 수집할 때 전체적인 경향성에서 벗어난 데이터까지를 고려해 실제 데이터에 대해서는 일반화 성능이 떨어지는 모델을 얻게 되는 현상

다시 말해, 역전파 방법론을 넘어서는 인공신경망 학습 방법이 등장하면, 지금의 역전파 기반 인공지능 기술을 전제로 한 반도체 시장은 엄청난 지각변동을 겪게 될 것이다. 만약 인공지능이 인간처럼 데이터 1~2개만 보고도 새로운 동물을 구분할 수 있게 된다면, 거대한 메모리도, 고성능 GPU도 그리고 데이터 저장을 위한 거대한 낸드 저장소도 필요 없어질지 모른다.

그렇기에 우리는 현재의 기술에 집중하면서도, 새로운 기술을 가까이해야 한다. 지금 우리가 지나쳐 버린 어떤 논문이 캐나다 힌튼 연구팀(알렉스넷 개발팀)에 필적할 거대한 변화일지 모른다. 이런 트렌드를 빠르게 파악해 낸다면 누구도 경험하지 못한 새로운 미래를 개척할 수 있다.

분업의 시대에서 협업의 시대로

반도체 시장은 늘 위기에 직면해 왔다. 하지만 2020년대 들어 나타나는 위기들은 차원이 다르다. 미세화 기술 개발은 점점 어려워지고, 설비 투자액은 더욱 폭증하고 있다. 반도체는 강대국의 외교 테이블에 올라가기 시작했고 한때 반도체 회사 파트너였던 거대 소프트웨어, 하드웨어 회사들이 이제는 거대한 자체 수요를 믿고 반도체 설계까지 겸하는 상황이 됐다. 제조 기술을 통한 성능 향상은 점차 어려워져 경쟁력 확보는 힘들어지는데 고객사는 경쟁사를 겸하기 시작하고 있다. 이런 위기는 연산 반도체 기업에 더 크게 느껴지겠지만 메모리 반도체 역시 안심할 수는 없다.

지금까지 [인공지능과 반도체] 칼럼 시리즈에서 우리는 인공지능 세상에서 반도체가 어떤 역할을 해왔으며 앞으로 무엇을 할 수 있는지 살펴봤다. 필자는 이 시리즈를 통해 독자 여러분들이 반도체란 무엇인지 깊게 고민해 봤으면 한다. 인공지능 시대에 메모리 반도체의 위상은 왜 변했는지 이해해야 한다. 이것을 이해하면, 이후 인공지능 기술이 변화하거나 지금까지 보지 못했던 전혀 새로운 기술이 등장했을 때, 메모리 반도체가 어떤 위상을 가지게 될지 예측할 수 있을 것이다. 그리고 이를 안다면, 무엇을 해야 할지도 알 수 있을 것이다.

‘옛것을 배워 새로운 것을 깨닫는다’는 의미의 ‘온고지신(溫故知新)’이라는 말이 있다. 여러분이 살펴본 인공지능 기술 태동의 역사와 올해 40주년을 맞이한 SK하이닉스의 반도체 노하우가 합쳐진다면 분명 훌륭한 결과가 나올 것이라고 기대한다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 6편] 챗GPT 등 인공지능의 시대 : ‘뇌 구조의 반도체로 만들다’ 뉴로모픽 반도체의 등장(6/7)

정인성 작가 — Wed, 19 Jul 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 현재 전 세계를 가장 뜨겁게 달구는 키워드다. SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재하고 있다.
이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 인공지능으로 바뀌면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해 볼 것이다. (필자 주)

이번 편에서는 다가올 미래 반도체를 다룰 것이다. 인간의 뇌 구조를 모방해 만든 반도체, 바로 뉴로모픽(Neuromorphic) 반도체다. 뉴로모픽 반도체는 아직 상용화되지 않은 경우가 대부분이라 정의하는 데 많은 혼란을 일으킨다. 그래서 우선 용어들을 명확히 하고자 한다.

‘인공지능 반도체’라는 용어는 매우 큰 범위를 가진다. 현재에서 미래까지 인공지능 기술에 필요한 모든 반도체를 포괄하는 개념으로 이 분야의 대표주자는 ▲GPU(Graphics Processing Unit, 그래픽 처리 장치)다.

또 다른 ‘인공지능 반도체’는 ▲NPU(Neural Processing Unit, 인공지능 처리 장치)다. 이 NPU는 대중적으로 알려진 GPU보다 인공지능을 위한 연산에 더욱 특화된 반도체로, 독립적인 반도체 칩으로 설계되기도 하고 혹은 반도체 칩 내부의 일부분으로 설계되기도 한다. GPU보다 인공지능이 필요로 하는 연산 알고리즘인 GEMM* 등에 특화된 NPU를 중심으로 뉴로모픽 반도체를 자세히 알아보고자 한다.

* GEMM(GEneral Matrix Multiplication) : 다중 연산의 식을 여러 개 입력하고, 결괏값은 하나로 출력하는 알고리즘으로 추론이나 예측에 사용된다.

▲ 그림 1 : GEMM 연산 중 하나인 내적(왼쪽)과 실제 이미지 인식 과정에서 신경망 연산에 GEMM이 쓰이는 예(오른쪽)

NPU 등 인간의 뇌구조처럼 병렬 형태의 연산 방식을 모방한 뉴로모픽 반도체는 폰 노이만 구조*의 일반적인 컴퓨터 칩에 가까운 개념부터, 폰 노이만 구조를 완전히 벗어나는 개념까지 매우 다양하다. 특히 이번 편에서는 뉴로모픽 반도체 중에서도 가장 메모리에 가까운 구조를 가진 반도체를 다루고자 한다. 그래서 이번에 언급하는 뉴로모픽 반도체는 다양한 미래 반도체 중 하나일 뿐임을 명심하길 바란다.

* 폰 노이만 구조(Von Neumann Architecture) : 메모리와 연산장치, 입출력 장치 등 전형적인 3단계 구조로 이루어진 프로그램 내장형 컴퓨터 구조. 오늘날 사용하고 있는 일반적인 컴퓨터의 기본 구조

▲ 그림 2 : 각종 반도체의 종류별 포함 관계

디지털 회로의 대가

컴퓨터는 20세기 가장 중요한 발명품이다. 인류는 컴퓨터가 생겨남으로써 ‘프로그램’을 만들 수 있게 됐고, 이 ‘프로그램’을 통해 지금까지의 인류 역사에서 경험해 보지 못했던 강력한 연산과 자동화 능력을 세상에 제공할 수 있었다. 컴퓨터 덕분에 매우 정밀한 계산을 할 수 있게 됐고, 하루 종일 검산해야 했던 수백만 가지 숫자들을 수 초 만에 전부 틀리지 않고 계산할 수 있게 됐다.

이를 가능하게 한 이유 중 하나는 디지털 회로가 보장하는 높은 정확도다. 디지털 회로는 ‘1+1의 연산 결괏값은 항상 2’인 것과 같이 동일한 연산을 할 때 매번 같은 값을 보장한다. 이러한 특성 덕분에 ‘프로그램’을 만들 수 있었다.

▲ 그림 3 : 순서도는 약간의 오차로 인해 어마어마한 오동작이 일어날 수 있다.

<그림 3>을 살펴보자. 만약 위 순서도에서 N값이 정확히 구분되지 않고, ±(플러스마이너스) 0.1 정도의 오차가 있으면 어떻게 될까? 연산이 완료된 후에도 결괏값이 틀릴 뿐만 아니라 운이 없으면 아예 분기(조건문) 처리 자체가 망가져 버릴 수 있다. N값이 정수로 떨어지지 않으면, 프로그램이 멈추지 않고 계속 계산을 진행하고 있을 수도 있다. 결국 논리적인 구분의 값이 정확하지 않으면 더 이상 컴퓨터를 통해 초정밀 계산을 수행할 수 없게 된다. 이는 수십 nm(나노미터) 수준의 오차도 허용되지 않는 현대 산업에서는 매우 치명적일 것이다.

▲ 그림 4 : 디지털 회로의 예

이 때문에 현재의 컴퓨터는 디지털 회로를 기반으로 만들어진다. 즉, 디지털 회로는 특정 범위의 전압과 전류 등을 0과 1로 전환하여 값을 정확히 구분한다. 예를 들어, 우리가 1.0mA를 1의 기준으로 정했다고 가정해 보자. 특정 트랜지스터에 0.0~0.9mA의 전류가 흐른다면 값을 0으로 취급하면 되고, 1.0mA가 넘게 흐르면 1로 취급하면 된다. 이런 마진 측정 방식을 통해 초미세 회로들의 노이즈를 이겨내는 것이다.

만약 우리가 디지털 회로를 포기하고 흐르는 전류 자체를 값으로 사용한다면 어떤 일이 발생할까? 예를 들어, A 트랜지스터에서 1.003의 전류가 흐르고, B 트랜지스터에서 1.100의 전류가 흐른다고 가정해 보자. 단순한 덧셈의 개념으로 보자면 이 두 전류를 합치면 2.103의 전류가 되겠다고 생각하기 쉽다. 하지만 각종 누설 전류와 외부 노이즈 등으로 인해 두 전류의 합이 정확하게 2.103이 되지 않는다. 게다가 전류 값이 정확하지 않다면 컴퓨터는 제대로 작동하지 않는다. 이런 이유로 과학자들은 숫자 하나하나를 디지털 회로 값으로 치환하는 ALU* 등 다양한 기능의 반도체를 이용해 디지털 회로로 구현함으로써 100% 동일한 결과를 보장할 수 있게 만든 것이다. 하지만 이 방식은 매우 많은 트랜지스터를 요구한다.

* ALU(Arithmetic Logic Unit) : 산술연산, 논리연산 등을 수행하는 중앙처리장치 내부의 회로 장치. 독립적으로는 데이터 처리를 못 하며 반드시 레지스터들과 조합해 처리함

▲ 그림 5 : 단순히 숫자 두 개(A, B) 사칙 연산하는 데 있어 ALU는 수많은 트랜지스터가 필요하다.(출처 : 원문 보기)

인공신경망의 정확도는 어디에서 오는가?

하지만 인공지능 시대가 열리면서 상황이 변하기 시작했다. 오히려 ‘정확하지 않은 컴퓨터’가 가능성을 가지게 된 것이다. 예를 들어, 아래 귀여운 강아지가 있는 세 개의 사진(그림 6)을 보자. 하나의 이미지는 이상적인 형태로 그려져 있으며, 다른 한 개는 약간 기울어져 있고, 나머지 하나는 강아지 얼굴 부분에 노이즈가 있다. 지금, 이 글을 보고 있는 여러분은 세 개의 사진이 같은 강아지인지 아닌지 헷갈리는가? 아마 헷갈리지 않을 것이다. 사진이 약간 기울어져 있고, 노이즈가 있지만 같은 대상임을 분명히 알 수 있다.

▲ 그림 6 : 사람은 이 3개 사진이 동일 대상을 가리키고 있음을 쉽게 파악한다

이번에는 실눈을 감고 이미지를 보자. 약간 뿌옇게 보이지만 우리는 여전히 세 개의 대상이 같다는 것을 이해하고 있다. 이미지들을 흑백으로 바꿔봐도, 색조를 조금 바꿔도 우리는 사물을 구분하는 데 큰 어려움을 겪지 않는다. 이는 인공신경망 역시 마찬가지다. 인공신경망은 사람이 이미지를 인식하는 것과 비슷한 형태로 이미지를 학습하고 인식한다.

이것이 가능한 이유는 크게 두 가지다. 우선 인공신경망 내부에 수많은 뉴런이 존재하기 때문이다. 예를 들어, 인공신경망이 얼굴을 구분할 때 눈과 코만 기준으로 삼는다고 가정해 보자. 여기에 특정 노이즈가 눈과 코를 지워버린다면 얼굴을 구분할 수 없게 된다. 하지만 뉴런이 많다면, 눈과 코를 합친 특징을 비롯해 이외에 매우 다양한 특징을 살피도록 학습시킬 수 있다. 눈이 잘 구분되지 않아도 나머지 특성을 통해 대상을 구분할 수 있는 것이다.

다른 한 가지 이유는 학습 이론이 발전했다는 점이다. 과학자들은 많은 연구를 통해 주어진 데이터로 정보를 추론하는 데이터 증강*이나, 강아지의 눈과 코가 모자이크로 인해 가려져 강아지가 아니라는 과도한 학습을 차단하는 드롭아웃* 등 다양한 기술을 도입했다. 이로써 인공신경망은 이미지 데이터를 주어진 그대로 인식하는 것이 아닌, 노이즈를 이겨내고 사진 내의 다양한 특성을 살피도록 학습할 수 있었다. 이를 뒤집어 생각해 보자. ‘만약 우리가 인공신경망에 노이즈를 강하게 학습시킬 수 있다면, 신경망 내부에서 연산이 다소 정확하지 않아도 상관없는 것이 아닐까?’라는 추론이 가능해진다.

* 데이터 증강(Augmentation) : 학습에 사용하는 데이터에 각종 변화를 줌으로써 신경망의 추론 안정성을 높이는 기술. 이미지의 경우 회전, 크기 변경, 노이즈 추가 등이 이루어진다.
* 드롭아웃(Dropout) : 인공지능 모델이 학습한 데이터에 대한 의존도가 높아져, 실제 사용에서 정확도가 떨어지게 되는 과적합(Overfitting) 현상을 해결하기 위해 주어진 확률로 네트워크에 있는 변수들을 생략하는 방법

PIM : 메모리가 직접 연산한다

인공신경망을 만들었는데 학습 중 데이터 증강을 통해, 혹은 실제 데이터 추론 상황에서 노이즈가 추가된 사진이 신경망에 입력되는 상황을 생각해 보자. 신경망이 잘 학습됐다면 노이즈와 관계없이 정답을 출력할 것이다.

▲ 그림 7 : 사진에 노이즈가 있는 상황(위)과, 신경망이 노이즈를 만드는 상황(아래)

그렇다면 <그림 7> 중 아래 이미지와 같이 상황을 약간 비틀어 보자. 입력된 이미지에는 노이즈가 없는데, 인공신경망 일부분에서 약간의 노이즈가 발생하는 것이다. 역시나 추론 결과는 정확하다. 이는 노이즈 정규화(Noise Regularization)라는 방법으로 신경망 학습에서 때때로 사용되는 방법이다. 즉, 인공 뉴런은 개별적으로 연산 과정에서 작은 문제가 발생해도 전체에 영향을 미치지 않는다. 이는 각각 요소의 정확도가 중요한 기존 순서도 프로그램과 크게 구분된다.

그렇다면 우리가 디지털 회로의 정확성을 포기하고 모든 요소를 오로지 인공신경망을 위해 투입하면 어떻게 될까? 이것이 바로 단순히 저장만 하는 메모리가 아닌 연산용 메모리(Computational Memory)이다. 뉴로모픽 반도체 중 하나의 종류이자, PIM(Processing In Memory)의 최종적인 형태 중 하나라고 할 수 있다.

▲ 그림 8 : CPU의 y=wx 계산(왼쪽)과 전류 흐름을 통한 계산(오른쪽)

예를 들어, 사용자가 ‘y=wx’의 값을 계산해야 한다고 해 보자. w는 고정된 값이며, x를 통해 y를 계산하는 것이 목적이다. 만약 CPU를 통해 연산을 한다면, <그림 8> 좌측 이미지와 같은 과정이 벌어지게 된다. 이 간단한 계산을 위해서는 CPU가 메모리에서 w와 x의 값을 불러온 뒤, 해야 할 작업을 분석하고 ALU를 여러 차례 가동해야 한다. 이후 결괏값을 다시 메모리에 적어주는 작업까지 수행해야 한다.

하지만, 오른쪽과 같은 회로를 구성한다면 어떨까? 앞에서 살펴본 디지털 회로와 같이 흐르는 전류에 따라 값을 정한다고 한다면 <그림 8>의 오른쪽 계산과 같이 입력 전압의 값(x)을 통해 y의 값을 알 수 있을 것이다. 이를 통해 우리는 지금 거대한 CPU 설계와 메모리로 구성된 시스템이 할 일을 고작 저항 1개와 전선 몇 개로 해낸 것이다. 여기서 설계를 조금만 늘리면 더욱 많은 숫자 합을 동시에 수행할 수 있다.

▲ 그림 9 : y=wx를 4번 수행하는 CPU 알고리즘(왼쪽)과 뉴로모픽(오른쪽)

<그림 9>를 보면 전류 흐름을 통한 뉴로모픽은 CPU가 여러 루프를 반복해 돌아야 계산되는 값을 ‘한 곳에서, 동시에’ 처리할 수 있다는 것을 알 수 있다. 이는 무려 8개의 숫자를 동시에 곱한 것인데, 이런 연산이 바로 위에서 본 GEMM의 훌륭한 예시가 될 수 있다. 여기서 x와 w만 어떤 식으로든 변화시킬 수 있다면, 대규모 GEMM 연산기가 되는 것이다.

물론 누설전류 및 외부 노이즈로 인해 매번 정확하게 wx라는 값이 흐르지는 않을 것이다. 하지만 인간의 뇌세포도 이와 유사하다. 인간은 아침을 굶고 나왔거나, 조금 지치는 상황에서도 기존에 잘하던 일이면 대부분의 일을 잘 해낸다. 컨디션의 차이가 있다면 개별 뇌세포가 내놓는 신호가 달라지겠지만, 전체 결과에는 큰 영향이 없다. 이러한 현상은 뉴로모픽 반도체에서도 비슷하게 발생한다. 노이즈는 늘어나기도 하고, 줄어들기도 하므로 위와 같은 연산을 대규모로 수행한다면 전체적인 노이즈는 줄어들게 되는 것이다.

뉴로모픽 반도체 : 더 똑똑한 반도체를 이기는 다수의 반도체

이런 칩은 반도체 설계 측면에서 매우 큰 변화를 불러올 수 있다. 일단 가장 큰 장점은 웨이퍼 면적을 상당히 절약할 수 있다는 것이다. 위에서 언급했듯 뉴로모픽 반도체는 기존 연산용 칩에 들어가는 ALU 등과 비교했을 때 수많은 설계를 없앨 수 있다.

그뿐만 아니라, 메모리 자체도 아낄 수 있다. wx에서 w값은 반도체 회로에 사용된 재료의 고유한 전류 값인 전도도(Conductivity)에 해당하는데, 이는 어떤 의미로는 이미 저장돼 있는 데이터라고 볼 수 있다. 기존에는 곱셈을 수행하기 위해서 HBM 등 메모리에 저장돼 있던 w값을 연산장치로 가져와야 했는데, 이제는 메모리 자체에서 w값을 통해 연산까지 할 수 있는 것이다. 뉴로모픽 반도체는 기존 반도체와 비교해 다른 용도를 위해 사용된 면적을 절약해서 전부 인공 뉴런과의 연결 개수를 늘리는 데 사용할 수 있다.

인공지능 기술의 발전은 어찌 보면 메모리가 CPU의 역할을 수행하니, ‘다수의 덜 똑똑한 반도체가 소수의 똑똑한 반도체를 이겨 나가는 과정’이라 할 수 있다. 첫 편[관련기사]에서 살펴봤듯 분기(Branch)와 같은 과정은 예측하기 매우 힘들기 때문이다. 반면 GPU는 분기와 같은 작업을 포기하고, 더 많은 실수 연산 장치를 투입해 CPU에는 불리한 작업인 인공지능 기술로 진출했다. 뉴로모픽 반도체 칩은 여기서 한 단계 더 나아갔다. 인간의 뇌에 더 가까운 모습을 한 것이다. 실제로 인간의 개별 뇌세포는 GPU의 연산 단위보다 훨씬 단순하지만, 그 수는 매우 많다는 것을 알 수 있다.

뉴로모픽 반도체 칩은 SK하이닉스와 같은 메모리 반도체 회사에 매우 큰 기회라고 생각한다. 일반적으로 CPU, GPU와 같은 칩은 설계가 어렵다. 복잡한 논리 회로들을 여러 개의 금속층을 이용해 연결해야 동작하기 때문이다. 하지만 뉴로모픽 반도체는 ALU와 같은 기능이 필요 없기 때문에 CPU, GPU와 비교했을 때 설계가 간단하다. 칩 내부의 모습은 단순한 구조의 반복일 것이다. 이미 메모리 반도체 회사들은 낸드플래시와 같은 비휘발성 메모리*를 만들면서 미세 소자 안의 전도성 등을 바꾸는 방법에 노하우가 있다. x값은 입력 전압 값에 대응하고, w값은 전도도 등으로 대응시키면 뉴로모픽 칩에 필요한 모든 요소를 만들기 수월할 것이다.

* 비휘발성 메모리 : 전원이 차단돼도 기존 값을 저장하는 메모리

메모리 반도체 회사들은 설계는 단순하지만, 똑같이 생긴 소자를 세계에서 가장 잘 만든다. 12Gb D램은 성인 엄지손톱 2배 수준 면적에 120억 개 이상의 쌍(트랜지스터+저장소)*이 형성돼 있다. 반복적 구조의 소자 안에 저항값 등을 이용해 w에 해당하는 값을 기록하고 전류를 흘릴 수 있다면 뉴로모픽 반도체를 만들 수 있는 것이다.

* 현재의 일반적인 D램 구조. 트랜지스터(T) 1개에 저장소(C) 1개가 붙는 1T1C 구조. CPU 내부의 S램의 경우 6T1C 구조로 저장소당 더 많은 트랜지스터가 필요함

파격적 시도, 어마어마한 도전

이러한 뉴로모픽 반도체들이 상용화된다면, 기존 인공지능 기술로 개발된 수많은 서비스에 더 많은 사람이 접근할 수 있게 될 것이다. 예를 들면, 현재 챗GPT의 기반이 된 GPT-4의 경우, 수백 기가바이트(GB) 이상 메모리 공간을 사용하는 것으로 알려져 있다. 이를 사용하기 위해서는 수천만 원의 GPU를 여러 개 묶어야만 한다. 하지만 뉴로모픽 반도체가 상용화된다면, 수만 원짜리 인공지능 스피커 수준에도 GPT-4급의 신경망을 탑재할 수 있을지도 모른다.

그러나 뉴로모픽 반도체가 아직 본격적으로 등장하지 않은 여러 이유가 있다. 첫 번째 이유는 무작위성을 가진다는 것이다. 매번 구동할 때마다 결과가 달라지면 문제가 생겼을 때 이것이 신경망 학습 문제인지, 칩 신뢰성 문제인지, 입력값 문제인지 등을 구분하기 힘들어진다. 이렇게 되면 사용자들이 사용 자체를 꺼리게 될 가능성도 높다. 특히나 현시점에 익숙하고, 잘 구동되는 GPU라는 대안이 있을 때는 더욱 그렇다.

두 번째 이유는 기존 연산 칩 회사들의 강력한 견제와 경쟁이다. 칩이 기존 컴퓨터 구조와 멀어질수록 이론상의 최대 효율은 올라가지만, 사용하기는 번거롭다. 만약 기존 반도체 회사들이 뉴로모픽 반도체를 만들되, 뉴로모픽 반도체보다 좀 더 폰 노이만 구조 컴퓨터에 가까운 구조로 구성할 경우, 뉴로모픽 반도체를 원하는 고객들은 조금 더 익숙한 형태의 반도체를 사용할 가능성이 높아질 것이다. 실제로 지금도 이러한 움직임은 일어나고 있다. 인텔의 뉴로모픽 칩 로이히(Loihi)[관련기사]의 경우, 폰 노이만 구조의 컴퓨터 구조에 SNN*이라고 부르는 인간 뇌세포의 정보 전달 메커니즘을 접목하고자 하고 있다.

* SNN(Spiking Neural network) : 인공 뇌세포 간 신호 전달을 인간에 좀 더 가깝게 만든 방식의 신경망

뉴로모픽 반도체 경쟁에서 밀리지 않기 위해서는 다양한 경험을 가진 인재를 모으고 고객에 더 가까이 다가갈 필요가 있다고 생각한다. 아날로그 신호 전문가, 인공지능 연구원 등 다양한 사람들을 모으고 이야기를 들어 방향을 정해야 한다. 또한, 뉴로모픽 반도체는 매우 다양한 방식으로 구현될 수 있다. 그래서 이 글에 나온 뉴로모픽 반도체는 다양한 미래 반도체의 대안 중 하나일 뿐임을 기억했으면 한다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 5편] 챗GPT 등 인공지능의 시대 : 메모리의 연산, 차세대 지능형 메모리 PIM과 PNM의 등장 (5/7)

정인성 작가 — Mon, 19 Jun 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 현재 전 세계를 가장 뜨겁게 달구는 키워드다. SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재하고 있다.

이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 인공지능으로 바뀌면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지를 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해 볼 것이다. (필자 주)

“PIM은 연산의 효율을 높여주는 것이지, 1만 개의 이미지 필요량을 5,000개로 줄이지는 않기 때문이다. PIM으로 인해 더 빠른 연산이 가능해지면서, 메모리 반도체 회사들은 더 많은 용량의 메모리를 생산해야 되는 상황이다.”

인공지능의 발전에 필요한 새로운 반도체

우리는 첫 장에서 인공지능과 반도체가 어떻게 함께 발전해 왔는지 알아봤다. 인공지능에서 반도체는 대부분 기존에 있던 인프라를 개선하는 역할이었다. GPU(Graphic Processing Unit)는 CPU(Central Processing Unit)가 할 수 없었던 대규모의 부동소수점* 연산을 가능하게 했고, HBM(High Bandwidth Memory)은 GPU 기반 학습에서 대역폭과 물리적으로 한정된 공간을 이겨내기 위해 사용됐다. 또, 낸드플래시(NAND Flash)는 GPU 학습에 필요한 데이터를 저장, 가공한 뒤 빠른 속도로 학습 서버로 전송하는 역할을 했다.

* 부동소수점 : 실수에서 정수와 소수가 본래 소수점의 위치를 고정하는 고정소수점과 대비되는 개념으로 소수점의 위치를 바꿔 정수와 소수를 구분 표기해 연산에 용이하게 하는 것. 본래의 실수가 123.485인 경우, 1.23485X 10^2, 혹은 0.00123485X10^5 등으로 연산 표기한다.

이런 반도체들 덕분에, 기존 CPU만으로는 불가능했던 일이 가능해졌다. 인공지능 기술은 대량의 데이터를 짧은 시간 안에 투입하는 방식으로 프로그래밍 방법론 자체를 변화시켰으며, 반도체들은 과학자들이 필요로 하는 요구사항에 맞춰 더 높은 성능, 더 큰 용량으로 발전했다.

하지만, 일정 수준의 발전을 이룬 반도체는 미세화에 큰 어려움이 생기기 시작했다. 예를 들면, 반도체 제조의 핵심이라 할 수 있는 노광기*의 가격은 한 대당 1,000억 원을 넘어서고 있고, 다음 세대 장비는 4,000억 원 이상으로 추정하고 있다. 그 외 기술적인 여러 가지 장애물과 함께 다양한 이유로 GPU와 메모리 반도체 모두 성능 발전의 속도가 점점 느려지기 시작했다.

* 노광기 : 반도체 제조 Photo공정에서 미세한 회로를 그리기 위해 빛을 직접 노출(Exposure)시키는 장비로 Stepper, EUV Scanner 등이 있다.

이런 흐름에 맞춰 우리의 초점도 약간 바뀌어야 한다. 단순히 더 빠르고 더 큰 용량의 메모리 반도체 개발로는 한계가 있어, 인공지능 혹은 컴퓨팅 시스템 자체를 다시 설계해야 할 필요가 있다. 당연히도 이를 위해선 새로운 개념의 반도체가 필요하다.

캐시메모리의 등장과 GPU의 부상

지난 수십 년간 컴퓨터를 괴롭혀 온 장애물 중 하나는 메모리 성능 한계였다. 본래 폰 노이만 구조로 컴퓨터를 연산장치와 메모리로 구성했을 때, 메모리의 용량과 속도는 무한하다는 가정이 있었다. 이 중 메모리 용량 문제는 메모리 반도체 전문 기업들이 기술을 발전시키며 해결해왔으나, 그중에도 메모리의 동작 속도가 발목을 잡았다. 성능 향상이 가장 빠르던 1980년대 후반부터 2000년대 중반까지 CPU의 동작 속도는 매년 약 60%씩 상승하고 있었으나, D램의 반응 속도는 10% 정도 상승하는 데 그쳤기 때문이다. [관련 자료]

위와 같은 문제로 인해 CPU 내부에 초고속 메모리를 직접 탑재하기 시작했다. 이것이 캐시메모리(Cache Memory)다. 캐시메모리는 일반 D램 대비 반응 속도가 10배 이상 빠르기 때문에, CPU가 데이터를 필요로 할 때 빠르게 읽기·쓰기 요청에 응할 수 있다. 물론 캐시메모리가 제 역할을 하기 위해서는 캐시메모리의 용량이 충분히 커야 할 뿐만 아니라, CPU가 다음에 쓸 데이터를 최대한 정확하게 예측하고 저장하는 기술이 필요했다. 이 모든 것이 CPU의 트랜지스터를 소모하는 과정이었다.

이러한 문제들 때문에 GPU가 인공지능 산업의 중심이 될 수 있었다. GPU는 거대한 캐시메모리와 분기 예측기* 등에 사용할 트랜지스터까지 전부 연산장치에 투입할 수 있었기 때문이다. 특히 반도체 기술이 더욱 발전하면서 GPU가 처리할 수 있는 연산 능력도 기하급수적으로 늘어나게 됐다. 거대한 공장이 끊임없이 돌아가려면 튼튼한 재고 창고와 강력한 물류체계가 필요하듯, GPU는 고용량·고대역폭 HBM*을 탑재해 쉬지 않고 인공지능 작업을 처리하고자 했다. 거대한 캐시메모리를 만들 트랜지스터까지 아껴 연산장치를 투입했으니, 이제 메모리 반도체가 연산장치들에 데이터를 전달해야 하는 상황이 된 것이다.

* 분기 예측기 : CPU 내에서 분기 예측을 수행하는 디지털 회로. 조건 분기의 다음 명령을 예측하고 실행해 계산 대기 시간을 낭비하지 않아 CPU의 성능을 높여준다.
* HBM(High Bandwidth Memory) : D램 여러 개를 수직으로 연결해 기존 D램보다 데이터 처리 속도를 대폭 끌어올린 고대역폭 반도체로 고성능 컴퓨터와 그래픽 카드에서 사용된다.

▲ SK하이닉스가 개발한 차세대 메모리반도체 PIM이 적용된 ‘GDDR6-AiM’

PIM : 연산 반도체 역할의 일부를 가져오다

우리는 메모리와 연산용 반도체(GPU, CPU 등)는 창고와 공장과 같고 이는 도로로 연결된 것과 같다는 것을 앞서 살펴봤다. 하지만 사실 이 안에는 컴퓨터 프로그램이 가지는 중요한 요소가 빠져있다. 바로 ‘연산용 반도체는 중간 결과물을 메모리에 저장해야 한다’는 것이다. 이는 실제 공장과는 달리 재료가 한번 들어오면 완제품이 만들어지는 구조가 아닌 제조 공정 단계별로 생산되는 재공품(생산과정 가운데 있는 미완성품)을 창고에 보관했다가, 가공하기 위해 다시 가져오는 것과 같다.

▲ 그림 1 : 메모리와 연산용 반도체의 데이터 처리 과정을 창고와 공장 간의 가공 과정으로 비유한 예시

<그림 1>는 메모리와 연산 반도체 사이에 발생하는 데이터 처리 과정을 가상의 공장(연산 반도체)과 창고(메모리)의 모습으로 설명한 예시이다. 공장이 원자재 완제품으로 만들기(데이터 처리) 위해서는 절단과 도색 두 가지 작업이 필요하다. 여기서 공장의 역할은 절단과 도색 두 가지 작업을 하는 것이지 원자재와 재공품을 보관하는 것이 아니다. 때문에 절단과 도색을 할 때 마다 창고에서 원자재와 재공품을 가지고 오고, 다시 가져다 놓는 일을 반복해야 한다. 이런 이동은 번거롭고 시간이 많이 소요된다. 때문에 공장에 작은 선반 같은 것을 두고 임시로 원자재와 재공품을 보관하면 더 빠르고 편해질 것이다. 여기서 말한 선반이 바로 캐시메모리의 역할이다.

여기서, 공장의 효율적인 생산, 즉 연산장치와 메모리를 통한 인공지능 동작 성능을 높이려면 어떻게 해야 할까? 메모리의 동작 속도를 높이는 방법이나 재공품 선반(캐시메모리)의 크기를 키우는 방법이 있을 것이다. 하지만 전자의 경우, 앞서 이야기 했듯 동작 속도의 성능 향상의 한계로 인해 어려움이 있다. 또한, 후자의 경우, 지금도 캐시메모리는 동일 용량의 D램보다 10배 이상 많은 면적을 차지하기 때문에 매우 비효율적이다.

그렇다면, 여기서 한 가지 아이디어가 떠오른다. ‘자주 해야 하는 작업에 필요한 물건은 굳이 공장으로 옮기지 않고, 이를 창고에서 바로 처리한다면 효율이 오르지 않을까?’라는 것이다. 이렇게 해서 등장한 아이디어가 바로 PIM(Processing-In-Memory)이다.

▲ 그림 2 : PIM이 적용되면 데이터 처리 과정이 비약적으로 줄어든다.

<그림 2>는 <그림 1>에서 메모리를 PIM으로 변경했을 경우의 데이터 처리 과정이다. 두 그림을 비교해 보니 PIM이 왜 필요한지 좀 더 명확하게 보인다. 데이터 전송은 연산 과정에서 상당 부분을 차지한다. 그래서 메모리 반도체 회사들은 처음부터 메모리 반도체에서 연산용 반도체로 데이터를 전송할 필요 없도록 방법을 찾은 것이다. PIM을 사용하면, 메모리 반도체의 데이터 전송 과정이 줄어들고 이로 인해, 데이터 처리 속도가 상당히 향상될 뿐만 아니라, 전성비(전력 대비 성능비)도 매우 높아진다. PIM은 인공지능 등이 요구하는 각종 연산을 메모리에 내재화해 전체적인 성능뿐 아니라, 전성비까지 개선하는 훌륭한 아이디어인 셈이다.

반도체 설계 관점에서 보면, PIM은 두 가지 방법으로 만들 수 있다. 첫째는 기존 D램 칩 내부에 연산기를 탑재하는 방식이고, 둘째는 D램과 매우 가까운 곳에 별도의 논리연산을 수행하는 칩을 배치하는 것이다. 전자는 D램 칩의 면적이 넓어지지만, 용량에 비례해 자동으로 연산 속도가 올라가는 장점이 있고, 후자는 로직 칩이 동반되어 메모리 반도체 회사 입장에서는 큰 비용을 들이지 않고 탑재 가능한 장점이 있다. 엄밀하게는 후자는 PNM(Processing-Near-Memory)이라 부른다. 연산 장치가 메모리 반도체에 가까이 있을 뿐, 별도의 칩에 있기 때문이다.

▲ 그림 3 : D램의 뱅크 내부에 연산기가 탑재돼 있는 PIM(왼쪽)과 D램 다이 하단에 별도로 로직 다이가 적용되는 PNM(오른쪽)

이런 메모리는 인공지능 개발사와 인공지능을 활용하는 서비스 회사 모두에게 매우 큰 이점을 준다. 인공지능 개발사는 현재 자신의 회사가 개발 중인 인공지능에 활용할 데이터는 충분하지만, 학습 속도가 느릴 때 PIM과 같은 솔루션을 도입함으로써 학습 속도를 크게 개선할 수 있다. 만약 인공지능 시장이 거대 신경망을 자주 학습시켜야 하는 방향으로 진화한다면, PIM은 매우 매력적인 솔루션이 될 것이다. 인공지능을 도입해 서비스하는 회사들에게 운용 비용 감소의 이점을 제공할 수 있기 때문이다. 또한, 전력 대비 성능이 높기에 전기를 적게 쓸 뿐만 아니라, 더 적은 개수의 GPU가 탑재된 서버로도 동일한 수준의 서비스를 제공할 수 있어, 공간에 대한 임대료도 낮아지게 된다.

뿐만 아니라, PIM과 같은 솔루션은 GPU 이외의 반도체를 인공지능 시장에 끌어들일 수 있을 것이다. CPU의 경우, 조건에 맞춰 선택지를 택하는 각종 분기 처리 등을 향상하기 위해 총 연산 능력을 줄였는데 PIM이 도입되면 그 단점을 상쇄시키는 동시에 CPU의 장점 또한 유지할 수 있다.

메모리 회사의 유망한 미래 사업

PIM은 메모리 반도체 회사 입장에서 매우 훌륭한 미래 시장이 될 수 있다. PIM이 탑재되어도 메모리 반도체의 사용량은 줄지 않기 때문이다. 예를 들어, PIM이 탑재된 시스템에서 작동되는 특정 인공지능이 1만 개 이미지를 처리해야 한다고 해도 메모리는 여전히 1만 개의 이미지가 들어갈 용량이 확보돼야 한다. PIM은 연산의 효율을 높여주는 것이지, 1만 개의 이미지 필요량을 5,000개로 줄이지는 않기 때문이다. PIM으로 인해 더 빠른 연산이 가능해지면서, 메모리 반도체 회사들은 더 많은 용량의 메모리를 생산해야 되는 상황이다.

다만, PIM을 사용하기 위해서는 기존의 소프트웨어를 고쳐야 한다는 장애물이 있다. PIM이 존재하지 않던 시절의 소프트웨어들은 연산을 위해 다음의 과정을 거칠 수밖에 없다.

메모리에서 값을 읽어 온다.
→ 읽어온 값을 연산 칩이 처리한다.
→ 다시 메모리에 적는다.

이런 연산 과정을 가진 소프트웨어 기반의 컴퓨터에 아무리 PIM을 적용해도 기존 소프트웨어들은 어떤 장점도 얻을 수 없다. PIM을 통한 장점을 활용하기 위해서는 다음의 형태로 프로그램을 고쳐야만 한다.

PIM으로 연산 명령을 보낸다.
→ PIM의 처리 결과를 확인한다.

이러한 입장을 이해해야만 PIM의 잠재력을 온전히 보여줄 수 있다. 아직 많은 소프트웨어 회사들은 PIM을 잘 이해하지 못한다. 이 때문에 PIM의 잠재력을 100% 보여주고, 고객의 마음을 사로잡기 위해서는, 메모리 반도체 회사가 소프트웨어의 입장을 이해해야 하는 시대가 된 것이다.

인공지능의 시대, ‘PIM’이 핵심

인공지능 시대가 도래하면서 데이터를 이용해 수많은 연산을 해야 하는 상황이 됐다. 데이터를 저장하고 운송하는 주체가 메모리 반도체인 이상, 인공지능 시대는 메모리 반도체 회사에 엄청난 기회가 되고 있다.

하지만, 이 기회는 공짜가 아님을 유념해야 한다. 메모리 회사 앞에는 메모리의 큰 고객인 GPU, CPU 칩 메이커들을 비롯해, 최고의 효율을 뽑아내고 싶어 하는 클라우드 고객들, 수많은 인공지능 알고리즘 연구개발, 인공지능을 활용한 서비스 제공 기업 등 다양한 이해관계자들이 존재한다.

PIM은 단순한 메모리 반도체가 아니기 때문에 앞에서 언급한 이해관계자들과 단편적인 관계를 맺을 순 없다. PIM의 판매량이 늘어날수록 이해관계자들과의 관계는 새롭게 구축될 것이다. 고객이었던 상대가 어느 순간 경쟁자가 되기도 하고, 직접적인 관계가 없던 상대가 가장 중요한 고객이 될 수도 있다.

이러한 변화에서 PIM이 고객들에게 더 큰 호응을 얻기 위해선, 고객의 입장이 돼야 한다. 단순한 제품이 아니기에 이론상의 최대 성능에만 집중해선 안 된다. 실제로 고객들이 SK하이닉스의 PIM과 PNM 제품을 사용했을 때 얼마나 큰 효용을 얻는지가 중요해질 것이다. 특히 단순한 메모리가 아닌 만큼 예상치 못한 문제가 발생했을 때 얼마나 빠르게 해결할 수 있는지도 중요하다. 결과적으로, 완전히 새로운 아이디어인 PIM과 PNM 제품이 확실한 효용 증대를 불러오고 큰 불편함이 없다는 것이 증명될수록 고객들은 기꺼이 PIM과 PNM 제품을 도입할 것이다.

고객들은 전성비가 10% 나빠지고, 가격이 10% 비싸져도 새로운 칩을 도입했을 때 기존에 고민했던 문제를 빠르게 해결할 수 있다면 기꺼이 도입할 것이다. 결과적으로 새로운 비즈니스가 아닌 기존 고객과의 신뢰를 기반으로 변화되는 요구사항을 만족시키는 혁신이 중요하다. 이런 면에서 SK하이닉스는 PIM과 PNM 제품을 출시하고 있는 상황이기에 미래가 더욱 기대된다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 4편] 챗GPT 등 인공지능의 시대 : 메모리 공유를 통한 성능향상, CXL로 이루다 (4/7)

정인성 작가 — Tue, 23 May 2023 15:00:00 +0000

서버 컴퓨터의 메모리 용량은 CPU 성능만큼이나 중요하다. 메모리 용량이 클 경우, 서버에 더 많은 프로그램을 탑해 다양한 작업 수행이 가능해지기 때문이다. 주 기억장치인 메모리의 용량이 작은 서버는 보조기억장치 용량이 아무리 커도 많은 프로그램을 동시에 실행시킬 경우 부족한 메모리 용량을 해결하기 위해 보조기억장치(SSD 또는 HDD)를 활용한 가상 메모리*라는 기술을 사용하게 되는 데, 이로 인해 속도는 느려진다. 운이 없는 경우, 진행하고 있던 작업이 에러로 중단되기도 한다.

* 가상 메모리 : SSD(Solid State Disk)나 HDD(Hard Disk)의 일부 영역을 마치 시스템 메모리인 것처럼 사용하는 기법. 메모리 안에서 자주 사용하지 않는 내용을 보조기억장치(SSD 또는 디스크)에 옮겼다가, 데이터가 필요할 때 다시 메모리에 불러오는 식으로 동작해 속도가 느려지는 문제를 가지고 있다.

그리고 인공지능 시대가 열리면서, 더 많은 데이터를 더 빨리 처리해야 하는 상황이 됐다. 당연히, 메모리 용량은 더욱 중요해졌다. 이 때문에 인공지능 학습 서버(컴퓨터)는 CPU(Central Processing Unit, 중앙 처리 장치)가 사용하는 일반 메모리뿐만 아니라, GPU(Graphic Processing Unit, 그래픽 처리 장치) 자체에도 고성능, 고용량 메모리인 HBM(High Bandwidth Memory)을 탑재하고 있다. 재미있는 것은 GPU에서 메모리를 장착했음에도 CPU 메모리 용량이 줄어들지 않았다는 것이다.

▲ 표 1 : 8개 GPU와 1.1TB 메모리를 가진 인공지능용 컴퓨터 ‘p4d’와 ‘p4de’의 스펙표 (출처 : AWS)

<표 1>은 아마존 웹서비스(AWS)의 인공지능 학습용 컴퓨터 ‘Amazon EC2 p4d(이하 p4d)’의 사양이다. p4d는 클라우드 환경에서 머신러닝 등 인공지능 구현을 위한 고성능 컴퓨터(HPC)의 일종으로 세계에서 가장 뛰어난 성능의 슈퍼컴퓨터 중 하나이다. 해당 컴퓨터에는 CPU를 비롯해 NVIDIA의 인공지능용 데이터 서버 GPU인 A100이 8개가 장착돼 있다. p4d는 GPU 8개를 통해 320~640GB라는 거대한 용량의 GPU 메모리를 가지고 있음에도, CPU가 별도로 1TB가 넘는 메모리를 사용하고 있음을 알 수 있다. 이는 큰 용량의 메모리가 인공지능 시대에 얼마나 큰 가치가 있는가를 시사한다.

성능 향상을 위한 새로운 표준, ‘CXL’

이처럼 메모리가 더욱 중요해지면서, 최근 주목받고 있는 것이 CXL(Computer eXpress Link)이다. CXL은 제품 그 자체라기보단, 컴퓨터 시스템 내부에서 CPU나 메모리, 저장 장치 간의 데이터를 더 빠르게 전송하기 위한 인터페이스 기술이다. 조금 더 자세히 살펴보자면, CXL은 기업들이 모여서 만든 컴퓨터 확장 부품의 표준이다. 표준의 중요성은 우리 모두 매우 잘 알고 있다. 만약 한국전력이 220V로 모든 전원을 통일하지 않았다면, 한국에서 가전 사업을 영위하는 것은 매우 힘들었을 것이다. 가전제품 회사 입장에서 같은 가전제품이 다양한 전압을 지원하게 조치해야만 하기 때문이다. 이는 소비자의 부담으로 전가된다.

컴퓨터도 마찬가지다. 우리가 NVIDIA의 GPU를 장착하든, AMD의 GPU를 장착하든 컴퓨터 내의 동일한 PCIe* 슬롯에 끼우면 운영체제가 스스로 새로운 GPU를 찾아내며, 사용자는 아무 문제 없이 새로운 GPU를 사용할 수 있다. 이런 일이 가능한 이유는 컴퓨터를 구성하는 메인보드, CPU, GPU, OS(운영체제) 등을 제조하는 기업 등이 협의해 PCIe라는 규격에 따라 각 기기를 통신시키자고 정했기 때문이다.

* PCIe(PCI Express) : 기존 PCI(Peripheral Component Interconnect)의 속도를 2배 이상 향상한 인터페이스 기술. PCI는 컴퓨터에 주변장치 GPU, 무선랜 등을 장착할 수 있는 고속 확장 슬롯의 인터페이스 기술

▲ 그림 1 : 메인보드의 PCIe 슬롯. 주로 그래픽 카드나 SSD가 장착된다.

CXL도 이와 같은 표준이다. 서버의 역할이 늘어남에 따라, 한 작업을 수행하기 위해 더 다양한 기기들이 관여해야 하는 상황이 만들어지면서 새로운 표준이 필요해진 것이다. 기존의 서버들은 대부분 CPU와 자체 메모리 정도로 간단하게 구성돼 있었다. 대부분의 작업은 CPU가 메모리를 직접 사용하며 수행했다. 하지만 서버가 하는 일이 인터넷 서비스뿐만 아니라 인공지능과 클라우드 등 각종 인프라 관리까지 매우 다양해지면서, 서버 내부의 CPU 외 GPU, FPGA* 등 다양한 확장 카드가 적용됐다.

* FPGA(Field-Programmable Gate Array) : 프로그래밍을 할 수 있는 중간 형태의 집적회로(IC)로 비메모리 반도체의 한 종류다. 회로 변경이 불가능한 일반적인 반도체와 달리 용도에 맞게 회로를 수정할 수 있다. 칩 설계 단계에서 칩을 시뮬레이션하는 용도와 CPU, GPU 등이 대응하기 힘든 독특한 작업을 빠르게 처리하는 용도로 사용된다.

서버의 성능을 최대한 끌어내기 위해서는 각종 확장 카드가 서로 하는 일을 방해하지 않으면서도 처리하고 있던 데이터를 빠르게 공유할 수 있어야 한다. 이를 위해 나온 표준이 CXL이다. 즉, CXL 표준을 준수하는 제품들을 서버 컴퓨터 내부에 함께 적용하면, 각 칩이 서로 잘하는 업무를 분담하기 쉬워진다. 이를 통해 전반적인 작업의 효율을 증대시킬 수 있다.<

▲ 그림 2 : SK하이닉스의 CXL 2.0 메모리와 같은 공유 메모리는 메모리 용량을 확장하면서, 다양한 연산 장치들이 빠르게 프로그램을 처리할 수 있다.

CXL 표준이 등장한 중요한 이유 중 하나는 바로 메모리의 확장 및 공유다. 최근 인공지능 기술 등이 발전하면서, CPU가 잘 해내지 못하는 작업이 늘어났다.* 이 문제를 해결하기 위해서는 서버 컴퓨터 내의 총 메모리 용량을 늘려 수용 가능한 데이터의 양을 늘려야 할 뿐만 아니라, 메모리 내부에 흩어져 있는 다양한 데이터를 가장 적합한 반도체가 접근해 처리할 수 있어야 한다.

* 메모리 접근과 산술 연산, 많은 분기를 통해 데이터를 처리하는 CPU 프로세스는 동시에 많은 연산을 해야 하는 인공신경망 학습에는 효율적이지 못하다. [관련기사]

이종 컴퓨팅: 공유 메모리의 이점

CXL 표준이 등장하기 전에는 연산 칩들이 메모리를 안전하게 공유할 방법이 없어, 칩 간 통신이 비효율적이었다. 현실의 예를 들어보자. 일반적으로 우리가 구매하는 컴퓨터나 노트북에는 그래픽 표시를 위한 GPU가 탑재돼 있다. 다만 이 GPU들은 대부분 CPU 칩 안에 함께 내장된 형태를 보인다. 이러한 GPU를 내장 GPU(iGPU)라고 부른다.

이런 GPU들은 NVIDIA 등의 외장 GPU(dGPU)와 달리 자체 메모리가 없어 컴퓨터 CPU에 연결된 D램을 사용해야 동작할 수 있다. CPU에 연결된 8GB 메모리 중 1GB 정도를 내장 GPU에 나눠주는 식이다.

▲ 그림 3 : CPU와 내장 GPU의 현재 협업 방식

얼핏 보면 동일한 물리적 메모리를 나눠 쓰고 있으니, CPU와 내장 GPU 간 협업이 쉬울 것 같다. 하지만 이들이 협업하기 위해선 복잡한 과정이 필요하다. 어떤 프로그래머가 GPU를 이용해 프로그램의 성능을 높이고 싶다고 해 보자. GPU는 병렬 연산에 강하므로, 병렬 연산해야 할 데이터는 GPU가 처리하게 만들고 싶을 것이다. 얼핏 봐서는 GPU가 직접 CPU가 처리하던 메모리에 접근하여 작업을 수행할 수 있을 것으로 보인다.

하지만 실제로는 그렇게 작동하지 않는다. CPU와 내장 GPU는 통일된 메모리를 사용하는 게 아니라, 메모리에 칸막이를 친 형태로 작동되기 때문이다. <그림 3>을 보면 알 수 있듯, 실제로 이런 작업을 하기 위해선 CPU와 GPU는 일단 서로의 메모리 공간에 공유해야 할 데이터를 복사한 뒤 작업해야만 한다. <그림 3>에서 <1>과 <3>과정이 낭비로 보이지 않는가? 메모리 공유만 잘 이루어진다면, GPU가 바로 과정<2>만 수행해 데이터를 처리할 수도 있었을 것이다.

위와 같은 이유로, CPU와 내장 GPU는 이론상 낼 수 있는 시너지를 제대로 낼 수 없었다. 복사로 인한 시간 및 에너지 소모가 클 뿐만 아니라, 반응 속도도 느려지기 때문이다. 현재 이런 메모리 공유 문제는 CPU와 내장 GPU뿐만 아니라, 다양한 하드웨어 사이에서 발생하고 있다. 물리적으로도 한 덩어리인 메모리에 칸막이가 존재한다면, 물리적으로 멀리 떨어진 칩끼리의 데이터 공유는 더욱 어려울 것이다. 이로 인해 다양한 반도체를 엮어서 작업을 하고자 해도, 시간 손해가 커서 큰 효율 개선이 일어나지 않는 것이다.

하지만, CXL과 같은 거대한 공유 메모리가 생기게 되면서 상황이 달라졌다. 번거로운 기기 간 메모리 공유가 CXL로 인해 간단해진 것이다. 이렇게 되면, ‘인공지능’이라는 하나의 작업을 위해 메모리를 쪼개서 CPU, GPU 등에 나눠줄 수 있게 된다. 기존에는 전체적으로 가장 뛰어났던 GPU가 대부분의 인공지능 일을 전담했다면, 이젠 특정 구역은 GPU가, 다른 부분은 FPGA가, 나머지는 CPU가 처리하는 식으로 바뀔 수 있게 된다.

이는 분업화라 할 수 있다. 기존에는 10명의 주방 직원이 동일한 코스요리를 똑같이 준비했다고 하면, 이제는 코스요리를 애피타이저, 메인(고기/생선), 후식 등으로 나눈 뒤 각 요리를 저마다 가장 잘할 수 있는 요리사에게 맡길 수 있도록 변한 것이다. 이러한 컴퓨터 동작 방식을 이종 컴퓨팅(Heterogeneous Computing)이라고 한다. 다양한 반도체들이 자신이 잘하는 연산 부분을 담당해 전체 성능을 개선하는 것이다.

▲ 그림 4 : 데이터를 인공신경망으로 학습하는 과정에서 각 부분에 최적화된 연산 장치를 사용해 전체 성능을 높일 수 있다. (해당 그림은 연산 장치의 분산을 설명하기 위한 예시로, 기술 개발에 의해 각 연산장치가 잘하는 부분이 달라질 수 있다.)

CXL의 또 한 가지 강점은 메모리 대역폭과 큰 용량이다. 우리가 HBM 편[관련기사]에서 살펴보았듯, 인공지능 환경에서는 메모리의 용량과 대역폭이 모두 중요하다. 다뤄야 하는 데이터가 크기 때문이다. 이 상황에서 CXL은 CPU 등 인공지능 분야에서는 다소 뒤처진 반도체에 큰 이점을 제공할 수 있다.

CPU가 기존에 사용하던 D램에 더해 CXL 메모리를 탑재할 경우, 메모리 용량과 대역폭이 모두 상당히 증가하게 된다. 현재 NVIDIA의 A100 GPU는 2TB/s의 높은 대역폭을 가지고 있는 대신 기기당 40~80GB 정도의 메모리밖에 탑재하지 못한다. 반면 현재의 CPU는 1TB가 넘는 큰 메모리를 장착할 수 있지만, 메모리 대역폭은 250~500GB/s 정도밖에 되지 않는다.

CPU에 CXL 메모리가 채용될 경우, CPU와 GPU의 대역폭 차이는 좁혀지고 CPU는 거대한 메모리 용량을 유지할 수 있게 된다. 만약 수많은 고성능의 CPU에 CXL 메모리를 채용하기 시작한다면, 인공지능 분야에서 GPU에 밀렸던 경쟁력을 어느 정도 찾을 수 있을 것이다.

GPU는 인공지능 추론 속도가 빠르지만 메모리 용량이 작고, CPU는 메모리가 크지만, 대역폭이 상대적으로 낮다. GPU에는 자주 호출되는 인공신경망을 소량 올려서 추론에 사용하고, CPU에는 자주 사용하지 않는 인공신경망을 다량 탑재해 사용하는 등의 방식을 사용한다면, 인공지능 비용을 아끼면서 더욱 높은 효율을 기대할 수 있을 것이다. 예를 들면, 다국어 번역 인공지능 서비스를 운영할 때, 영어 번역기는 수요가 크기 때문에, GPU에 탑재하고, 기타 사용 비율이 낮은 언어들은 CPU에 대량으로 탑재하는 등의 방식을 쓸 수 있다.

CXL로 만드는 새로운 컴퓨터

▲ 그림 5 : 기존 컴퓨터(좌)와 이종 컴퓨팅이 적용된 컴퓨터(우)의 구조

<그림 5> 중 우측 그림은 미래에 생겨날 수 있는 이종 컴퓨터가 적용된 컴퓨터의 예시 모습이다. 매우 이상적이고 멋진 모습으로 보일 수 있다. 하지만 이것은 더 나은 서비스를 누리게 될 일반인들의 입장이고, 반도체 회사나 소프트웨어 회사에 새로운 컴퓨터는 거대한 도전으로 다가온다. 컴퓨터는 프로그램 없이 동작할 수 없다. 그리고 기존의 프로그램은 왼쪽 그림의 기존 컴퓨터 모습에 최적화돼 있다. 컴퓨터의 구조를 바꾼다는 것은 기존에 쌓아 놓은 수많은 노하우, 안정성 등을 포기하고 불모지로 나아간다는 의미다.

노하우와 안정성을 포기한다는 것은 반도체 회사와 소프트웨어 회사 모두에게 큰 불확실성을 가져온다. 반도체 회사들은 자신들이 만든 새로운 CXL 기기가 소프트웨어 회사들이 만든 새로운 프로그램과 조화롭고 안정적으로 동작할지 확신할 수 없다. 소프트웨어 회사는 CXL 기기가 약속한 성능과 안정성을 만족하며 출시될지, 이후에도 끊기지 않고 성능 개선된 버전을 출시해 줄지 확신할 수 없다. 때로는 새로운 CXL 기기의 기능이 기존 파트너 회사의 영역을 침범하게 되기도 한다. 이로 인해 많은 회사가 새로운 시도를 어려워하게 되고, 기존 컴퓨터에 안주하게 된다.

▲ 그림 6 : SK하이닉스가 소프트웨어를 활용, SKT와 공동 개발한 H/W-S/W 통합 플랫폼인 CMS가 2022년 10월 OCP 글로벌 서밋에 전시된 모습 [관련기사]

SK하이닉스와 같은 메모리 회사 역시 새로운 컴퓨터를 만드는 핵심 일원이다. CXL 기반의 새로운 컴퓨터를 만들어 나가는 과정에서 소프트웨어 회사, 플랫폼 회사, 타 반도체 회사 등은 경쟁자이면서도 협력자, 그리고 고객이기도 한 구조의 관계를 맺게 된다. 이들과의 신뢰를 유지하면서도 새로운 관계로 협업하며 새로운 컴퓨팅 시스템을 만들어 가는 미래를 향해 함께 성장한다면 기업이 아닌 인류 모두에게 큰 이익이 될 것이다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 3편] 챗GPT 등 인공지능의 시대 : 고속 저장소, 낸드플래시와 SSD (3/7)

정인성 작가 — Mon, 17 Apr 2023 15:00:00 +0000

이번 연재물에서는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 인공지능으로 바뀌면서 ‘0’과 ‘1’이 구체적으로 어떻게 변화되어 응용되는지를 알아보고, 이때 반도체는 어떤 역할을 해야 하는지 확인해볼 것이다. (필자 주)

빅데이터, 낸드플래시 시대의 도래

2010년만 해도 데이터 저장소(Storage)의 대명사는 하드디스크(HDD)였다. 하지만 하드디스크의 경우, 기계장치라는 특성과 구조상의 한계로 인해 데이터 처리 속도를 향상하는 데 큰 어려움이 있었다. 반면 낸드플래시*는 개별 칩의 반응 속도가 빨랐을 뿐만 아니라, 칩 여러 개를 사용하면 개수에 비례해 성능을 높일 수 있었다.

* 낸드플래시(NAND Flash Memory) : 전원이 꺼지면 저장된 자료가 사라지는 D램과 달리 전원이 없는 상태에서도 메모리에 데이터가 계속 저장되는 플래시 메모리의 일종

▲ 그림 1 : 낸드플래시가 적용된 SSD*, eMMC*, UFS* 등 SK하이닉스의 제품들

이러한 이유로 하드디스크는 메모리 회사들의 eMMC, UFS와 같은 낸드플래시 기반 제품에 자리를 내주어야 했다. 그리고 낸드플래시 메모리가 필요한 곳이 또 하나 생겨나기 시작했다. 바로 인공지능 데이터 학습이다.

* SSD(Solid State Drive) : 반도체를 이용해 정보를 저장하는 장치. 순수 전자식으로 작동하므로 기계식인 HDD보다 긴 탐색 시간, 반응 시간, 기계적 지연, 오류율, 소음을 크게 줄여준다.
* eMMC(Embedded Multi Media Card) : 데이터 고속 처리를 위해 모바일 기기에 내장되는 메모리 반도체. 모바일 기기의 보조 데이터 저장 공간으로 사용되는 탈착형 외장 메모리 카드(SD카드 등)와 달리, eMMC는 컨트롤러와 낸드플래시 메모리가 패키지로 통합돼 모바일 기기에 내장된다.
* UFS(Universal Flash Storage) : eMMC의 뒤를 이어 탄생한 저장 장치로 읽기와 쓰기가 동시에 가능한 초고속 플래시 메모리

학습 서버와 데이터

우리는 지난 2편(HBM 편)[관련기사 ]에서 GPU 내부에서 GPU 칩과 HBM이 어떻게 통신하고, HBM 안에 무엇이 들어 있는지 확인했다. 이제 우리의 이해를 조금 더 넓힐 시간이다. 거대 인공신경망을 학습하는 시스템이 어떤 모습일지 대략 살펴보자.

▲ 그림 2 : 신경망을 빠르게 학습시키기 위해 수많은 GPU가 탑재된 서버들이 연결된 인프라의 예시

<그림 2>를 통해 인공신경망을 학습시키기 위한 대략적인 과정을 살펴보자. 가장 먼저 1)네트워크나 CCTV 등 다양한 곳에서 데이터 소스가 발생해 원본 데이터가 저장소(Storage)에 저장된다. 2)해당 데이터 소스는 데이터 작업자에게 이동하며, 3)데이터 작업자는 데이터를 가공해 다시 저장소(Storage)에 저장한다. 이렇게 형성된 데이터 소스는 4)학습 서버로 이동해 인공지능 학습이 이뤄진다. 학습 서버 1개 내에는 여러 개의 GPU가 연결돼 있다. 필요한 경우 학습 서버까지도 여러 개 연결해 더욱 빠르게 학습시키기도 한다.

예를 들어, 2020년 공개된 인공지능 언어 모델 GPT-3*가 데이터를 학습하기 위해 사용된 데이터셋(Dataset)*의 크기는 약 680GB이고, 데이터를 학습하기 위한 총계산량은 3.114E23 FLOPS(FLoating-point Operations Per Second, 1초당 수행할 수 있는 연산 횟수) 정도로 엄청난 수치임을 고려하면, 이러한 GPU 간의 연결을 넘어 여러 GPU가 탑재된 학습 서버 간의 연결은 당연한 모습임을 알 수 있다.

* 최근 공개된 GPT-3.5와 GPT-4의 경우 데이터셋 정보가 공개되지 않아 정확한 데이터 크기를 알 수 없어 불가피하게 GPT-3에 적용된 데이터셋 크기로 표기
* 데이터셋(Dataset) : 머신러닝 알고리즘 등에 사용(처리, 분석)하기 위해 특정 주제나 분야에 관련성을 가지는 데이터들을 모아놓은 것

이번 편에서 우리가 생각할 부분은 두 가지다. 첫 번째는 GPU에 장착된 HBM 내 학습 데이터는 어디서 온 것이냐는 것이다. 학습 서버에 탑재된 GPU는 학습을 위해 데이터가 저장된 저장소(Storage)에서 데이터를 가져와야 한다. 이 저장소(Storage)는 학습에 필요한 데이터를 가능한 한 많이 탑재할 수 있어야 하므로 용량이 클수록 유리하다. 그뿐만 아니라 대용량의 학습데이터를 HBM으로 전송해야 하므로 속도도 빨라야 한다.

두 번째는 인공신경망 학습에 활용하기 전 데이터를 만들어서 어디에 어떻게 보관하는지다. 인공신경망을 학습하기 위해서는 데이터와 정답이 조합된 데이터가 필요하다. 그래야 인공신경망이 오답을 냈을 경우 좀 더 정답에 가까워지도록 학습할 수 있기 때문이다. 따라서 데이터는 가공하기 전 원본을 함께 보관해 두는 것이 좋은데, 이를 위해서는 더 많은 데이터를 저장하고 송수신하기 위해 대용량과 빠른 속도를 가진 저장소(Storage)가 필요하다.

위 두 가지 문제는 신경망 학습에 필요한 데이터가 커질수록 현실적으로 다가오게 된다. 한글, 영어 등의 대화 같은 자연어 인공신경망은 그나마 문제가 간단하다. 자연어 인공신경망을 기반으로 서비스되고 있는 GPT-3의 학습 데이터 크기는 680GB로 일반 PC에 탑재되는 SSD에도 모두 저장할 수 있을 만큼 데이터의 용량이 크지 않기 때문이다. 하지만 신경망이 학습해야 하는 자료의 종류가 음성이나 이미지 등일 경우에는 자연어 대비 수십 배 큰 데이터를 저장소(Storage)에 저장해야 하므로 용량에 부담이 생길 것이다. 특히 음성, 동영상 등의 데이터를 모아둔 뒤, 당장 어디에 쓸지 정하지 못한 상황이라 계속 데이터가 누적되는 상황이라면 저장소(Storage)는 더욱 중요할 것이다.

▲ 그림 3 : 최근 인공신경망은 다양한 데이터를 학습하고 있다.

실제로 2021년 구글은 인공신경망에 음성, 언어, 이미지 등을 한 번에 학습시킨 패스웨이(Pathway)*라는 차세대 인공지능 모델을 공개했다. 이러한 추세를 볼 때 앞으로 더욱 크고 다양한 형태의 데이터가 필요해질 것이며, 이는 데이터 처리 및 보관, 전송 등의 문제에 메모리 회사들이 중요한 역할을 하게 된다는 것이다. 바로 낸드플래시 때문이다.

* 패스웨이(Pathway) : 2021년 구글이 발표한 자체 인공지능 모델로 영상, 음성, 언어, 이미지 등 다양한 데이터 형태를 동시에 학습할 수 있는 다중 학습 모드를 지원하는 것이 특징이다.

고속 저장소와 인공지능 인프라

낸드플래시는 인공지능 학습 과정에서 발생하는 두 가지 문제를 해결해 준다. 데이터 접근 과정에서 발생하는 병목현상과 GPU의 데이터 처리 속도 대비 느린 저장소(Storage)의 데이터 전송 속도 문제이다. GPU가 신경망을 학습하는 데 필요한 데이터의 크기가 클 경우, 데이터를 불러오는 과정에서 발생하는 병목현상 때문에 학습 속도가 현저하게 느려진다. 학습에 필요한 데이터가 더 커져 서버 저장소(Storage)에 보관할 수 없는 수준이 되면 더욱 큰 성능저하가 나타난다.

▲ 그림 4 : 외부 저장소(Storage)에서 불러오는 데이터 전송 속도보다 학습 서버 내의 데이터 전송 속도가 더 빠르기 때문에 GPU가 학습할 데이터가 부족해지는 문제가 발생한다.

<그림 4>와 같이 빅데이터 학습 시 서버 내 저장소 용량의 한계로 외부 저장소(Storage)를 함께 활용한다. 하지만 학습 서버 내 저장소(Storage)와 GPU 간의 데이터 전송속도 대비 외부 저장소(Storage)와 학습 서버 내 저장소(Storage) 간의 데이터 전송 속도가 느려 GPU가 학습할 데이터가 부족해지는 문제가 생길 수 있다.

전송 속도가 중요한 이유는 학습을 위해 이동한 데이터를 지속해 교체해 줘야 하기 때문이다. 혹자는 한번 이동한 데이터를 여러 차례에 걸쳐 오랫동안 학습시키면 되는 것 아니냐고 이야기하기도 한다. 하지만 이럴 경우 과적합(Overfitting)* 등 학습 결과에 문제가 발생할 수 있다. 이를 방지하기 위해 데이터를 수시로 교체하며 최대한 다양한 데이터를 학습시켜야 하는 것이다. 결국, HBM에 너무 많은 데이터를 저장하는 것보다, 전송 속도 문제가 해결된 저장소 활용을 극대화하는 것이 중요하다.

* 과적합(過適合, Overfitting): 인공지능이 특정 데이터를 지나치게 학습해 일어나는 현상. 인공지능이 문제의 답을 외워 버리듯 행동하게 되며, 실전에서 한 번도 보지 못한 입력값을 접할 경우 정확도가 낮아지게 된다.

낸드 플래시는 위와 같은 문제를 높은 전송 성능으로 해결한다. 더 나아가 학습 서버로 데이터를 더 빠르게 전송하기 위해 고성능 저장소(Storage)를 수십 개의 학습 서버들이 공유하는 형태도 생각해 볼 수 있다. 올 플래시*나 SSD를 여러 개 탑재해 네트워크로 연결한 NAS* 등이 그 예이다. 고성능 저장소(Storage)는 더 많은 데이터를 더 빠르게 처리할 수 있기 때문에, 원활한 데이터 수급이 가능하다. 위에서 언급했던 데이터 전송 속도 차이로 인해 발생하는 데이터 부족 문제를 해결할 수 있게 된 것이다.

* 올 플래시(All-Flash): 수많은 낸드플래시나 SSD를 엮어서 만든 초고속, 초고용량 저장소(Storage)
* NAS(Network Attached Storage): 네트워크로 연결 가능한 디스크 드라이브의 총칭

하지만, 고성능 저장소(Storage)의 뛰어난 성능만으로 이 문제가 모두 해결되는 것은 아니다. 데이터가 이동하는 케이블 역시 중요한 역할을 한다. 보통 낸드플래시 기반의 고성능 저장소(Storage)는 빠른 데이터 처리가 가능하기에 일반적으로 사용되는 인터넷 케이블 소재인 구리선이 아닌 광(光)속의 2/3 속도를 자랑하는 광(光)섬유를 사용한다. 구리선의 경우 최대 10Gbps 정도의 전송이 가능하지만, 이는 시중에서 판매하는 일반적인 SSD의 데이터 처리 속도 절반에도 미치지 못하는 속도이다.

광섬유를 통해 더욱 많은 데이터를 더욱 빠르게 처리할 수 있게 된 고성능 저장소(Storage)는 각각의 학습 서버들과 직접 접근할 수 있다는 장점이 있다. 이는 개별 저장소(Storage) 없이 네트워크를 통해 직접 저장소(Storage)에 접근해 데이터를 불러올 수 있다. 특히 고성능 저장소(Storage)는 빠른 속도를 기반으로 학습 데이터 취득, 가공, 학습을 하나의 저장소(Storage)가 관리할 수 있다.

고성능 저장소(Storage)가 등장하기 전 데이터가 유튜브나 CCTV 카메라에서 실시간으로 전달되는 스트리밍 영상 데이터라면 그 영상을 저장하고, 데이터 작업자가 가공하기 위해 요청한 동영상도 전송해야 하며, 학습 서버가 요구하는 가공이 끝난 학습 데이터도 전송해 줘야 하는 등 저장소(Storage)에 큰 부담이 됐다. 하지만 고성능 저장소(Storage)가 등장한 후에는 한 곳에서 관리되기에 이러한 문제가 사라졌다. 이는 클라우드 시대에 맞춰 SK하이닉스와 같은 반도체 회사들이 오랫동안 메모리와 저장소(Storage) 개발에 노력해 온 덕분이다.

인공지능보다는 인공지능 생태계를

인공지능 학습에서 가장 중요한 메모리를 꼽으라고 하면 다들 HBM을 꼽을 것이다. 인공지능 시대를 연 반도체는 GPU이며, GPU를 가장 가까운 곳에서 돕는 칩이기 때문이다. HBM은 인텔의 신형 CPU부터 각종 스타트업의 NPU 등 모두가 중요하게 여기는 메모리이다.

하지만 인공지능 개발은 학습 데이터를 GPU가 한두 번 학습하고 끝나는 것이 아니다. 인공지능을 개발하기 위해서는 신경망에 끝없이 다른 데이터를 새로운 형태로 가공해 학습시켜야 한다. 이는 마치 전선에서 싸우는 병사와 후방 보급부대의 관계와도 비슷하다. 병사가 최전선에서 싸우기 위해서 탄약과 식량이 필요하듯, 최전선에서 인공신경망을 학습시키기 위해서는 신경망에 맞는 대량의 데이터가 제시간에 만들어지고 학습용 서버에 탑재된 GPU에 들어와야만 제 역할을 할 수 있다. 이런 관점에서 보면 인공신경망 데이터의 저장과 이동을 책임지는 낸드플래시는 인공지능 반도체의 후방 보급부대라고 할 수 있다.

지난 두 편에서 우리는 인공지능 기술 발전으로 인해 프로그래밍 모델이 어떻게 변했고, 이 프로그래밍 모델이 반도체에 요구하는 것이 어떻게 바뀌었는지 살펴봤다. 이번 낸드플래시 역시 같은 시각으로 바라보면 된다. 인공신경망을 개발하는 방식의 특성상 원본 데이터 취득에도, 데이터 가공에도 높은 읽기, 쓰기 능력이 필요해졌다. 인공신경망을 학습시킬 때는 전 단계에서 만든 거대한 학습 데이터 중 원하는 것을 취한 뒤 그 데이터를 GPU가 학습할 수 있도록 전송돼야 하며, 이를 위해 역시나 고성능 저장소(Storage)가 필요해진 것이다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 2편] 챗GPT 등 인공지능의 연산을 높여준 세계 최고 성능 D램, HBM의 등장(2/7)

정인성 작가 — Mon, 13 Mar 2023 15:00:00 +0000

인공지능(AI, Artificial Intelligence)은 최근 전 세계를 가장 뜨겁게 달구는 키워드다. 그래서 SK하이닉스 뉴스룸에서는 [인공지능 반도체] 코너를 마련, 인공지능 전문가 정인성 작가와 함께 총 일곱 편의 기고문을 연재할 예정이다.

이번 연재는 컴퓨터와 반도체의 관점에서 인공지능을 살펴볼 것이다. 기존의 프로그램이 인공지능으로 바뀌면서 0과 1의 세계가 구체적으로 어떻게 변화하는 것인지 알아보고, 이를 실행하는 데 필수적인 반도체는 어떤 중요한 역할을 해야 하는지 확인해볼 것이다. 이를 통해 반도체는 인공지능을 포함한 새로운 ICT 기술의 등장에도 두려워하기보다는 세상을 변화시킬 혁명의 주인공이 될 것이다. (필자 주)

인공지능 시대의 개막

2012년, 사물 인식 대회였던 이미지넷 챌린지(ImageNet Challenge)에서 이변이 일어난다. 이미지넷 챌린지는 전 세계에 있는 사물 인식 알고리즘에 동일한 데이터를 준 뒤, 주어진 데이터 내에서 누가 더 정확하게 사물을 분류하는지 겨루는 대회다. 2012년 전까지 이 대회는 매해 극히 적은 수준의 정확도 개선이 일어나고 있었지만, 인공신경망 알렉스넷(AlexNet)이 대회에 등장하면서 그 흐름이 바뀐다.

알렉스넷은 수많은 사물 데이터를 인공신경망에 투입함으로써 신경망을 학습시키는 방식으로 만들어졌다. 알렉스넷은 기존의 사물인식 알고리즘과는 다르게 동작했다. 사진에 복잡한 처리를 하고 각종 특징을 뽑아내어 알고리즘에 전해주는 대신, 사진을 그대로 투입하면 인공신경망이 결괏값을 스스로 판단해내는 방식으로 동작했다. 알렉스넷은 대회에서 압도적인 차이로 우승했고, 이후 이미지넷 챌린지의 승자는 전부 인공신경망으로 변화하게 된다. 인공지능의 시대가 열렸음을 보여주는 상징적이고 결정적인 사건이었다.

인공지능이 메모리에 던진 과제

알렉스넷은 처음부터 GPU* 사용을 염두에 두고 만들어진 인공신경망이었다. 앞서 설명했듯 사물 인식 프로그램(인공지능)을 만들기 위해서는 수십억 개의 인공 뉴런 사이 연결 강도를 올바른 값으로 지정해줄 필요가 있다. 하지만 올바른 값은 단 한 번에 찾아낼 수 없다.

* GPU(Graphics Processing Unit) : 각종 대규모 병렬 연산에 강점을 가진 반도체. 본래 그래픽 처리에 사용되었으나, 인공지능 기술이 대규모 병렬 연산을 통해 구현 가능하다는 사실이 알려지면서 최근 인공지능 분야에서 큰 인기를 끌고 있다. GPU와 인공지능의 관계를 더욱 자세히 알고 싶다면 지난 칼럼을 참고바란다.

▲ 이미지넷 챌린지 TOP5 모델의 정확도는 2011년 73.8%를 기록했으나, 2012년 알렉스넷이 등장함에 따라 가파르게 상승, 2016년 93.95%에 다다르게 된다.

연구원들이 찾아낸 방법은 수없이 많은 데이터를 투입해가며 서서히 올바른 값을 찾아가는, 연산이 매우 많이 필요한 과정이었다. 이 과정에서 정확도가 50%에서 51%, 그리고 90% 이상까지 서서히 높아졌다. ‘프로그래밍’이라는 단어보다는 ‘학습’이라는 단어가 더 어울리는 이유이기도 하다.

한편, 인공신경망이 더 많은 사물을 정확하게 구분하기 위해서는 주어진 사진 내에서 더욱 다양한 정보를 뽑아낼 수 있어야 한다. 그렇게 하려면 신경망의 크기를 키우고, 더 많은 데이터를 투입해 학습시켜야 한다. 그러기 위해서는 더 큰 메모리가 필요하다. 실제 알렉스넷 논문에도 메모리 용량의 중요성을 언급하는 부분이 있음을 알 수 있다.

In the end, the network’s size is limited mainly by the amount of memory available on current GPUs and by the amount of training time that we are willing to tolerate.*
* 출처. ImageNet Classification with Deep Convolutional Neural Networks (nips.cc)

이 글에서 알 수 있듯, 네트워크(신경망) 크기를 키우지 못한 이유 중 하나로 메모리 용량을 언급하고 있다. 당시에도 연구팀은 더 큰 메모리와 학습 시간만 주어졌다면, 더 높은 점수를 낼 수 있다고 생각했을 것이다. 메모리가 인공지능 시대에 중요한 역할을 한다는 사실은 이미 11년 전부터 알려져 있던 것이다.

실제로 알렉스넷은 이런 한계를 뛰어넘기 위해 GPU 2개(GTX 580)를 결합하는 테크닉을 사용하는 등 다양한 연구를 해야 했다. 이 문제에 대해 메모리 회사가 내놓은 답은 무엇이었을까?

HBM : 고대역폭 메모리의 부상

메모리는 다양한 특성을 가졌다. 이중 메모리 구매자가 중요하게 살펴보는 특성은 대역폭(Bandwidth), 반응 속도(Latency), 용량(Capacity)이다. 대역폭은 메모리에서 한 번에 빼낼 수 있는 데이터의 양을 의미한다. 반응 속도는 CPU나 GPU의 요청이 들어왔을 때 얼마나 빨리 첫 반응을 할 수 있는지를 뜻한다. 용량은 메모리 안에 얼마나 많은 데이터를 담을 수 있는지를 말한다.

▲ 데이터가 메모리에서 CPU/GPU로 이동하는 모습을 적재물(데이터), 창고(메모리), 공장(CPU/GPU), 그리고 도로의 너비(대역폭)에 비유

메모리를 일종의 데이터 창고라고 한다면, 대역폭은 창고로 들어오는 도로의 너비다. 도로가 넓다면 한 번에 지나다닐 수 있는 자동차 수가 많음으로, 창고에서 많은 양의 데이터를 한 번에 빼낼 수 있다. 반응 속도는 도로 위에서 돌아다니는 자동차들의 속도다. 용량은 창고의 총 크기라고 생각하면 된다.

HBM*은 대역폭과 용량에 중점을 두고, 반응 속도를 다소 양보한 제품이다. 따로 제조된 D램 칩을 여러 개 적층한 뒤, D램에 TSV* 공법을 이용해 칩을 관통하는 전극을 생성하는 것이다.

* HBM(High Bandwidth Memory) : 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품
* TSV(Through Silicon Via) : 수천 개의 미세한 구멍을 뚫고 이를 관통하는 전극으로 여러 개의 칩을 연결해 데이터를 전달한다. 기존 방식 대비 신호 전달 속도가 빠르고, 집적도(Density)를 확보하기도 훨씬 용이함

HBM은 일반 PC용 D램과는 매우 구분되는 장점이 있다. 일단, D램을 여러 개 적층했으므로 기반 면적당 높은 용량을 확보할 수 있다. 그뿐만 아니라 반도체 제조에 가까운 방식인 TSV를 사용하기에 좁은 면적에 여러 D램의 데이터 연결 통로를 촘촘하게 밀집시켜 만들 수 있다. 덕분에 고작 칩 하나 면적 수준에서 메모리 4개 이상의 대역폭을 가진다. 4차선 도로를 짓는 대신 4개 층을 가진 1차선 도로를 만드는 셈이다. 다만, 칩을 적층한 이유로 발열 해소에 문제가 생길 수 있어, 개별 칩의 동작 속도는 약간 줄었다. 이로 인해 반응 속도에서 약간의 손해가 발생한다.

▲ 더 많은 대역폭을 가지는 HBM의 장점

본래 HBM은 고성능 그래픽 처리를 위해 탄생한 제품이다. 그래픽 처리는 모니터에 표시될 수백만 개의 픽셀(Pixel)을 계산해야 하기에 매우 높은 대역폭과 실수 연산 능력을 필요로 했다. 이로 인해 그래픽 처리는 컴퓨터 역사에서 일찌감치 CPU에서 독립하여 GPU, 혹은 VGA라는 이름의 그래픽 전용 가속 카드가 처리하게 발전했다.

메모리 회사들 역시 GPU가 요구하는 고대역폭 메모리를 GDDR(Graphics Double Data Rate)이란 이름으로 꾸준히 공급해 왔다. 그리고 인공지능학자들이 GPU를 이용해 돌파구를 열면서, GPU의 든든한 동반자였던 고대역폭 메모리 역시 날아오르게 된 것이다. 여기에 그래픽 처리를 능가할 정도로 높은 메모리 용량을 요구하게 되면서 HBM이 더욱 빛을 보게 된 것이다.

인공지능에 HBM이 필요한 이유: 학습

인공지능을 만드는 첫 단계는 학습이다. 학습은 과거의 프로그래밍으로 따지면 프로그램 자체를 구현하는 매우 중요한 작업이다. 연구원들은 신경망을 구성하고 난 뒤, 신경망을 초기화하고 본격적으로 학습 작업에 들어간다.

신경망 학습을 위해서 연구원들은 수만~수백만 개의 데이터를 준비한다. 이 데이터는 단순한 사진, 글자 등의 조합이 아니다. 연구원들은 문제-정답으로 한 쌍을 갖춰준 뒤 신경망이 특정 문제를 풀었을 때 오답을 내면 에러를 줄이는 방향으로, 신경망 내부 수백~수백억 개의 뉴런 연결 강도를 조정해 주고, 정답이 나왔을 경우 정답을 더 말하는 방향으로 연결 강도를 조정해 준다. 이는 24시간 내내 GPU를 구동해도 수시간, 수개월이 걸리는 매우 고된 작업이다. 학습 과정에서 각 인공 뉴런 사이의 연결 강도는 수십만 번 이상 변화한다.

당연하지만 이 작업을 빠르게 하기 위해서는 학습 데이터가 최대한 연산 장치에 가까이 있어야 한다. 먼 곳에 있는 학습 데이터를 가져와야 할 경우 학습 데이터를 전송하는 데 너무나 많은 시간이 들기 때문이다. 당연히 GPU 칩과 최대한 가까운 곳에 메모리를 두려 하게 된다. GPU 회사가 HBM의 큰 고객이 될 수밖에 없는 이유다.

또한 짐작할 수 있겠지만, 학습 과정에서 사용되는 메모리 용량은 추론* 시에 사용되는 메모리보다 훨씬 크다. GPU 내부 메모리에는 학습 대상 인공신경망 + 학습시킬 데이터 배치(Batch)* + 각종 연구 개발용 정보 등 다양한 데이터가 들어가야 하기 때문이다. GPU 내부에 한 번에 배치를 많이 넣을수록 학습이 안정적으로 진행될 수 있다. 실제로 신경망의 크기가 1이라고 하면, 학습 데이터에 사용되는 메모리가 4~5 이상 되는 경우도 있다.

* 추론 : 인공신경망이 실제로 문제를 푸는 행위
* 배치(Batch) : 일종의 인공신경망 학습 단위. 데이터의 묶음으로 구성됨

▲ GPU와 메모리가 하는 일, GPU는 메모리에 저장된 인공신경망 일부와 데이터 일부를 지속적으로 가져와 연산(학습 및 추론)하고 중간 산출물과 최종 결과 등을 메모리에 저장하는 과정을 반복한다.

고성능 GPU는 한 번에 처리 가능한 연산량도 크기 때문에, 한 번에 많은 데이터가 GPU 코어에 투입되어야 제 성능을 발휘할 수 있다. 거대한 재고 창고와 공장을 자전거 도로로 연결하면 공장이 쉴 수밖에 없다. 따라서 거대한 공장에는 넓은 도로가 필요하듯, 고성능 GPU 역시 큰 대역폭을 필요로 하는 것이다.

인공지능에 HBM이 필요한 이유 : 추론

한편, HBM은 학습뿐만 아니라 추론에서도 강력한 힘을 발휘하고 있다. 최근 챗GPT 등 초거대 언어 모델이 대두하기 시작했는데, 이들은 추론에도 매우 큰 메모리가 필요하다. 일반적으로 추론용 GPU는 NVIDIA T4 등 학습용 GPU보다는 메모리가 적은 GPU 모델이 사용된다. 하지만 초거대 모델의 경우 8~16GB 정도의 메모리로는 추론을 돌릴 수 없다.

지금 유행하는 챗GPT의 경우 자료형 선택에 따라 320~640GB 정도의 메모리를 사용할 것으로 예상된다. 이는 현재 필자의 작업용 컴퓨터 메모리의 10배 이상인 어마어마한 수치다. 컴퓨터 본체도 아니고, 부속으로 달리는 GPU가 이런 큰 용량을 감당해야 하는 것이다.

혹자는 GPU 대신, 거대한 서버 컴퓨터에 CPU를 탑재한 뒤 일반 메모리를 대량으로 탑재해 추론에 사용하면 되지 않느냐고 생각할지 모른다. 실제로 메모리 용량만 놓고 비교할 경우, CPU에 메모리 640GB가 탑재된 서버가 GPU로 640GB를 확보한 것보다 더 싸다. 하지만 이 경우 추론 속도가 너무 느려 사용하기 힘들어진다. Hugging Face*에 공개된 GPT-2 알고리즘 기준 CPU에서 추론 시 처리당 0.05~0.1초의 시간이 필요했다. 이보다 100배 이상 거대한 GPT-3 모델의 경우, CPU에서 처리당 10초 이상이 소요된다는 의미다. 이는 상업적으로 사용하기 힘든 속도다. 결국 GPU를 엮어서 쓸 수밖에 없는 것이다.
* 참고. Accelerated Inference with Optimum and Transformers Pipelines (huggingface.co)

당연히 이런 대용량 메모리를 GPU에 탑재하기 위해서는, 면적당 메모리 집적도가 매우 높아야 한다. 현실적으로 메모리 회사가 1~2년 만에 D램 칩 자체 밀도를 3~4배 늘리는 것은 불가능하다. 그 때문에 HBM과 같은 면적 대비 밀도가 높은 칩이 필요한 것이다. 물론 HBM을 사용할 경우 GB당 가격은 일반 DDR 메모리보다 훨씬 높아지게 되지만, 인공지능 기술이 가져다주는 매우 높은 부가가치 덕분에 칩의 인기는 매우 높다.

HBM을 사용하는 NVIDIA A100 카드와 GDDR을 사용하는 NVIDIA A6000 카드의 메모리가 사용하는 면적 차이를 보면 그 힘을 알 수 있다. 두 그래픽 카드의 물리적 크기는 동일하지만, 사용 가능한 메모리 용량은 A6000이 24~48GB, A100이 40~80GB다. A100이 2배 가까이 더 크다. 대역폭 역시 A600은 약 800GB/s이지만, A100은 1,900GB/s로 2배 가까이 크다. A6000 대신 A100을 사용할 경우, 동일 컴퓨터에 신경망을 2배 집적할 수 있을 뿐만 아니라 개별 신경망 작동 속도까지 2배로 상승하게 되는 것이다.

▲ 일반 메모리와 HBM 메모리의 인공신경망 구동 비교, GDDR 메모리 등 일반 메모리는 물리적 공간을 크게 차지하기에 GPU 카드 하나의 메모리 용량을 늘리는 데 한계가 있다. 반면 HBM은 동일 면적에서 더 높은 밀도를 가지기에 GPU 카드당 더 많은 메모리를 부착할 수 있고, 더욱 큰 용량의 인공신경망을 담을 수 있다.

HBM은 복잡한 카드 간 연결을 줄여주는 역할도 한다. 이미 알렉스넷에서 봤듯이, GPU 메모리 용량이 부족하면 신경망을 둘로 쪼개 각기 다른 GPU 카드에 탑재해야 한다. 최근 유행하는 초거대신경망은 A100 카드 한 장에 들어가지 못해 동일 카드를 여러 장 묶어 사용해야만 한다. 이로 인해 인공지능 초반에 알렉스넷이 해야 했던 것 이상으로 번거로운 일을 해주어야 할 것이다. 수백 GB의 신경망을 여러 개의 GPU에 나눠 담는 동시에 추론 속도에 큰 영향을 받지 않게 하는 등 여러 테크닉을 구사해야만 한다.

만약 단일 GPU에 탑재된 메모리가 더욱 크다면 이런 번거로움이 줄어든다. HBM은 동일 GPU 카드 면적에 더 높은 메모리를 제공할 수 있기에 꾸준히 인공지능학자들에게 큰 도움이 될 것이다. NVIDIA의 차기 학습용 GPU인 H100의 경우 80GB 메모리부터 시작한다. A100 역시 40GB에서 출발하여 80GB 카드를 출시했으므로 더 큰 메모리를 가진 H100 제품이 나올 것도 예상할 수 있다.

결론

HBM은 인공지능 시대가 열리면서 가장 주목받은 메모리다. 우리는 HBM이 대두하는 과정을 분명하게 이해해야 할 필요가 있다. 본래 메모리 비즈니스의 덕목은 ‘매해 같은 용량을 더 싸게 파는 비즈니스’가 핵심이었다. CPU 기반의 프로그램은 예측할 수 있는 방식으로 발전해 왔고, 매해 더 큰 용량의 메모리를 제공하면 되는 것이었다. 메모리 회사가 해야 할 일은 더 많은 프로그램을, 혹은 용량이 더 큰 동영상을 동시에 수행할 수 있게 하는 것이었다. CPU의 동작 방식상, 이 모든 데이터를 한 번에 접근하려 하진 않을 것이기 때문이다.

하지만 인공지능 기술이 나타나면서 상황이 바뀐다. 인공신경망 기반의 프로그램, 인공지능은 메모리 공간을 크게 차지할 뿐만 아니라, 주어진 시간 내에 접근해야 하는 메모리의 총량도 압도적으로 컸다. 이로 인해 용량 대비 가격이 비싸더라도, 더 큰 용량과 더 큰 대역폭을 제공하는 메모리를 원하게 된 것이다. 본래 메모리에 수백~수천만 원의 지출을 하는 것은 어마어마한 비용이었지만, 부가가치가 높은 인공지능 입장에서는 HBM 가격은 ‘고작 수백만 원’에 불과하다.

우리는 이런 사실을 잘 이해할 필요가 있다. 프로그램, 나아가 IT 환경의 변화는 비즈니스의 가정 자체를 뒤집어 놓을 수 있다는 것이다. 신기술로 인해 ‘대역폭과 총용량’의 가치가 ‘용량당 가격’의 가치를 넘어섰다. 앞으로 새로운 기술들이 나타날 때마다 이 기술은 과연 메모리에 무엇을 요구하게 될지 고민해 봐야 할 시대다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[인공지능과 반도체 1편] 챗GPT 등 인공지능의 시대 : 프로그래밍과 인공지능, 그리고 GPU의 등장 (1/7)

정인성 작가 — Thu, 23 Feb 2023 15:00:00 +0000

전통적 프로그램이 동작하는 방식

우리는 이미 20년 전에도 컴퓨터 없는 세상을 상상할 수 없었다. 21세기 초, 인터넷 뱅킹이 생겨나기 시작했고, 각종 인터넷 쇼핑몰이 생겨났다. 수많은 회사가 엑셀과 같은 스프레드시트 프로그램을 사용해 회계 작업의 효율성을 높였고, 워드프로세서 프로그램들을 통해 수기 작업을 대체했다. 이후에는 개별 컴퓨터에 보관되던 작업물이 중앙 서버에 집중되기 시작했고, 각 직원은 자신의 물리적 위치에 구애받지 않고 일할 수 있게 됐다. 그렇다면 의문이 하나 생길 것이다. 대체 프로그램이란 무엇인가?

간단한 예를 들어 보자. 한 직원이 문서 내의 모든 행에 있는 숫자를 합하는 프로그램을 만들고 싶어 한다고 가정해보겠다. 그리고 현재 문서가 다섯 줄이라면 어떻게 해야 할까? 제일 첫 단계는 일단 ‘사람이라면 어떻게 하는지’ 고민하는 것이다. 아마도 마음속에 제일 먼저 떠오르는 것은 무언가를 ‘다섯 번 반복’하면 된다는 사실일 것이다.

▲ 그림 1 : 무언가를 다섯 번 반복하기 위한 코드의 흐름

하지만 이렇게 다섯 번 반복해서는 의미가 없다. 수를 모두 합해야 하기 때문이다. 반복할 때마다 사라지지 않고 누적되는 어떤 값을 만들어야 한다. 따라서 프로그램을 다음과 같이 개조할 수 있다.

▲ 그림 2 : 다섯 줄의 숫자를 합하는 프로그램의 흐름

해냈다! 드디어 프로그램의 구조를 만들었다. 이제 이 순서도에 맞춰서 프로그래밍 언어로 코드를 만들면 된다. 파이썬(Python)*이라는 프로그래밍 언어로 만든다면 아래와 같은 모습이 될 것이다. 프로그래밍 언어를 모르는 사람이라도, 아래 코드를 읽는 것에는 큰 어려움이 없을 것이다.

* 파이썬(Python) : 귀도 반 로썸(Guido van Rossum)이 개발한 프로그래밍 언어. 초보자도 사용하기 편하다는 특징이 있다.

▲ 그림 3 : 완성된 다섯 줄의 숫자를 합하는 파이썬 프로그램 코드

만약 지금 만든 프로그램을 다섯 줄의 한계 없이, 어떤 데이터가 입력되더라도 파일의 끝까지 더하는 프로그램으로 개선하고 싶다면 어떻게 해야 할까? 아마도 ‘다섯 번 반복’을 무언가 다른 것으로 바꿔야 한다는 짐작이 가능할 것이다. 다행히도 이미 ‘누군가’가 파일을 읽을 때 EOF(End of File)을 알려주는 기능을 추가했다. 이 기능을 활용하면 된다. 위 그림에서 빨간 네모 친 부분을 바꾸면 된다는 의미다.

이렇게 우리는 전통적 프로그램을 완성하고, 개선까지 해냈다. 우리는 이 과정에서 여러 가지 사실을 알 수 있다. 가장 중요한 것은 순서도를 만드는 것이다. 시키고 싶은 작업이 있다면, 프로그래밍 언어는 달라도 순서도의 모습 자체는 동일하다는 것을 명심해야 한다. 다시 말하면, 순서도를 떠올리지 못하면 프로그램을 만들 수 없다는 의미다.

또, 한 가지 사실은 프로그램을 만드는 과정에서 ‘누군가’ 다른 사람이 만든 코드에 크게 의존하게 된다는 것이다. 사실 위에서 구체적으로 언급하지는 않았지만, EOF 확인 이외에도 ‘파일을 읽는 것’, ‘모니터에 출력하는 것’ 등 역시 다른 누군가가 만든 함수다. 이런 기능들은 운영체제(OS, Operating System)가 제공하기도 하며, 누군가 다른 사람이 특정 프로그래밍 언어로 만들어 두기도 한다. 프로그래머들은 프로그래밍을 시작하기 전 이런 다양한 요소들을 고려한다. 예를 들어, 만약 내가 만들고 싶은 프로그램을 개발하기 위해선 데이터를 매우 특별한 방식으로 바꿔야 하는데, 그 기능이 자바(Java)*에 이미 존재한다면 자바로 코드를 만드는 것이 효율적이다.

우리가 매일 사용하는 워드프로세서, 스프레드시트, 웹 브라우저 등 대부분의 프로그램이 위와 같은 작업을 통해 만들어진 것이다. 그렇다면 인공지능 시대에는 무엇이 바뀌는 것일까?

* 자바(Java) : 오라클(Oracle)사가 개발한 프로그래밍 언어의 일종

신경망과 인공지능

위에서 우리가 살펴본 프로그래밍 방법은 완벽한 것 같지만 사실은 그렇지 않다. 여기에는 두 가지 문제가 있다. 하나는 프로그램이 스스로 배우지 못한다는 것이다. 우리는 프로그램을 고치기 위해 순서도를 고쳐야 했다. ‘다섯 번 루프’를 ‘EOF로 대체하지 않는 이상, 프로그램은 영원히 파일의 첫 다섯 줄만을 가져와 처리했을 것이다.

더 큰 문제는 따로 있다. 바로 인간이 순서도를 만들지 못하는 프로그램은 만들 수 없다는 것이다. 프로그래밍의 첫 단계를 해내지 못하니 다음 단계로 가지 못하는 것이다.

사진이 입력되면 동물의 종류(개와 고양이)를 구분하는 프로그램을 만들어야 한다고 해 보자. 여러분은 개와 고양이를 어떻게 구분하는가? 아마 바로 떠오르는 것은 주둥이의 모습일 것이다. 그래서 아래와 같은 순서도를 만들었다고 해 보자.

▲ 그림 4 : 개와 고양이를 구분하는 간단한 프로그램의 흐름

그런데 문제가 생긴다. 누군가 동물 주둥이가 가려진 사진을 두 개 가지고 온 것이다. 이제 프로그램이 작동하지 않는다. 프로그래머는 놀라 허겁지겁 새로운 알고리즘을 만들기로 한다. 눈동자의 모양을 확인하는 코드를 추가하면 개와 고양이의 구분이 가능할 것이다. 하지만 새로운 개, 고양이 사진을 가지고 올 때마다 이런 일이 계속 생겨날 것이다. 위와 같은 순서도 기반의 프로그램으로는 도저히 개와 고양이를 구분하는 안정적인 프로그램을 만들 수 없을 것이다. 현실에서는 개와 고양이를 구분하는 눈, 코 등의 요소들을 찾아내는 것도 힘든데, ‘주둥이, 눈동자 모양’만 골라내는 코드를 만드는 것 역시 매우 힘들다. 특정 사진에서는 쉽게 찾아낼 수도 있지만, 수백만 개의 다양한 사진에서 특정 요소를 골라내기는 매우 어려운 일이다.

▲ 그림 5 : 개와 고양이 구분하는 프로그램을 구성하기란 매우 어렵다.

하지만 인간은 사진을 보면 ‘척 보면 딱’ 개와 고양이를 구분해낸다. 스스로 어떻게 구분했는지는 잘 모르지만, 할 수 있다. 그렇다면, 인간과 비슷한 구조의 프로그램을 만든다면 어떻게 동작하는지는 몰라도, 개와 고양이를 잘 구분할 수 있게 될 것이라는 가정이 가능하다. 따라서 아래의 구조와 같은 프로그램을 만들어 보게 된다. 이제 프로그램에는 순서도가 없고, 수 없이 연결된 인공적인 신경세포가 가득하다. 이를 ‘인공신경망’이라 부른다.

인공신경망의 입력 부분에 사진을 투입하면, 출력 부분에서는 개인지 고양이인지가 출력되는 것이다. 이제 프로그래머가 해야 하는 일은 저 수많은(수백만~수백억 개) 신경세포들 사이의 연결 강도를 지정해 주는 것이다. 하지만 순서도가 없으니 각 세포가 뭘 하는 것인지 하는지 알 수가 없다. 개와 고양이를 구분하기위해 첫 번째, 두 번째… 백만 번째 인공 뇌세포는 무엇을 해야 하는 건지 어떻게 알 수 있겠는가? 이 문제로 인해 인공신경망이라는 개념은 1960년대에 처음 등장했음에도 50년 가까운 세월 동안 빛을 보지 못했다. 우리가 학습이라고 부르는 것은 일종의 프로그래밍 방법이다.

▲ 그림 6 : 인공신경망이 동작하는 방식

* 입력층 : 입력을 받아들이는 층
* 은닉층 : 입력층으로부터 입력값을 받아 가중치를 계산하는 부분으로 가중치의 수정으로 인한 학습이 진행되는 층
* 출력층 : 결과를 출력하는 층

오랜 연구 끝에, 과학자들은 역전파(Backpropagation)*, 초깃값 세팅 등 다양한 방법을 개발했다. 위 방법들과 함께 대량의 학습 데이터를 투입할 경우, 우리들이 개별 세포들의 역할을 모르더라도 잘 동작하는 프로그램, 즉 인공지능을 만들 수 있게 된 것이다. 이렇게 해서 새로운 세상이 열리게 됐다. 새로운 이론들을 통해 신경망을 학습시키자, 신경망 내 다양한 은닉층은 각자의 역할을 가질 수 있게 됐다.

* 역전파(Backpropagation) : 맨 마지막 층의 값부터 비교하는 방법으로 학습하면서 차례차례 역으로 원하는 곳까지의 결과값을 얻어내는 과정

이 대목에서 우리는 반도체 엔지니어들이 인공지능 기술을 어떻게 접근해야 하는지 알 수 있다. 예를 들면, 우리가 인공지능의 ‘학습’이라고 부르는 것은 결국 수백만 개가 넘는 인공 뉴런 사이의 연결 세기를 ‘제대로’ 지정해 주는 일이었을 뿐이다. 반도체 엔지니어가 인공지능에 접근하는 방법에 대해 다음 예를 통해 설명해보겠다.

▲ 그림 7 : 인간의 얼굴을 찾아내는 가상의 인공신경망 예

<그림7>의 예는 사람의 얼굴만을 골라내 출력하는 가상의 인공신경망이다. 우리가 이 신경망을 구성한 뒤 학습시키게 되면, 각 층은 대략 위와 같은 역할을 가지게 된다. 일단 입력층에 가까운 은닉층이 원, 가로선, 세로선, 대각선 등 특정 도형들에 활성화가 되게 학습된다. 그다음 은닉층은 인간의 얼굴을 찾기 위해, 눈 코 입 등을 찾으려 한다. 이때 사진 원본 대신 그 전 단계 은닉층이 제공해준 정보를 사용하는 것이다.

눈을 탐지하는 은닉층은 눈이라는 신체 부위의 특징상, 원에는 크게 반응해야 하지만, 세로선에는 거의 반응하지 않아야 할 것이다. 만약 입을 찾아야 한다면, 가로선이 가장 중요하고 세로선은 별로 중요하지 않을 것이다. 과학자들이 발견한 학습 방법론의 의의는 사람이 일일이 눈, 코, 입 등을 얼굴 구분에 중요한 요소를 지정해주지 않아도 데이터만 투입해 주면 자동으로 내부의 신경망이 층을 나눠 위와 같은 역할을 가지게 만들 수 있다는 것이었다.

당연하지만 인공신경망을 키우고 은닉층이 깊어질수록 더욱 세밀한 분석을 할 수 있게 된다. 더 많은 은닉층이 있다면, 대각선에 반응하는 선이 학습 과정에서 생겨날 수 있고, 눈과 코 출력 결과를 또 모아서 눈과 코 사이의 거리를 확인하는 세 번째 은닉층이 생길 수도 있다. 이 과정에서 점점 인간 얼굴을 구성하는 더 많은 요소를 고려할 수 있게 되며, 정확도가 높아지게 되는 것이다.

‘현재 인공지능의 학습이란 것은 수많은 소수점을 변경하고 저장하는 것을 반복하는 것이다.’

이것이 여러분이 반도체를 알기 위해서 프로그램을 이해해야 하는 이유다. 위와 같은 이해를 해야만 이후 중요한 변화가 생겼을 때 대응할 수 있다. 만약 인공지능 기술의 트렌드가 바뀌어, 신경망의 크기가 매우 작아지면? 역전파를 대체할 학습 방법론이 생겨나면? 이런 세세한 트렌드 변화는 프로그램들이 원하는 반도체의 특성을 바꾼다. 만약 ‘인공지능은 큰 메모리가 필요하다’라고 암기식으로 접근한다면, 이때 잘못된 결론을 내리게 될 것이다.

프로그램을 위해 진화해 온 CPU

반도체 입장에서의 프로그램을 조금 더 자세하게 살펴보자. 앞서 우리는 순서도 기반으로 만들어진 프로그램을 살펴봤다. 이런 프로그램들은 그 자체로는 의미가 없으며, CPU(Central Processing Unit, 중앙처리장치)가 있어야만 의미를 가진다. 프로그래머는 앞서 만든 순서도를 컴퓨터가 이해하는 기계어로 변환한 뒤, 메모리에 저장한 다음 CPU에 프로그램을 실행해 달라고 요청하는 것이다.

위 예에서 알 수 있지만, 프로그램을 수행하기 위해서는 크게 세 가지의 연산 종류가 필요함을 알 수 있다. 하나는 덧셈, 뺄셈 등의 사칙연산, 메모리 입출력, 비교와 분기다. 분기라는 것은 조건에 맞춰 선택지를 택하는 것을 의미한다. 인간 입장에서 ‘1부터 5까지 더한다’라는 작업은 컴퓨터 입장에선 아래와 같이 보이게 된다. 일반적으로 CPU 내부에 레지스터라는 고속 저장소가 있으므로, 변수 2개(N, S) 정도는 메모리 접근 없이 처리할 수 있지만 설명을 간단히 하기 위해 이런 부분은 과감히 생략하겠다.

▲ 그림 8 : 연산 칩 입장에서 1에서 5까지 더하는 프로그램의 흐름과 CPU와 메모리의 역할

위 작업을 분석해 보면 메모리 접근과 산술 연산이 매우 빈번하지만, 분기 역시 자주 발생함을 알 수 있다. 이와 마찬가지로 현대 컴퓨터 프로그램의 상당 부분은 분기 처리로 이뤄져 있다. “ESC 버튼을 입력하면 → 현재 프로그램을 종료하라”와 같은 간단한 명령조차 분기다. “출금 버튼을 누르고 대상 계좌가 입력되면, 돈을 송금하라”와 같은 명령도 분기가 필요하다.

그렇다면 CPU가 계속 활용되기 위해서는 어떻게 해야 할까? 위 순서도에 따르면 세 가지 성능이 개선되면 된다. 산술 연산 속도, 분기 처리 속도, 메모리 접근 속도가 높아지면 된다. 위 예에서는 연산을 한 바퀴 돌 때 메모리 접근 6회, 산술 연산 2회, 비교 및 분기 1회가 포함돼 있다. 여기서 만약 메모리 접근과 산술 연산이 회당 1의 시간이 필요하고, 비교 및 분기에 10의 시간이 필요하다고 가정하면, 현재 작업 한 바퀴 수행에 걸리는 시간은 18(6*1+2*1+1*10)이다. 그런데 CPU가 비교 및 분기에 시간이 5로 개선된다면, 이 시간은 13으로 줄어 30% 가까이 빨라질 것이다.

CPU는 다양한 연산 종류와 분기 등이 섞여 있는 프로그램을 처리해야 했기 때문에 이 3가지 능력을 골고루 발전시키는 방향으로 발전했다. CPU 회사들은 미세화의 힘으로 얻어낸 새로운 트랜지스터들을 이런 능력을 향상하기 위해 아낌없이 투자했다. 기존 프로그램이 CPU만 바꾸면 빨라지게 되니, 새로운 수요는 계속 창출될 수 있었다. 지난 수십 년간 인텔의 CPU가 세계를 지배한 이유가 이것이다.

GPU의 등장과 인공지능

하지만 인공지능 기술이 크게 발전하면서 완전히 다른 형태의 프로그래밍이 생겨났다. 인공지능, 정확하게는 인공신경망 기반의 프로그램은 아래와 같은 구조로 움직인다. 과연 프로그램과 반도체의 입장에서 인공지능은 어떤 모습으로 보일까?

▲ 그림 9 : 연산 칩 입장에서 인공신경망의 구성

이 안에는 분기라는 것이 없다. 대신 산술 연산과 메모리 접근이 압도적으로 많다. 위에서 살펴본 CPU 기반 프로그램의 경우, 고작 몇 번의 연산과 분기만 처리하면 결괏값이 출력됐다. 하지만 인공신경망은 수백~수억 번의 연산을 거쳐야 결괏값을 출력할 수 있다. 실제로 인공신경망은 CPU 기반의 일반적 프로그램보다 코드의 크기가 매우 크다. 이런 인공신경망을 빠르고 효율적으로 동작시키기 위해서는 당연히 수천 개의 숫자 연산을 동시에 수행할 수 있으면서, 큰 메모리에 빠르게 접근할 수 있는 능력이 중요시된다. 따라서 위와 같은 프로그램은 CPU에서는 효율이 매우 낮다.

이는 인공지능 과학자들에게 큰 문제였다. 1970년대 인공지능 시도가 좌절된 원인 중 하나이기도 했다. 만약 위 문제가 해결되지 않으면, 이론적 돌파가 생겨도 무용지물이 될 것이다. 이 문제는 반도체 기술의 발전이 해결했다. GPU(Graphics Processing Unit, 그래픽처리장치)가 등장한 것이다.

GPU는 본래 컴퓨터의 그래픽 처리를 전담하기 위해 설계된 반도체 칩이다. GPU는 우리가 보는 화면에 그림을 빠르게 그려주는 일을 한다. 그래픽 작업의 경우, 분기가 필요치 않고 픽셀과 픽셀의 선후관계 없이 위치마다 각각의 색상 값을 계산해서 그려주면 된다. 이처럼 분기 없이 동시에 여러 작업이 가능한 GPU는 그래픽을 구현하는 작업에서 CPU보다 압도적인 효율을 보이며, 빠르게 발전했다. 이 과정에서 우리가 아는 NVIDIA가 떠오르게 된다.

NVIDIA는 그래픽 시장을 장악한 뒤에도 지속해서 GPU의 새로운 용도를 찾아다녔다. 이런 과정의 일환으로 2007년, CUDA 등 GPU 기반 프로그램 개발을 도와주는 도구를 만들어왔다. 그리고 인공지능 기술의 이론적 돌파가 진척되자, 과학자들은 더 빠르게 인공지능 개발을 도와줄 수 있는 칩을 찾아 나섰다. 그들은 GPU를 적극적으로 채용했고, GPU를 사용할 경우 5배 이상의 성능 향상을 이룰 수 있음을 확인했다. 인공지능을 구현하기에 CPU는 분기 예측 등 필요치 않은 곳에 트랜지스터를 낭비하는 비효율적인 칩이었다. 이렇게 이론적 돌파와 새로운 반도체가 만나 세상을 바꿀 인공지능(AI) 혁명*이 시작된다.

그리고 이 국면에서 빼놓을 수 없는 반도체가 또 있다. 바로 메모리다. 인공신경망의 크기는 기존 CPU 기반 프로그램보다 매우 거대하다. 인공신경망은 어딘가 저장돼 있어야 하므로, 인공지능에 사용되는 GPU는 큰 메모리가 필요하다. 이 때문에 인공지능 시대에 메모리 반도체 기업들 역시 주목받는 것이다.

* 출처 : Large-scale Deep Unsupervised Learning using Graphics Processors, Stanford Univ, 2009

프로그래밍 방법론에서 반도체까지

이번 편에서는 새로운 프로그래밍 방법론이 반도체 입장에서 어떻게 보이는지를 개략적으로 알아봤다. 프로그램은 인간이 생산적인 일을 하기 위한 수단이다. 프로그램은 순서도를 이용한 전통적인 방법으로도 만들 수 있고, 인공신경망 학습 방식으로 만들 수 있다. 그리고 사용자들은 순서도를 이용해 만든 프로그램과 인공신경망 중, 자신이 원하는 프로그램을 잘 돌리는 반도체를 택하는 것뿐이다. 만약 사용자가 엑셀과 같은 기존의 프로그램을 돌리고 싶다면 고성능 CPU를 이용할 것이고, 인공지능 기반의 언어 생성 등을 하고 싶다면 GPU를 이용하면 될 것이다.

이 글을 통해 후배, 동료 여러분에게 하고 싶은 말은 기술과 기술의 관계를 이해하며 나아갔으면 한다는 것이다. 캐나다의 연구원들은 기존 순서도 형태의 프로그램으로 해낼 수 없던 수많은 일을 인공신경망으로 해냈다. 그리고 인공신경망 구동은 기존 프로그램과 비교해 더 많은 사칙연산 횟수와 메모리가 필요했던 것일 뿐이다. 이러한 개선은 결국 위에서 살펴본 분기 속도를 2배로 올렸더니 전체 프로그램이 수십 퍼센트(%) 빨라졌던 것과 다르지 않다. 이런 사실을 잊지 않는다면, 이후에 새로운 프로그래밍 기술이 생겨났을 때 그 프로그램이 어떤 연산을 요구할지, 어떤 형태의 메모리를 요구할지도 알 수 있을 것이다.

다음 편부터는 인공지능 기술과 그 주변을 이루는 생태계를 살펴볼 것이다. 그리고 그 생태계들이 가지고 있는 한계와 어려움을 찾아보고, 반도체가 이를 어떻게 도와줄 수 있을지 살펴볼 것이다.

※ 본 칼럼은 반도체에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[반도체 전공정 6편 완결편] 반도체에 생명을 불어넣는 연결, ‘금속배선’ (6/6)

정인성 작가 — Thu, 12 Jan 2023 15:00:00 +0000

최근 우리는 수많은 반도체 관련 뉴스를 접하고 있다. 반도체 관련 소식을 접하면서 우리는 자연스레 반도체가 단순한 수출 역군을 넘어서 국가 안보에까지 영향을 미치는 중요한 제품이 됐다는 점을 인지하기 시작했다. 반도체의 중요도가 높아짐에 따라 정부를 비롯해 여러 기업들은 반도체 산업의 경쟁력을 높이기 위한 방안을 강구하고 있다.
반도체 산업의 경쟁력을 높이는 첫 발걸음은 당연히 반도체에 대한 지식을 공유하는 것이다. 이에 본인 역시 반도체 산업에 몸담았던 일원으로서 반도체에 대해 관심이 있거나 반도체 산업에 종사하고자 하는 취업준비생들을 위한 지식을 공유하고자 한다.
인터넷이나 교재에서 찾아볼 수 있는 기술에 치중된 지식이 아니라 각 기술이 가지는 연관성을 통한 관계의 중심으로 반도체를 설명하고자 한다. ‘컴퓨터와 트랜지스터’의 주제를 시작으로 공정과 산화, 포토, 식각, 증착, 금속배선 등 총 6편의 시리즈로 반도체 기술에 대한 설명을 이어갈 예정이다.

이를 읽는 독자 여러분은 개별 용어에 너무 얽매이지 말고 ‘관계’에 주목하길 바란다. 글을 읽다 보면 갑작스럽게 전문 용어들이 등장할 수 있지만, 이해가 되지 않는다면 그냥 넘어가도 좋다. (필자 주)

반도체의 핵심, ‘연결’

앞서 살펴본 산화, 포토, 식각, 증착 등의 과정들을 여러 차례 거치고 나면 드디어 반도체 소자들이 웨이퍼 표면에 형성된다. SK하이닉스와 같은 메모리 반도체 회사라면 웨이퍼 표면에 트랜지스터와 캐패시터*가 늘어서게 됐을 것이고, 파운드리나 CPU 회사라면 FinFET*과 같은 3차원 트랜지스터가 웨이퍼 바닥에 나란히 자리하고 있을 것이다.

* 캐패시터(Capacitor) : 축전지, 전기를 저장할 수 있는 장치로 다수의 전자제품에 적용되지만 본 칼럼에서는 메모리 반도체에서 데이터가 저장되는 장치를 지칭한다.
* FinFET : 3차원 MOSFET의 일종으로, 전류의 통로가 물고기 지느러미 모양과 비슷하게 생겼다.

▲ 그림 1 : 소자 영역과 금속 배선 영역 (출처 : Cepheiden, 원문보기)

하지만 이 소자들은 홀로 있어서는 아무 의미가 없다. 전기기판 위의 개별 소자들이 납땜 없이는 작동하지 못하듯, 웨이퍼 위 트랜지스터들도 서로 연결되지 않으면 아무 역할도 하지 못한다. 트랜지스터들은 외부 전원을 받아 동작할 수 있어야 하며, 처리가 끝난 데이터를 다음 영역으로 옮겨주는 등 다양한 일을 해야 한다. 따라서 소자와 전원, 소자와 소자를 연결해 주는 공정이 필요하다. 그리고 반도체 역시 ‘전자’ 회로인 만큼, 각 소자들은 전기를 이용해 소통해야 한다. 여기서 필요한 것이 ‘금속배선’ 공정이다.

그리고 동일한 소자를 사용하더라도 그 연결 형태에 따라서 CPU, GPU 등 다양한 형태의 반도체가 완성된다. 금속배선 공정이야말로 반도체에 ‘목적’을 부여하는 공정인 것이다.

▲ 그림 2 : 형성된 소자층(붉은색)을 연결하는 금속배선(노란색)(일부 구조물 생략)(출처 : 원문보기)

이번에 살펴볼 금속배선 공정은 앞에서 살펴본 포토, 식각, 증착 등과 같은 단일 공정이 아니다. 실제로는 반도체 회사들은 금속배선을 만들기 위해 포토, 식각 등의 공정을 거치는 것이다. 다만, 금속 배선 공정에서는 전 단계인 소자층 형성 때와는 특성이 다른 물질(금속)들이 많이 사용된다는 차이가 있다.

즉, ‘식각 장비’와 비슷하게 ‘금속배선 공정용 장비’가 존재하는 것이 아니라, 각종 공정용 장비들이 금속 배선을 만드는 데 사용되는 것이다. 만약 무언가 깎아서 공간을 만들어야 한다면 식각용 장비가 사용될 것이고, 빈 곳에 물질을 채워야 한다면, 주로 증착 장비가 사용될 것이다. 그리고 그 과정 사이마다 포토 공정이 당연히 들어가게 된다.

도선과 소자 사이 : 컨택

기판의 소자들을 연결할 때는 전선을 연결한 뒤 납땜한다. 하지만 반도체의 경우, 아래에서 위로 쌓아 올리는 방식을 사용하기 때문에, 하부의 소자층을 형성한 다음, 그 위에 컨택이라고 부르는 소자와 금속배선의 연결부를 만들고 그 위에 금속배선을 연결한다.

▲ 그림 3 : 컨택 형성 시 텅스텐의 용도와 배리어 메탈 예시 (출처 : Cepheiden, 원문보기)

생각하기에 따라서는 무엇인가 이상할 수도 있다. 컨택 없이 그냥 금속을 소자와 바로 연결하면 될 것 같다. 하지만 역시나 여기서도 미세화가 문제를 일으킨다. 앞서 증착 공정에서 빈틈을 채우는 특성인 갭 필(Gap fill) 등의 특성을 살펴봤는데, 문제는 알루미늄 등의 금속 물질들은 타공이 깊을 경우 아무리 증착을 시도해도 틈이 잘 메워지지 않는 특성이 있다는 것이다. 이럴 경우 중간이 빈 불량 도선이 된다. 해당 문제로 인해 만들어야 하는 금속배선의 깊이가 깊을 경우(소자층과 금속층의 거리가 멀 경우), 텅스텐(W)과 같이 갭 필 특성이 좋은 다른 금속을 증착해 미리 채워 넣어야 한다. 이것이 아니면, 금속 접점을 형성한 뒤 고열 처리 공정이 필요한데, 사용하려는 금속이나 기타 물질들이 알루미늄과 같이 열에 약한 경우에도 텅스텐으로 접점을 형성하고 그 위에 알루미늄 도선을 배치한다.

머리카락 두께 수천분의 1밖에 되지 않는 세계에서는 이해하기 힘든 일이 일어나며, 이에 대응하기 위해선 다양한 대안을 놓고 비교해 최적의 결정을 내려야 한다. 위에서 설명한 텅스텐의 경우 장점만 있는 것 같지만 실제로는 배선 재료로서는 구리나 알루미늄보다 부적합하다. 배선 저항이 크기 때문에 텅스텐을 남용할 경우 반도체 전체 전력 소모가 증가하기 때문이다.

배리어 메탈 : 금속과 금속의 ‘저항’을 줄이다

한편, 소자와 접점 사이에는 배리어 메탈(Barrier metal)이라는 금속(혹은 금속 화합물)이 필요하다. 반도체 공정에서 금속이 아닌 물질과 금속인 물질을 정확하게 접합하기는 매우 어려운 일이다. 특성이 다른 두 물질이 바로 접합되면 그 경계에서 큰 저항이 발생*하게 되는데, 이는 반도체의 전력 소모를 증가시킨다. 이를 막기 위해서 경계면이 ‘자연스럽게’ 비금속에서 금속으로 변하는 것처럼 만들어야 하는데, 여기에 배리어 메탈이 사용된다. 배리어 메탈을 만들기 위해선 반도체 소자의 규소층 위에 티타늄(Ti)이나 코발트(Co)와 같은 물질을 칠해준 뒤, 이 금속들이 규소 원자와 반응시키면 된다. 이런 과정을 Silicidation이라 부르며, 해당 부위를 Contact Silicide라 부른다.

* 물리적으로는 금속과 규소 사이 전도대(Conduction Band)** 차이로 인해 저항이 발생한다.
** Cell Libarary: 전도대(Conduction Band) : 고체의 에너지띠 구조에서 에너지 간격으로 분리된 두 띠 가운데 위의 띠로 고체의 전도에 기여한다.

그뿐만 아니라 배리어 메탈은 공정 진행 과정에서 원치 않은 소자 손상을 방지하기 위해서도 사용한다. 예를 들어 알루미늄의 경우, 웨이퍼의 주재료인 규소(Si)와 반응하려는 성질이 있다. 만약 알루미늄 금속 배선이 소자층의 규소를 가까이 지나가야 하는 상황이라면, 둘 사이를 티타늄 화합물 등으로 차단해 줄 필요가 있다.

▲ 그림 4 : 알루미늄 배선 사용 시 배리어 메탈 역할

한편, 알루미늄의 한계로 구리 도선의 사용이 늘어나면서 배리어 메탈의 역할이 늘어나게 됐다. 구리는 알루미늄보다 한술 더 떠서 규소보다 더 안정적인 이산화규소(SiO₂) 사이로도 확산해 들어가는 특징이 있다. 이를 방치하게 되면 전류를 차단해야 할 산화막이 구리 원자를 포함하게 돼 전류 누설이 발생한다. 이것을 막기 위해 탄탈륨(Ta)이라는 금속을 이용해 구리와 소자층의 경계를 지어줘야 한다.

도선 : 소자와 소자 사이 전선

이제 납땜에 해당하는 부분을 만들었으므로, 전선을 연결해야 한다. 반도체에서 전선을 연결하는 과정은 일반적인 전선을 만드는 과정과 매우 유사하다. 일단 피복에 해당하는 부분을 먼저 만들어야 한다. 일반 전자회로의 경우, 완성된 전선을 가져와 연결하는 것이지만, 반도체는 회로 위에서 전선을 ‘만들어 내야’한다.

▲ 그림 5 : 반응성 이온 식각(RIE) Damascene 공정 비교(출처 : ㈜도서출판한올출판사 [반도체 제조기술의 이해 293p])

이 과정은 만들고자 하는 금속의 종류에 따라 매우 다르게 전개된다. 만약 증착할 금속이 알루미늄이라면, 앞에서 배웠던 식각과 증착을 통해 도선을 만들 수 있다. 일단 웨이퍼 표면 전체에 금속 막을 바른 뒤, 위에 포토레지스트를 도포하고 노광을 하는 것이다. 이후 필요 없는 알루미늄을 깎아낸 뒤, 알루미늄 주변에 각종 유전체(절연 물질)를 채워 넣게 된다.

구리의 경우는 금속과 유전체 증착 순서가 반대다. 구리는 배선을 만들 때 유전체를 먼저 증착한 뒤, 포토 공정을 이용해 유전체를 식각한다. 이후 구리 씨드 레이어를 만든 뒤, 구리를 유전체 사이에 채워 넣고 남는 구리를 갈아서 없애는 과정을 거친다.

혹자는 금속 먼저 혹은 유전체 먼저, 두 공정의 순서만 바뀐 것이 왜 중요한지 궁금할 것이다. 하지만 앞서 설명했듯 구리를 쓰기 위해서는 씨드 레이어를 도포해야 하는데, 이를 위한 새로운 증착 공정이 추가돼야 했으며, 알루미늄에서는 사용하지 않던 전기도금(Electroplating) 기법도 도입해야 했다. 알루미늄의 한계를 넘어서기 위해서는 신물질인 구리(Cu)뿐 아니라 이에 맞는 수많은 공정이 개발돼야 했다. 100년 전 사람들도 알루미늄보다 구리가 전기적 특성이 좋다는 것은 알고 있었다. 다만, 반도체 회사 입장에서 ‘더 싸고, 많은 트랜지스터’에 적용하기 위해선 제조 공정의 발전도 필요했다.

금속배선은 위쪽으로 갈수록 두꺼워진다. 반도체 소자들 중, 자주, 많은 데이터를 주고받아야 하는 소자들은 물리적으로 가까운 거리에 배치해야 유리하다. 하지만 주고받는 빈도가 높지 않은 소자들은 먼 거리를 연결해도 상관없다. 이런 소자들의 경우 상부의 더 두꺼운 금속배선을 통해 연결된다.

여기서 짐작할 수 있겠지만, 두꺼운 상부 금속배선들은 제조하기 어려운 테크닉을 적용할 필요가 없다. 과거에 알루미늄으로 특정 두께의 하부층 배선을 만들어 봤다면, 이번에는 같은 두께의 알루미늄 배선을 상부에 만들 수 있는 것이다. 따라서 상부 배선층에는 꼭 첨단 기술을 적용하지는 않고, 기존에 자주 해 본 공정을 적용할 수도 있다. 이를 통해, 반도체 회사는 투자비를 아낄 뿐만 아니라, 공정 학습 시간을 줄일 수 있다.

기술의 조합

위 기술들은 따로따로 존재하는 것이 아니다. 반도체 제조 회사들의 목적에 맞춰 다양하게 조합돼, 각 회사가 원하는 반도체를 만드는 데 사용된다. SK하이닉스와 같은 메모리 회사와는 달리 TSMC, 인텔과 같이 로직 반도체*를 제조하는 회사들은 트랜지스터의 전류 제어 능력이 매우 높아야 한다. 이를 위해 FinFET과 같은 3차원 구조를 도입함으로써 전류 통과 부분인 채널을 3차원 모양으로 만들어 면적을 높여야만 한다. 이런 구조의 트랜지스터를 만들었다면, 당연히 DRAM 등이 사용하는 평면 트랜지스터보다 접점 형성이 매우 어려울 것임을 짐작할 수 있다. <그림 6> 왼쪽 그림의 경우 전류가 흐르는 부분(채널)과 컨택을 밀착시키기 쉽지만, 오른쪽 그림의 경우 채널에 밀착되는 컨택을 만드는 것이 어려울 것임을 짐작 가능하다.

* 로직(Logic) 반도체 : CPU, GPU 등 연산 목적을 가진 반도체

▲ 그림 6 : 로직 반도체의 FinFET은 DRAM의 평면 트랜지스터보다 접점 형성이 어렵다.

도선의 배리어 메탈도 마찬가지다. 인텔은 7나노 공정에서 구리의 일렉트로마이그레이션* 문제로 인해 구리 대신 코발트 기반의 금속배선층을 시도했다가 수년간 큰 어려움을 겪은 바 있다. 이로 인해 인텔은 2022년 현재 개발 중인 4나노 공정에서 구리 배선을 다시 도입하되, 구리 배선을 탄탈륨(Ta)과 코발트로 감싸서 문제를 해결하려 시도하고 있다. 인텔에선 이를 개선된 구리 배선(Enhanced Cu)라고 부르고 있다.

* 일렉트로마이그레이션(Electromigration, EM) : 금속배선에 전류가 흐를 때, 움직이던 전자들이 금속배선 원자를 때려 금속 원자의 위치를 바꿔버리는 현상

미세화가 진행될수록 이런 어려움은 계속 나타날 수밖에 없다. 인텔은 CPU 회사이기 때문에 고속 동작하는 소자가 중요하다. 고속 동작 특성 때문에 일렉트로마이그레이션 저항력이 우수했던 구리조차 한계에 부딪혔던 것이고, 이를 이겨내기 위해 여러 가지 시도를 하고 있는 것이다. SK하이닉스와 같은 메모리 회사의 경우 회로 동작 속도에 의한 문제는 없지만, 대신 캐패시터를 높이 쌓아 전하 용량을 유지하는 것에 어려움을 겪고 있다. 중요한 것은 미세화의 어려움은 각 회사가 처한 비즈니스 환경에 따라 다르게 나타나는 것이다. 분명 SK하이닉스를 기다리는 금속 배선의 어려움도 나타날 것이다.

결론 : 암기보다는 이해를, 혼자보다는 함께

지금까지 우리는 6편의 긴 여정을 함께 했다. 제법 길다고 생각했을 수도 있지만, 고작 6편의 글로는 여러분에게 방대한 첨단 반도체 지식의 1%도 전달하지 못할 것이다. 그럼에도 이러한 글을 쓴 이유는 이후 반도체 산업을 이끌어갈, 혹은 산업에 관심이 있는 많은 분에게 꼭 전달하고자 하는 메시지가 있기 때문이다.

반도체는 수만 명의 사람들이 모여 십시일반으로 공헌해 만드는 거대한 작품이다. 웨이퍼 한 장이 완제품이 되기 위해서는 수백 단계의 공정을 거쳐야 한다. 각 공정에 참여하는 사람들은 최종 제품에 1%도 안 되는 기여를 하는 셈이지만, 이 중 한 공정이라도 실패하면 반도체는 작동하지 않는다. 그리고 반도체 회사에서 개개인이 하는 일은 완전히 독립돼 있지 않고, 서로가 하는 일이 서로에게 영향을 주는 형태이다.

이 글의 목적 중 하나는 이 글을 읽는 독자들이 공정 기술을 이해하는 것이다. 하지만 그것보다 더 중요한 목적은 바로 기술 사이의 관계를 이해하는 것이다. 증착 공정에서 사용한 물질은 이후 열을 사용하는 공정과 식각 등에 영향을 미친다. 식각을 넉넉하게 진행할 경우, 후속하는 증착 공정의 갭 필 특성이 좋지 않으면 전체 제품에 문제가 생길 수 있다. 미세 패턴을 그려야 하는 노광기가 부족하다면, 멀티패터닝*을 해야 한다. 이 과정에서 하드 마스크 추가 증착, 식각이 필요해지게 된다.

* 멀티패터닝 : 노광기를 여러 번 사용해 더욱 미세한 패턴을 웨이퍼 위에 그리는 기법

위와 같은 사실을 보면 알 수 있겠지만, 반도체 산업은 첨단 산업일 뿐만 아니라 일종의 신뢰 산업이다. 회사 내 직원 간 의사소통 능력, 업무의 정직함, 새로운 것을 떠올리는 창의력이 필요한 산업이다. 반도체 기술 발전은 새로운 미세공정을 개발했을 때 생겨나는 다양한 어려움을 모두가 정직하게 공유함으로써 문제를 파악한 뒤, 해결책을 가진 조직(공정)이 창의력을 발휘해 문제를 해결하는 과정의 연속이다. 앞서 포토 공정에서도 액침 노광기로 인해 일어난 새로운 문제를 노광기가 아닌 포토레지스트를 통해 해결한 것을 봤다.

▲ 그림 7 : 노광기에서 발생한 문제를 포토레지스트로 해결한 예시

이 글을 읽은 많은 분들, 특히 후배가 될 여러분이 이런 반도체 산업의 특징을 이해했으면 좋겠다. 기술에 대한 이해를 통해 자신의 커리어를 이어가고, 수많은 유관 조직과 선순환적 관계를 만들어가며 세계 최고의 반도체를 만들어 냈으면 좋겠다.

현재 반도체 기술은 미세화에 큰 어려움을 겪고 있다. 이후에는 반도체를 만들기 위해 반도체 사용자들의 목소리를 지금보다 더 많이 들어야 할 것이다. 그리고 그 시대에 반도체 회사 내에서 소통하며 기술 개발했던 능력이 더욱 빛을 발할 것이다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[반도체 전공정 5편] “더 작게, 더 많이” 미세화를 위한 핵심 ‘증착 공정’ (5/6)

정인성 작가 — Thu, 22 Dec 2022 15:00:00 +0000

인터넷이나 교재에서 찾아볼 수 있는 기술에 치중된 지식이 아니라 각 기술이 가지는 연관성을 통한 관계의 중심으로 반도체를 설명하고자 한다. ‘컴퓨터와 트랜지스터’의 주제를 시작으로 공정과 산화, 포토, 식각, 증착, 금속배선 등 총 6편의 시리즈로 반도체 기술에 대한 설명을 이어갈 예정이다.

이를 읽는 독자 여러분은 개별 용어에 너무 얽매이지 말고 ‘관계’에 주목하길 바란다. 글을 읽다 보면 갑작스럽게 전문 용어들이 등장할 수 있지만, 이해가 되지 않는다면 그냥 넘어가도 좋다. (필자 주)

증착 : 물질 추가하기

우리는 앞서 쿠키를 만들어 가는 과정을 조금씩 살펴봤다. 쿠키 사이에 초코 시럽을 넣기 위해 쿠키 일부를 깎아 냈으므로, 그다음에는 초코 시럽을 바르고 다른 쿠키를 덮어야 함을 알 수 있다. 초코 시럽을 바르는 과정과 다른 쿠키를 덮는 과정이 바로 증착이다.

▲ 그림 1 : 초코 시럽을 바르고 쿠키를 위에 덮는 모습

증착의 진행 과정은 매우 직관적이다. 처리하고자 하는 웨이퍼를 준비한 뒤, 증착 기기에 투입하고 표면에 충분한 두께의 박막이 생기기를 기다리는 것이다. 박막이 생성되고 나면 필요 없는 부분들을 제거한 뒤, 다음 공정을 시행한다.

웨이퍼 표면 물질을 제거하는 공정이 식각 이외에도 여러 종류가 있었듯, 웨이퍼 윗면에 물질을 추가하는 공정 역시 증착 이외에도 많이 있다. 예를 들면, 포토 공정에서 살펴본 포토레지스트 도포 또한 웨이퍼 위에 각종 막질을 씌우는 과정이며, 산화 공정에서 웨이퍼(규소)를 산화시키는 것 역시 웨이퍼 윗면에 물질이 추가되는 과정이다. 그렇다면 증착 공정만을 특별히 중요하게 언급하는 이유가 무엇일까?

바로 반도체 미세화 때문이다. 전자제품의 성능 및 저전력 요구가 높아짐에 따라 반도체에 미세화가 진행돼야 했다. 더 작고 에너지 소비가 적은 반도체를 도입하면 기기에 더 많은 기능을 추가할 수 있기 때문이다. 반도체 미세화가 진행되니 내부에는 각기 다른 역할을 하는 다양한 물질로 구성된 얇은 막이 필요해졌다. 그중 하나가 금속 피막이다. 과거 반도체 회사들은 칩 내부의 금속 배선으로 전도도*가 높은 알루미늄을 사용했는데, 알루미늄의 미세화가 한계에 다다르자 대체 배선 물질로 알루미늄보다 전도도가 높은 구리를 사용하려 했다. 문제는 구리 원자는 알루미늄과는 달리 반도체 회사들이 원치 않는 곳(이산화규소, SiO₂)까지 뚫고 확산하는 성질이 있다는 것이다. 이를 방지하고자 구리 배선을 도포할 영역에 구리가 통과하지 못하는 일종의 보호막을 씌우는데, 여기에 고품질 박막이 필요했다.

* 전도도 : 전기가 잘 통하는 성질. 금속 등의 물질이 전도도가 높다.

머리카락 두께 수천분의 일밖에 되지 않는 반도체의 핵심 소자층과 배선층을 만들기 위해서는 굉장히 얇으면서도 균일하게 물질을 추가해야 한다. 증착 기술이 중요할 수밖에 없는 이유다. 본 편에서 언급하는 증착은 일반적으로 반도체 회사에서는 박막(Thin film) 공정으로 불리니 참고 바란다.

박막의 종류와 역할

물질을 추가하는 과정은 반도체 제조에서 매우 중요하다. 반도체는 순수한 실리콘만으로는 작동하지 않는다. 간섭받으면 안 되는 두 영역을 구분 지어야 하고, 연결돼야 하는 곳들은 전선을 통해 연결해야 한다. 필요한 경우, 특정한 막질을 이용해 전기장의 힘을 강하게 주거나, 약하게 주기도 하며, 다음 단계 공정을 쉽게 하기 위해 얇은 막질을 미리 생성하는 등 많은 경우에 필요하다. 이번에는 박막들의 역할 몇 가지를 알아보도록 하자.

반도체 내 중요한 박막 중 하나는 각종 방어막이다. 회로 간의 경계를 만들어 줌으로써 반도체 핵심 소자들의 간섭과 전류의 누설을 막아 동작 신뢰성을 높이는 것이다. 필요한 경우, 칩을 외부의 충격으로부터 방어하는 막을 제조 공정 마지막에 씌우기도 한다. 혹은 제조 과정에서 반도체를 층층이 쌓은 뒤 식각을 하고자 하는데, 식각 돼선 안 되는 곳이 있다면 식각을 방지하는 용도로 사용되기도 한다. 이러한 구조물의 예가 STI*, IMD*이다. 사용되는 물질들은 이산화규소(SiO₂), 탄화규소(SiC), 질화규소(SiN) 등이다.

* STI(Shallow Trench Isolation): 소자 경계부 누설 전류를 방지하는 참호 형태의 보호막
* IMD(Intermetal Dieletric) : 금속 배선 층 사이에 원치 않는 전류 흐름을 막는 보호막

▲ 그림 2 : 소자 경계부의 누설 전류를 방지하는 STI의 모습

또 다른 물질은 금속이다. 반도체 하부 소자(트랜지스터) 층은 존재하는 것 만으로는 아무 의미가 없으며, 다른 소자 및 전원 등과 연결돼야 제 역할을 할 수 있다. 이들을 연결하기 위해서는 티타늄, 구리, 알루미늄 등의 금속 배선이 필요하며, 각 금속 배선과 소자들을 연결해주는 접점(Contact)을 만들어야 한다. 이는 가전제품 내부 전자기판의 소자와 소자를 연결하기 위해 전선을 납땜하는 것과 다르지 않은 과정이다. 기판에 연결된 전선은 반도체 내부의 금속 배선과 같은 일을 하며, 납땜은 반도체 내부의 접점과 같은 역할을 한다.

증착은 그 이외에도 많은 곳에 이용된다. 반도체 제조 과정에서 트랜지스터를 제조할 때 게이트 유전막을 형성하거나, 멀티 패터닝*에 사용하는 하드 마스크를 씌울 때도 사용된다. 앞서 언급한 예시에서 알 수 있듯 증착은 제조의 거의 모든 과정에서 사용된다. 또한, 기존에 증착으로 진행하지 않는 공정을 증착이 대체해버리는 경우도 있다. 이전 편에서 잠깐 설명했듯 게이트 유전막의 경우, 과거에는 산화 공정으로 만들었지만, 미세화가 진행된 현재는 증착 공정을 주로 사용하고 있다. 미세화로 인해 정밀도와 품질이 더욱 중요해졌기 때문이다.

* 멀티 패터닝(Multi Patterning) : 반도체를 더욱 미세하게 만들기 위한 기술. 노광과 식각 공정 등을 여러 번 반복하는 방법이다.

증착 주요 수치 : 균일도, 스텝 커버리지, 갭 필

▲ 그림 3 : 높은 균일도와 낮은 균일도의 예시

들어가기에 앞서, 증착 공정의 품질과 관련된 각종 수치를 알아보자. 아마도 단어들을 듣다 보면, 식각 공정에서 들었던 단어들과 상당히 유사함을 알 수 있을 것이다. 첫 번째 단어는 균일도다. 균일도는 증착 과정에서 물질이 얼마나 균일한 두께로 생성됐는지를 표현하는 수치다. 증착 역시 식각과 마찬가지로 웨이퍼 전체를 기기에 넣고 진행하기 때문에, 웨이퍼 지점별로 두께가 다르게 생성될 수 있다. 균일도가 높을수록 전 웨이퍼 영역에 골고루 물질이 도포된다고 생각하면 된다.

다음 수치는 스텝 커버리지다. 산화나 식각 공정에서도 보았듯, 웨이퍼 표면에 단차나 뾰족한 부분이 존재할 경우 박막의 두께가 균일하게 생성되지 않을 수 있다. 스텝 커버리지는 증착이 이뤄지는 울퉁불퉁한 표면의 상단 부분 막질과 하단 부분 막질의 두께 차이, 혹은 상단 부분 막질과 측벽 막질의 두께 차이를 말하는 것이다. 스텝 커버리지가 1에 가까울수록 상단부와 하단부의 차이가 적다는 것이며, 스텝 커버리지가 1보다 작은 경우 하단부나 측벽의 두께가 얇게 생성된다는 의미다.

▲ 그림 4 : 스텝 커버리지(위)와 갭 필 예시 모습(아래)

마지막으로 볼 것은 갭 필(Gap fill)이다. 이름에서 알 수 있듯 빈 공간(Gap)을 얼마나 잘 채우는지를 나타내는 특성이다. 그림에서 볼 수 있듯 제조 중인 반도체 위에는 수많은 요철이 있으며, 증착 과정에서 이 영역들을 꽉 채울 수 있다는 보장이 없다. 갭 필 특성이 좋지 않으면 내부에 공동(Void)이 생기게 되고, 추후 구조물이 무너질 수 있다. 식각에는 원치 않는 부분까지 깎여 나가는 등방성이 있었다면, 증착에는 원하는 곳이 메꿔지지 않는 특성인 갭 필이 있다고 생각하면 된다.

증착의 종류

앞에서 봤던 수많은 과정과 마찬가지로, 증착 역시 화학 기상 증착(Chemical Vapor Deposition: CVD)과 물리 기상 증착(Physical Vapor Deposition: PVD)으로 나뉜다. 화학 기상 증착은 웨이퍼 표면에 화학적 방법을 통해 물질을 씌우는 것을 포괄하는 방법이다. 가장 흔한 방식은 혼합 기체에 에너지를 가해주는 방식이다. 표면에 물질(A)을 증착해야 한다고 하면, A를 생성할 수 있는 두 기체(B와 C)를 주입한 뒤, 반응을 일으키기 위해 에너지 등 반응을 촉발하는 무언가를 가해주는 것이다. 즉 아래와 같은 방식으로 물질을 만들어 낸다.

B + C + (에너지 등) → A + 부산물

화학적 방식의 경우 공정 속도가 빠르며, 웨이퍼 위에서 반응이 일어나기 때문에 스텝 커버리지가 우수하다. 하지만 반응 과정에서 부산물 기체가 끊임없이 생겨나며, 이를 공정 진행 과정에서 완벽히 제거할 방법이 없기 때문에 각종 불순물이 섞일 수 있다는 단점이 있다. 각종 불순물이 포함될 수 있기에, 특성 제어가 매우 세밀해야 하는 영역보다는 각종 소모성 막질(하드 마스크)이나, 각종 두꺼운 차단막 생성에 사용된다.

▲ 그림 5 : 화학 기상 증착과 물리 기상 증착의 증착 방법

물리 기상 증착(Physical Vapor Deposition: PVD)은 웨이퍼 표면에 증착하고 싶은 물질을 직접 날려 보내 달라붙게 하는 방법이다. A라는 물질을 증착하고 싶다면, A 물질을 그대로 기화시켜 웨이퍼에 달라붙게 하는 것이다. 주로 사용되는 방식은 식각에서도 살펴봤던 스퍼터링(Sputtering)*이다. A 물질 덩어리인 표적(Target)에 가속된 이온(주로 불활성기체)을 날려 보냄으로써 A 입자가 떨어져 나오게 하는 것이다. 떨어져 나온 A 입자는 반대 방향으로 가속돼 웨이퍼에 증착되게 된다.

* 스퍼터링(Sputtering): 높은 에너지를 특정 물질에 충돌시켜 물질 표면이 떨어져 나가게 하는 물리적 방법

이 방식의 장점은 부산물 기체라는 것이 없으므로 물질의 순도가 매우 높다는 것이다. 또한 반응성이 없는 순수 물질들도 증착할 수 있다. 예를 들면, 순수한 텅스텐(W), 코발트(Co) 등도 증착이 가능하다. 이러한 특성 덕분에, 물리 기상 증착은 순수 물질이 많이 사용되는 금속 배선을 만들 때 주로 사용된다.

한 가지 독특한 예로 원자층 증착(Atomic Layer Deposition: ALD)이 있다. 우리가 위에서 살펴본 공정들은 활성화된 기체를 웨이퍼 표면에 화학적으로 붙이거나, 이온을 강하게 가속해 강제로 붙이는 방법이었다. 하지만 ALD 공정은 이것과는 조금 다른 방식으로 이뤄진다. 물질 A를 매우 얇게 웨이퍼 표면에 증착하고 싶다고 가정해보겠다. 이를 위해 A의 재료인 반응물질 2개(B와 C)를 준비한다. 단, 여기서 B는 웨이퍼 표면에 흡착이 잘 되는 물질(전구체, Precursor)이며, C는 반응성이 높은 물질이다. 일단 웨이퍼 표면에 B를 흡착시킨다. 만약 B가 자기들끼리는 잘 달라붙지 않는 특성이 있다면, B 물질은 원자 1개 층만 웨이퍼 표면에 남을 것이다. 이후에는 잔여 B 기체를 제거해준 뒤, C 기체를 투입한다. 그러면 B와 C가 반응해 A가 생기고, 부산물 가스가 생긴다. 이후 A와 부산물 가스를 제거한다. 이 과정을 반복하면 막의 두께를 원자 단위로 제어할 수 있다.

▲ 그림 6 : 기존 화학 기상 증착(CVD)과 원자층 증착(ALD)의 개념 (출처:㈜도서출판한올출판사 [반도체 제조기술의 이해 293p])

이 방식은 균일도와 스텝 커버리지가 우수하다는 큰 장점이 있다. 전구체 물질의 특성상 수직, 수평 등 다양한 곳에 달라붙을 수 있을 뿐만 아니라, ALD 한 주기당 단 1개의 원자층만 생성되기 때문이다. 하지만 원자층 단위로 작업을 하므로, 진행 속도가 느리다는 단점 역시 존재한다. 이런 특성 때문에 ALD 공정은 D램의 커패시터 등 종횡비*가 높은데 고품질의 막질이 필요한 부위에 주로 사용된다.

* 종횡비: 기둥 아랫면과 높이의 비율. 종횡비가 높다는 것은 구조물의 폭이 좁은데 높다는 의미

위의 예시를 보면 증착 역시 다른 공정들과 유사한 상충관계가 나타남을 알 수 있다. 균일도 등의 정밀성을 높이는데 필요한 특성을 개선하기 위해서는 처리 속도를 포기해야 한다는 것이다. 반도체 제조는 정밀도와 처리 속도 사이에서 끊임없이 고민해야 하며, 이는 증착 공정도 피해 갈 수 없다.

압력과 온도

식각과 마찬가지로, 반도체 회사들은 증착 과정에서 온도와 압력 등 다양한 요소들을 제어함으로써 원하는 품질의 막을 얻어낸다. 예를 들면 증착 과정에서 낮은 기압을 사용하면 막의 생성 속도가 느려지는 대신, 막의 수직 방향 증착을 강화할 수 있다. 기압이 낮다는 것은 기기 안에 반응 기체 개수가 적다는 의미이기 때문이다. 기체의 수가 적다면 기체 간의 충돌도 적어지므로 직진성이 높아지는 것이다. 높은 온도를 사용할 경우 막의 순도가 높아지지만, 알루미늄과 같이 녹는 점(550도)이 낮은 금속이 전 단계 공정에서 사용됐다면 문제가 생기게 된다.

▲ 그림 7 : 압력이 증착에 미치는 영향

이러한 특징으로 인해 같은 물질이더라도 필요에 따라 완전히 다른 방식으로 증착하기도 한다. 예를 들어, 같은 이산화규소(SiO₂)더라도 게이트 절연막을 만들 때와 STI를 만들 때 원하는 특성이 다르다. 게이트 절연막은 핵심 소자 부위이기 때문에 고품질을 위해 고온, 저압 공정을 사용하지만, STI는 두 소자 경계부에서 절연체의 역할만 하면 되기 때문에 저온, 고압의 공정을 사용해 빠른 처리 속도에 집중한다.

소재 선택의 어려움

때때로 우리는 ‘특성이 OO 배 좋은 신물질을 발견했다.’ 등의 뉴스를 보곤 한다. 뉴스의 내용만 봐서는 반도체의 혁신이 일어날 것 같지만, 뉴스에 등장한 신기술이 현장에 적용되는 예는 생각보다 많지 않다. 그 이유는 개별 소재의 좋은 특성이 반드시 좋은 반도체로 이어지지는 않기 때문이다. 증착 기기에 요구되는 특성만큼이나 증착 소재에 요구되는 특성도 매우 다양하다. 이번에는 소재의 특성들이 제조에 미치는 영향을 일부 살펴보도록 하자.

▲ 그림 8 : 열팽창으로 인한 패턴 손상

물질은 열을 받으면 조금이라도 크기가 변하는데, 이를 열팽창이라고 한다. 전철 선로 사이에 틈이 있는 이유는 열팽창으로 인해 여름에 선로가 휘어지는 것을 막기 위해서이다. 반도체 제조 역시 현실 세계에서 이뤄지는 일이므로 열팽창이 생긴다. 문제는 각 소재들이 열팽창을 일으키는 정도가 다르다는 것이다. 예를 들면, 알루미늄의 열팽창 계수는 산화 실리콘의 40배가 넘는다. 극단적 예로 산화 실리콘 위에 알루미늄 박막을 만들었는데, 이후 고온 공정이 적용될 경우 증착 시에는 잘 만들어졌던 내부 구조가 휘면서 망가질 수 있다. 기존에 특정 박막에 쓰던 물질을 팽창 계수가 크게 다른 물질로 바꿀 경우 고온에서 제조 수율이 크게 변할 수 있는 것이다.

▲ 그림 9 : 일렉트로마이그레이션의 개념

일렉트로마이그레이션(Electromigration, EM)이라는 현상도 존재한다. EM은 금속배선에 전류가 흐를 때, 움직이던 전자들이 금속배선 원자를 때려 위치를 바꿔버리는 현상이다. 이런 현상은 알루미늄 등 경금속 배선에서 주로 발생한다. 이 현상을 피하고자 구리 배선을 도입했고, 이 과정에서 위에서 살펴봤듯 확산 방지막이 필요해지는 등 온갖 추가 공정이 생겨났다. 미세화가 더 진척되자 EM은 구리 배선에서도 나타났으며, 이를 해결하기 위해 인텔은 금속층에 코발트 배선을 사용하기도 했다. 핵심 배선층의 물질이 변화했으니 해당 층의 위아래 층에서 어마어마한 공정 변화가 발생했을 것이다. EM 특성을 개선하고자 했더니 공정에 큰 변화가 필요해진 것이다.

반도체 제조는 수백 개 프로세스가 매우 밀접하게 조합돼 돌아가는 것임을 잊어서는 안 된다. 신소재가 좋은 물질인지 아닌지는 소재 자체의 특성뿐만 아니라, 그 이후에 사용해야만 하는 다른 공정들과의 관계도 고려해야 한다. 증착된 물질은 홀로 존재하지 않는다.

결론 : 다양한 방법으로 만들어지는 물질

여러분이 여기까지 잘 따라왔다면, 아마 흥미로운 점 몇 가지를 발견했을 것이다. 일단 가장 눈에 띄는 것은, 한 가지 물질을 만드는 데 여러 가지 방법을 사용할 수 있다는 것이다. 이산화규소(SiO₂)는 산화 공정으로도 만들 수 있지만, 증착을 통해서도 만들 수 있다. 같은 물질이라도 다른 과정을 통해 반도체에 추가되면, 물리적 특성 등이 완전히 달라지기 때문이다.

산화, 식각, 증착 등 완전히 다른 과정으로 생각했던 공정들이 생각보다 많은 것을 공유하고 있다는 것 역시 알 수 있다. 물리적 식각에서 사용된 스퍼터링은 증착에서도 사용된다. 차이가 있다면 ‘스퍼터링으로 웨이퍼 자체를 깎아 내느냐?’ ‘스퍼터링으로 한번 깎아낸 물질을 웨이퍼에 가져다 붙이냐?’의 차이뿐이다. 화학적 식각에서 중요한 요소 중 하나는 식각 기체와 반응 물질이 만나 생긴 부산물이 기화되는지 아닌지였다. 화학 기상 증착에서 발생하는 부산물 역시 기화가 잘 되고 배출이 용이해야 공정 진행이 유리하다.

미래의 후배님들이 이 글을 읽고 있다면, 연구개발 과정에서 위와 같은 점들을 염두에 뒀으면 한다. 반도체 회사가 선호하는 신물질은 단순히 특성 물성이 좋은 물질이 아니다. 물질 증착 속도와 순도 등을 통제하기 쉬울수록 공정에서 선택지가 많아진다. 그리고 증착된 물질은 원할 경우 식각, CMP* 등을 통해 쉽게 제거되는 편이 좋다. 물질 증착 과정에서 지나치게 높은 온도가 필요하면 기존에 증착된 물질을 변화시킬 수 있으며, 온도에 지나치게 민감한 물질을 사용할 경우, 다음 단계 공정에서 열을 쓰기 힘들어지게 된다.

* CMP : 물리, 화학적 연마 공정. 웨이퍼 표면을 갈아 내서 물질을 제거하는 공정

반도체 제조는 수백 개의 제조 공정을 모아 하나의 제품을 만드는 과정이다. 이를 잘 해내기 위해서는 연관 조직 업무에 대해 이해해야 할 뿐만 아니라, 타인과 자연스럽고 정확하게 소통하는 능력 등이 필요함을 알 수 있을 것이다. 많은 사람이 함께하는 협업인 만큼 힘들지만, 그 가치는 매우 높고 보람찰 것이다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[반도체 전공정 4편] 그려진 패턴을 파내는 ‘식각 공정’ (4/6)

정인성 작가 — Thu, 24 Nov 2022 15:00:00 +0000

쌓아 올리기만 해서는 안 된다

우리는 반도체 전공정 3편에서 과자 틀을 만드는 방법을 알아봤다. 이제부터는 노광 공정을 통해 만들어진 틀을 이용해 우리가 원하는 모양을, 우리가 원하는 방식으로 만들 수 있다. 이 작업 중 한 가지는 필요치 않은 부분을 제거하는 공정, 즉 식각 공정이다.

▲ 그림 1 : 과자 가운데를 파내고 초코시럽을 넣는 방법

과자 만드는 문제를 다시 떠올려 보자. 만약 행복날개 과자 중간층에 초코시럽을 넣고 싶다면 어떻게 하면 될까? 가장 쉽게 떠올릴 수 있는 방법은 바로 과자 가운데에 초코시럽이 들어갈 부분을 파낸 뒤, 그 안에다가 초코시럽을 넣는 것이다. 여기서 초코시럽이 들어갈 곳을 파내는 과정이 ‘식각’에 해당한다. 과자 위에 구멍이 난 노란색 틀(포토마스크)을 얹은 뒤, 과자에만 반응하는 물질을 뿌려서 과자를 파내는 것이다. 그 뒤에 과자 틀을 없애고 초코시럽을 붓는다. 이후 잔여 초코시럽을 제거하고 다시 그 위에 쿠키 층을 만들면, 쿠키 사이에 초코시럽을 넣을 수 있게 된다.

참고로 반도체 제조 공정에는 다양한 종류의 물질 제거 공정이 있다. 세척, 식각 등 이름이 매우 다양하다. 원치 않는 불순물을 웨이퍼 전체적으로 씻어 없애는 것이 세척이라면, 식각은 포토마스크를 동원해 내가 원하는 미세 패턴을 파내는 것에 집중하는 작업이라는 차이가 있다. 실제로 식각에 사용되는 기체나 장비들은 유사한 공정에서도 충분히 사용할 수 있다.

식각에서 요구되는 특성들

식각에는 중요한 특성이 많다. 들어가기에 앞서 그림을 보며 단어를 한번 정리하는 것이 큰 도움이 될 것이다.

▲ 그림 2 : 등방성 식각과 비등방성 식각의 특징

첫 번째 단어는 선택비이다. 선택비는 해당 공정에서 제거하고 싶은 물질만을 얼마나 잘 제거하는지를 나타내는 수치이다. 식각 공정을 통해 100% 내가 원하는 물질만을 제거하는 것은 불가능하다. 반응이 진행됨에 따라 씌워 놓은 포토레지스트 등도 느리지만 서서히 깎여 나가는 문제가 생기기 때문이다. 선택비가 높다는 것은 식각 과정에서 제거해서는 안 될 물질은 덜 제거되고, 제거해야 하는 성분만이 잘 제거된다는 의미이다.

방향성은 식각이 진행되는 방향을 의미한다. 크게 등방성(Isotropic) 식각과 비등방성(Anisotropic) 식각으로 나뉜다. 등방성은 포토레지스트의 열린 부분을 기준으로 모든 방향으로 식각이 발생한다는 의미이고, 비등방성은 특정 방향으로만 반응이 잘 일어난다는 것을 의미한다. 포장이 찢어져 살짝 벌어진 포장지 속에 사탕이 있다고 하자. 이 사탕을 물속에 넣고 오랜 시간이 지나면, 사탕이 녹아서 없어질 것이다. 하지만 포장이 찢어진 틈에 고출력 레이저를 발사하면, 사탕 전체가 타버리지 않고 사탕에 구멍이 날 것이다. 전자가 등방성 식각이고, 후자가 비등방성 식각이라고 이해하면 쉽다.

속도는 단어 그대로 식각 반응이 얼마나 빠른지 나타내는 수치이다. 모든 수치가 동일하다면 당연히 속도가 빠를수록 좋다. 하지만 일반적으로 빠르고 정확한 선택지는 없으며, 공정을 개발하는 과정에서 정확도 등의 수치와 속도 사이에서 타협이 필요하다. 예를 들면, 식각의 비등방성을 높이기 위해선 식각 기체의 압력을 낮춰야 하는데, 압력이 낮아진다는 것은 반응 기체의 양을 줄인다는 의미이므로 식각 속도도 느려진다.

균일도는 식각이 전체 웨이퍼 영역에서 얼마나 불균일하게 일어나는지를 나타내는 척도이다. 식각 공정은 노광과는 달리 웨이퍼 한 장을 통째로 기체에 노출시켜 처리한다. 식각을 진행하기 위해서는 반응 기체를 투입하고 부산물을 제거하는 등 물질을 순환시켜야 하는데, 이를 웨이퍼 전체에 완벽히 똑같이 적용시키는 것은 어려운 일이다. 이로 인해 웨이퍼 위치 별로 식각 속도의 차이가 발생한다. 참고로 균일도라는 단어가 문맥에 따라서는 불균일도를 의미하는 경우도 있으니, 관련 자료 등을 살펴볼 때는 주의가 필요하다.

식각의 종류 : 건식과 습식

산화와 마찬가지로 식각 역시 습식과 건식으로 나뉜다. 산화 공정에서의 ‘습식’은 사용되는 기체가 수증기라는 의미였다면, 식각에서의 습식은 웨이퍼를 액체에 ‘담갔다 건지는’ 방식을 의미한다. 이러한 방식은 식각 속도가 매우 빠르며, 담그는 방식의 특성상 화학적 식각밖에 쓸 수 없으므로 선택비가 높다는 장점이 있다. 하지만 방식의 특성상 식각이 등방성(Isotropic)이 강할 수밖에 없다. 웨이퍼를 액체에 담그면, 액체는 자유롭게 움직이며 물질들과 반응한다. 이로 인해 포토레지스트 뒷면의 원치 않는 부분까지 빠른 속도로 깎아버리기 때문에 정밀도가 매우 떨어진다. 그뿐만 아니라, 액체의 특성상 틈이 너무 작으면 표면 장력으로 인해 식각액 자체가 포토레지스트 틈으로 침투하지 못하게 된다. 아무리 노광기로 미세한 패턴을 그려도 그린 대로 회로를 만들 수 없으면 소용이 없다. 따라서 현대 반도체 핵심 층 제조에는 습식 식각을 사용할 수 없다.

▲ 그림 3 : 틈새 안에서 자유로이 움직이는 액체

건식 식각은 기체를 이용하는 식각 전체를 포괄하는 개념이다. 포토마스크가 도포된 웨이퍼를 기체에 노출시키는 식각 방식이다. 좀 더 정확하게는 플라즈마 식각, 스퍼터링, 반응성 이온 식각(RIE, Reactive Ion Etching) 등을 포괄하는 명칭에 가깝다. 이들은 습식 식각과는 달리 굉장히 다양한 방법으로 물질을 제거하기 때문에 엄밀하게는 비등방성, 등방성 특성을 일목요연하게 설명할 수 없다. 예를 들어, 화학적 방식으로 이루어지는 건식 식각이라면 등방성을 가질 것이고, 물리적 방법을 사용한다면 비등방성을 가질 것이다. 하지만 건식 식각 중 비등방성이 높고 처리 속도까지 느리지 않은 RIE가 자리를 잡아감에 따라, 건식 식각은 비등방성을 가진다고 설명하게 됐다. 정확한 RIE의 물질 제거 메커니즘은 아래 문단을 참조하길 바란다.

식각의 종류 : 물질 제거 방식에 따라

웨이퍼 위의 물질을 없애는 방법은 크게 두 가지가 있다. 하나는 화학적 방법으로 없애는 것이고, 다른 하나는 물리적으로 제거하는 것이다.

화학적 방법은 특정 물질과 잘 반응하는 물질을 이용하는 것이다. 포토레지스트 아랫면에는 제거해야 하는 물질들이 있다. 산화 공정에서 생성된 산화막, 이후에 보게 될 증착 공정에서 도포해 둔 물질일 수도 있다. 제거하고자 하는 물질들과 잘 반응하고, 포토레지스트와는 반응하지 않는 물질을 웨이퍼에 뿌려주면 화학반응을 일으키며 원하는 물질들이 제거되는 것이다. 당연하지만 식각 액체나 기체의 종류는 제거해야 할 물질에 따라 다르며, 주로 불소나 염소 기반의 화합물들이 화학적 식각에 사용된다. 화학반응이 주된 메커니즘이므로, 원하는 물질만을 제거하는 능력인 선택비가 높다.

다른 한 방법은 물리적 방법이다. 높은 에너지를 가진 입자를 웨이퍼 표면에 충돌시키면 물질 표면이 떨어져 나가게 되는데, 이를 스퍼터링(Sputtering)이라 부른다. 기체(주로 불활성 기체)의 기압을 낮춘 뒤 높은 에너지를 가해주게 되면 기체가 원자(+)와 전자(-)로 분리된다. 이때 전기장을 웨이퍼 방향으로 가해주게 되면, 원자가 전기장으로 인해 가속돼 웨이퍼와 충돌하게 되는 것이다.

굉장히 간단한 원리지만 현실적으로 이 원리만을 사용하기에는 상당한 한계가 있다. 기압이 낮다는 것은 기체의 양이 적단 의미이므로, 식각 속도가 느릴 수밖에 없다. 그뿐만 아니라 물리적 방법의 특성상 제거해서는 안 되는 물질도 확률적으로 제거된다. 힘으로 떼어버리는 것이니 물질을 가리지 않기 때문이다. 참고로 스퍼터링은 증착 공정에서 증착할 물질 기체를 만드는 데에도 사용되는 기법이니 기억해 두면 좋다.

실제 현장에서 가장 중요하게 사용되는 방법은 위 두 가지 방법을 합친 반응성 이온 식각(RIE, Reactive Ion Etching)이다. RIE는 건식 식각의 일종으로, 식각 기체를 플라즈마로 바꿔 식각하는 방식을 말한다. 혼합 기체(반응 기체와 불활성 기체 등)를 기기에 투입한 뒤 강력한 에너지를 가해주면 식각 기체가 전자(Electron), 양이온(Positive Ion), 라디칼(Radical)*로 분리된다. 여기서 무게가 가벼운 전자는 큰 역할을 못하지만, 양이온의 경우 전기장으로 웨이퍼 표면 방향으로 가속해 줄 경우 물리적 식각을 할 수 있게 된다. 양이온은 전하를 띄고 있기 때문에, 전기장 내에서 가속되면 방향성이 매우 강하다. 여기까지는 물리적 식각과 크게 다르지 않다.

* 라디칼 : 기체가 홀전자를 가지게 되는 등 높은 반응성을 가지게 된 상태

▲ 그림 4 : RIE 공정의 개요

하지만 양이온은 한 가지 효과를 더 만들어낸다. 충돌한 물질들의 결합을 약화시키는 것이다. 양이온들은 전기장으로 인해 직진성이 강했기 때문에, 위 그림의 빨간 부분에 주로 충돌하게 된다. 이로 인해 측면부는 결합이 강한 상태로 유지되는 반면, 전면부는 결합이 약해지게 된다. 이후 반응성 높은 라디칼이 접촉하게 되면 전면부가 더욱 빠르게 식각된다. 결국, 식각의 비등방성이 높아지게 되는 것이다.

플라즈마 식각 기술은 플라즈마를 이용해 3마리 토끼를 잡는 방법이다. 양이온을 생성해 물리적 식각을 시행할 뿐만 아니라, 식각 대상 물질을 약하게 만들고, 식각에 사용되는 기체의 반응성까지 높여주는 것이다. 이를 통해 화학적 식각의 장점인 선택비와 물리적 식각의 장점인 비등방성을 동시에 취한다.

물론 RIE를 사용하더라도 식각만으로는 100% 원하는 패턴을 만들어 낼 수 없다. 기타 조절되지 않는 문제들은 기체의 조합을 바꾸거나, 하드 마스크*를 사용하는 다른 공정 단계와 신물질의 도움을 받아야 한다.

* 하드 마스크 : 패턴 미세화로 인해 기존 포토마스크 패턴이 무너지는 것을 방지하기 위해 추가된 하부 포토마스크

식각 기체와 첨가 기체들

식각에 사용되는 기체들 역시 매우 중요하다. 앞 내용에서 짐작할 수 있듯, 식각의 핵심은 화학반응이다. 따라서 우리가 제거하고 싶어 하는 물질에 맞춰 식각 물질(Etchant)을 선택해야 한다. 가스 선택의 핵심은 생겨난 부산물이 제거하기 용이한가, 선택비와 반응 속도가 얼마나 뛰어난가 등이다. 반응성이 좋기로 알려진 할로겐 계열(F:불소, Cl:염소, Br:브롬 등)의 화합물이 주로 사용된다.

▲ 그림 5 : 플라즈마 식각 가스 종류(출처 : ㈜도서출판한올출판사 [반도체 제조기술의 이해 443p])

반도체 제조 과정에서 다양한 종류의 물질을 웨이퍼 위에 바를 수 있기 때문에 이론상 식각해야 할 물질의 수는 무한하므로, 중요한 물질 몇 가지만 예시로 알아보도록 하자. 일반적으로 규소(Si) 계열의 물질은 불소 계열의 가스로 잘 제거된다. 규소는 불소와 만나면 불화규소를 형성하는 성질이 있는데, 불화규소는 기화가 잘 되기 때문에 빠르게 제거가 된다. 예를 들면, 불화규소의 일종인 SiF₄의 경우, 기화점이 표준 기압에서 영하 90.3도이므로 반응과 동시에 바로 기화될 것임을 알 수 있다. 표면에서 식각이 일어나고 나면 바로 기체가 돼버리는 것이다.

절연막이나 보호용으로 흔히 사용되는 이산화규소(SiO₂) 역시 불소를 가진 기체로 쉽게 제거된다. 하지만 순수 규소와는 달리 이산화규소는 이미 산소와 결합해 안정적인 상태이기 때문에(규소가 불에 탄 재라고 생각해도 좋다) 열을 발생시키는 기체를 사용해야 한다. 이를 위해, 불소에 탄소(C) 원자가 결합된 기체들을 식각용 기체로 주로 사용하게 된다. 기체의 발열 작용을 통해 산소로부터 규소 원자를 빼앗는 것이다.

HKMG*, BEOL* 공정에서는 금속성 물질을 식각해야 한다. 금속은 일반적으로 할로겐 계열(염소, 불소 등)과 반응하긴 하지만, 전반적으로 부산물의 기화점이 높다는 특징이 있다. 따라서 이들을 제거하는 것은 더 어렵다. 구리의 경우는 가스와의 반응 부산물의 기화점이 1,000℃가 넘는다. 구리가 식각 가스와 반응하면 겉에 녹이 슬듯 달라붙는단 의미이다. 하지만 이를 제거하기 위해 웨이퍼 온도를 1,000℃로 높여주게 되면 중요 소자가 손상된다. 이로 인해 구리는 압도적으로 전기적 특성이 좋음에도 불구하고 알루미늄의 전기적 특성이 한계에 다다르고 나서야 다마신(Damascene)*이라는 새로운 공법과 함께 도입될 수 있었다. 새로운 물질은 그 자체로 중요한 것이 아니라 양산에 사용할 수 있는 새로운 공정이 도입되고 기존 공정들과 조화가 맞춰져야 가치가 있는 것임을 늘 염두에 둬야 한다.

참고로 위와 같은 반응은 완벽히 물질 종류에 맞춰 완벽하게 제어되는 것은 아니다. 예를 들면, 규소를 잘 제거하는 기체는 이산화규소도 제거하는 경향이 있다(반대도 마찬가지이다). 따라서 규소와 이산화규소가 함께 노출돼 있는데, 특정 물질만 더 많이 제거해야 할 경우에는 기체의 조합을 잘 만들어야 한다. 불소 기체에 탄소 비율이 높아질수록 발열반응이 강해지므로, SiO₂의 선택비가 오르게 된다.

첨가 기체 역시 매우 중요하다. 식각 기체에 산소(O₂), 질소(N₂), 수소(H₂) 등 다양한 가스를 추가해 원하는 특성을 얻을 수 있다. 수소의 경우 규소 제거 과정에서 첨가하게 되면 비등방성을 높여주는 내벽을 생성한다.

여기에 일부 불활성 기체를 첨가하기도 한다. 2022년 우크라이나 전쟁으로 문제가 됐던 네온(Ne) 가스가 대표적인 예로, 식각 기체의 농도를 조절하거나, 물리적 식각 효과를 제공한다.

* HKMG(High-K Metal Gate) : 누설전류를 효과적으로 줄일 수 있도록 개발된 새로운 모스펫 게이트. 기존에 다결정 실리콘(Polysilicon)이던 게이트는 금속으로 대체하고, 산화규소였던 절연막은 고유전체(High-K)로 대체한 트랜지스터
* BEOL(Back End Of the Line) : 매우 미세한 배선을 만들어 수십억 개의 단위 소자들을 서로 연결하는 공정
* 다마신(Damascene) : 구리 배선을 만들기 위해 사용되는 공정. 먼저 금속 자리를 식각한 뒤, 금속을 증착하고 물리적으로 여분을 갈아내는 방식

결론 : 밀도 상승의 또 다른 플레이어

식각은 물리적 방식과 화학적 방식을 결합해 원하는 미세 패턴을 만들어 내는 반도체 제조의 핵심 공정이다. 노광기와 같이 정밀 패턴을 직접 그리지는 않지만 기체의 비율, 온도, 전기장의 세기, 기압 등 다양한 요소를 조절함으로써 웨이퍼 전체의 수천억 개 트랜지스터가 거의 비슷한 모양을 가지도록 도와주는 주는 매우 중요한 작업이다.

그리고 식각의 중요성은 최근 노광기 발전을 통한 밀도 상승이 한계에 다다르면서 더욱 커지기 시작했다. CPU와 AP 같은 제품에서 나오는 FinFET*이 그러한 예 중 하나다.

특히 SK하이닉스와 같은 메모리 회사의 경우, 주력 제품인 D램과 낸드(NAND) 모두 식각에 매우 크게 의존한다. D램의 경우 데이터를 담는 방인 캐패시터(Capacitor)를 점점 더 높게 만들어야 하는 문제가 있으며, NAND의 경우 가장 먼저 3차원화가 진행돼 식각 한 번에 100개가 넘는 층을 뚫어야 한다. 이런 제품들은 필연적으로 매우 높은 종횡비(Aspect Ratio)*를 가져야만 하며, 높은 신뢰도를 확보하기 위해서는 식각 시작 부분과 바닥 부분의 지름이 거의 차이가 나지 않아야 하는 등 식각이 해결해야 할 일 역시 무궁무진하다.

* FinFET : 3차원 MOSFET의 일종으로, 전류의 통로가 물고기 지느러미 모양과 비슷하게 생겼다.

* 종횡비 : 식각 깊이를 식각 밑변으로 나눈 값. 종횡비가 클수록 깊게 판 것으로 생각하면 좋다.

▲그림 6 : D램의 내부 구조. 셀 영역에 수많은 가늘고 깊은 구조들이 캐패시터다.

그리고 우리는 식각의 원리를 보면서, 반도체 공정들이 얼마나 깊은 관계를 가지고 발전해 나가는지 또 한 번 확인할 수 있다. 위에서 알 수 있듯 규소와 이산화규소는 불소와 만나면 바로 기화돼 사라지기 때문에 제거가 매우 쉽다. 이를 조금 응용해 보면, 누군가 실리콘 웨이퍼를 게르마늄 등 다른 물질로 바꾸자고 했을 때 일어날 일들을 짐작할 수 있을 것이다. 게르마늄 자체의 특성이 아무리 좋더라도, 게르마늄을 식각, 증착 등으로 가공할 수 없으면 소용이 없는 것이다.

제조 기술의 발전이 점점 어려워지는 지금, 필자는 반도체의 직간접적 종사자들과 미래의 후배들 역시 이런 사실을 잘 이해하고 있기를 바란다. 앞으로 닥쳐올 새로운 장벽들을 넘기 위해서 인접한 공정들을 더욱 잘 이해하고 유관 조직과 소통할 수 있어야 하기 때문이다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.