반도체기술동향 – SK hynix Newsroom

AI 기술의 다양한 응용 분야_AI 반도체의 현황과 미래전망

정덕균 교수 — Fri, 01 Apr 2022 14:55:00 +0000

‘역사상 가장 거대한 패러다임의 전환’이라 불리는 인공지능(AI)은 눈부신 속도로 일상의 중심으로 다가오고 있다. AI는 이미 인간의 지능과 학습 속도를 추월했고, 일상의 다양한 부분을 학습하며 자율주행(Automotive), AI 비서부터 인간의 뇌를 본뜬 뉴로모픽(Neuromorphic) 반도체¹⁾까지 전 영역에서 빠르게 적용되고 있다. 이러한 AI 기술이 활약하고 있는 대표적인 응용 분야는 무엇이고 어떻게 구현되는 것일까?

1) 뉴로모픽(Neuromorphic) 반도체: 사람 뇌의 신경구조를 모방한 반도체 소자로서, 뉴로는 신경, 모픽은 형상을 의미한다. 병렬로 작용하는 인간의 뇌를 모방해 병렬 형태의 연산구조를 지니고 있다.

Cloud Computing vs Edge Computing

기존 클라우드 서비스(Cloud Service)와 대척점에 있는 AI 응용 분야는 엣지 컴퓨팅(Edge Computing)²⁾이다. 영상이나 사진과 같은 대량의 입력 데이터를 처리해야 하는 응용 분야에서는 엣지 컴퓨팅을 통해 데이터를 자체적으로 처리하거나, 데이터의 양을 줄여 유무선 통신을 통해 클라우드 서비스로 전달하는 방식을 취해야 한다.

엣지 컴퓨팅을 위한 가속기는 AI 칩 설계의 또 다른 큰 분야를 차지하고 있다. 주로 자율주행 등에 사용되는 AI 칩이 좋은 예다. 이러한 칩에서는 합성곱 신경망³⁾(Convolution Neural Net, CNN)을 통해 대량의 정보를 지닌 이미지를 압축하고, 여러 처리 과정을 거쳐 영상 분류(Image Classification)⁴⁾, 객체 탐지(Object Detection)⁵⁾등의 작업을 수행하게 된다. 이렇게 입력 데이터가 필터를 거치며 크기가 줄어들면 확실한 특징만 남게 되는데, 이를 통해 최적의 인식 결과를 얻을 수 있다.

2) 엣지 컴퓨팅(Edge Computing): 생성된 데이터를 중앙의 대규모 서버로 전송하지 않고 데이터가 생성된 기기 자체에서 처리하거나 데이터가 발생한 곳과 가까운 소규모 서버로 전송해 처리하는 컴퓨팅 방식을 말한다.
3) 합성곱 신경망(Convolution Neural Net): 행렬로 표현된 필터 각 요소가 데이터 처리에 적합하게 자동으로 학습되도록 하는 기법을 말한다.
4) 영상 분류(Image Classification): 이미지나 영상 속 대상이 어떤 범주에 속하는지 구분하는 작업을 말한다.
5) 객체 탐지(Object Detection): 이미지나 동영상에서 의미 있는 객체(object)의 위치를 정확하게 찾아내는 작업을 말한다.

AI와 개인정보보호

▲Amazon Alexa(왼쪽)와 SK텔레콤 NUGU(오른쪽)

아마존(Amazon)의 ‘알렉사(Alexa)’, SK텔레콤의 ‘NUGU’ 등 대화형 서비스 역시 AI 응용 분야 중 하나로 꼽힌다. 하지만 마이크 입력을 통해 집안의 대화가 끊임없이 노출되는 방식을 사용하는 지금의 대화형 서비스는 단순한 오락용 서비스 이상으로 발전되기 힘들다. 더 다양한 응용 분야에서 활용하기 위해서는 먼저 개인정보보호 문제를 해결해야 하며, 서비스 제공 기업들 역시 이를 인지하고 문제 해결을 위해 노력을 경주하고 있다.

개인정보보호 문제 해결 방안으로 최근 주목받고 있는 기술은 ‘동형 암호화(Homomorphic Encryption)’다. 동형 암호화는 사용자의 음성 또는 의료 데이터와 같은 민감 정보들을 있는 그대로 전송하지 않고, 사용자만이 풀 수 있는 암호문(Ciphertext)으로 변환해 전송하는 기술이다. 데이터를 처리할 때도 암호화된 상태로 곱셈, 덧셈 등 필요한 연산이 이뤄지며, 그 결과를 다시 사용자에게 암호화된 상태로 보내면 사용자가 이를 해독(Decrypt)해 결과를 확인한다. 따라서 사용자 이외에는 아무도 암호화 이전의 데이터를 알 수 없다.

이 같은 기술을 구현하려면 일반적인 데이터를 처리하는 심층 신경망(Deep Neural Network, DNN) 서비스에 비해 적게는 수천 배, 많게는 수만 배에 달하는 계산량이 필요하다. 이에 따라 특별히 설계한 동형 가속기(Homomorphic Accelerator)로 연산 성능을 획기적으로 높여 서비스 시간을 줄이는 것이 앞으로의 주요한 연구 과제가 될 것이다.

AI 칩과 메모리 반도체

대규모 DNN에서는 가중치(Weight)⁶⁾의 수가 늘어 프로세서 내부에 모든 가중치를 담을 수 없다. 이에 외부의 대용량 DRAM에 저장된 가중치를 필요할 때마다 읽어와 프로세서로 가져와야 한다.

이때 가져온 가중치를 한 번만 쓰고 다시 쓰지 못하면, 에너지와 시간을 소모하며 애써 가지고 온 정보가 재활용되지 못하고 버려지게 된다. 모든 가중치가 프로세서 안에 저장돼 활용되는 경우와 비교할 때, 많은 시간과 에너지가 추가로 소모돼 극히 비효율적이다.

따라서 대규모 DNN에서 막대한 수의 가중치를 활용해 많은 양의 데이터를 처리해야 하는 경우에는 병렬 처리와 함께/혹은 한 번에 같은 가중치를 여러 번 사용하는 배치(Batch)⁷⁾ 방식을 활용해야 한다. 즉, DRAM이 장착된 프로세서를 여러 개 병렬로 구성하고 이를 서로 연결한 뒤, 가중치나 중간 데이터를 여러 개의 DRAM에 분산 저장하고 재사용하는 방식으로 연산을 수행해야 한다는 의미다. 이런 구조에서는 프로세서 간 고속 연결이 필수적이다. 이런 방식은 모든 프로세서가 하나의 통로를 통해 연결되는 방식에 비해 더 효율적이며, 최대의 성능을 끌어낼 수 있다.

6) 가중치(Weight): 평균치를 산출할 때 각 개별값에 부여되는 중요도를 말한다.
7) 배치(Batch): 처리해야 할 데이터를 일정 기간 모았다가 한 번에 처리하는 데이터 처리 방식을 말한다.

AI 칩의 연결구조

프로세서들을 상호 접속(Interconnection)⁸⁾ 형태로 대량으로 연결할 때 문제가 되는 것은 대역폭(Bandwidth)과 지연시간(Latency)이다. N개의 가속기(Accelerator)를 병렬로 연결해 N배의 성능을 내고 싶어도, 상호 접속된 연결부의 대역폭에는 한계가 있어 지연시간이 발생하고, 이로 인해 기대한 만큼의 성능을 얻지 못하기 때문이다. 이에 DNN의 크기와 성능은 대역폭과 지연시간을 바탕으로 결정된다.

이러한 성능의 확장성(Scalability)을 효율적으로 제공하기 위해서는 각 프로세서 사이의 연결 구조가 중요하다.

▲NVIDIA’s GPU Accelerator A100

NVIDIA A100 GPU에서는 ‘NVLink 3.0’이 그 역할을 담당하고 있다. 이 GPU칩에는 12개의 NVLink 채널이 있고 각각 50GBps⁹⁾의 대역폭을 제공한다. 4개의 GPU를 서로 연결하는 경우 각 GPU당 4개 채널을 사용해 직접 연결할 수 있지만, 16개를 연결하는 경우에는 외부에 상호 연결을 전담하는 NVSwitch를 사용해야 한다.

Google TPU v2는 496GBps의 총 대역폭(Aggregate Bandwidth)¹⁰⁾을 가진 ICI(Inter-Core Interconnect)¹¹⁾를 활용해, 2D Torus¹²⁾ 구조로 서로 연결할 수 있도록 설계돼 있다.

이렇듯 각 프로세서를 연결하는 방법은 전체 시스템에 큰 영향을 미친다. 예를 들어 메시(Mesh)¹³⁾ 나 Torus 구조로 연결하게 되면 각 칩 간의 물리적 연결이 단순해 구성이 쉽지만, 멀리 연결된 노드(Node)¹⁴⁾를 여러 프로세서를 거쳐 연결해야 해 그 거리만큼 지연시간이 증가한다.

가장 극단적인 해결책은 모든 프로세서를 1:1로 연결하는 클리크(Clique) 구조를 채택하는 것이다. 하지만 칩의 핀(Pin)¹⁵⁾ 수가 프로세서 개수만큼 급격하게 증가하고 인쇄회로기판(Printed Circuit Board, PCB) 상의 정체(Congestion)가 허용할 수 없는 범위를 넘어, 실제 설계에서는 최대 4개의 프로세서밖에 연결할 수 없다.

이로 인해 일반적으로는 NVSwitch와 같은 크로스바 스위치(Crossbar Switch)¹⁶⁾를 이용하는 매력적인 방법이 활용된다. 하지만 이 역시 스위치에 모든 연결이 수렴돼, 연결하려는 프로세서가 많으면 스위치에 신호선이 몰려 PCB 상의 레이아웃을 잡기가 어려워진다.

가장 좋은 방법은 전체 네트워크를 2진 트리(Binary Tree)¹⁷⁾로 구성하는 방법이다. 이 경우 최말단에 프로세서를 연결하고 최상단에 가장 많은 대역폭을 할당해야 하므로, 팻 트리(Fat Tree)¹⁸⁾ 형태로 구성하는 것이 확장성과 함께 최고의 성능을 발휘하기에 가장 이상적이다.

8) 상호 접속(Interconnection): 병렬 처리를 위한 컴퓨터 구조에서 복수 개의 프로세서와 기억 장치 모듈 간에 데이터 및 제어 신호를 전달하기 위한 연결 구조를 말한다.
9) GBps: 초당 얼마나 많은 데이터를 전송할 수 있는지를 나타내는 단위. 1GBps는 1초에 대략 10억 bit의 데이터를 전송할 수 있음을 의미한다.
10) 총 대역폭(Aggregate Bandwidth): 여러 개의 통신 채널이 병렬로 연결될 때 개별 채널들의 대역폭을 다 합한 것을 가리킨다.
11) ICI(Inter-Core Interconnect): 코어 간 연결선을 가리킨다.
12) 2D Torus: 행과 열의 노드들은 기본적으로 그물망 구조로 연결되며 같은 행과 열의 노드들은 별도의 링으로 한 번 더 접속한다.
13) 메시(Mesh): 노드들을 2차원 배열로 연결하여 각 노드가 4개의 주변 노드들과 직접 연결되는 그물망 구조를 말한다.
14)노드(Node): 네트워크상 연결점 또는 종점을 뜻한다.
15) 핀(Pin): 부품과 부품을 고정하는 기계요소를 말한다.
16) 크로스바 스위치(Crossbar Switch): 세로 및 가로로 교차하는 여러 개의 신호선의 교차점에서 접점을 여닫으며 접속 여부를 결정하도록 하는 스위치를 말한다.
17) 2진 트리(Binary Tree): 하나의 노드에 두 개의 노드가 연결되고 연결된 노드에 계속 두 개씩 노드가 연결되며 아래로 확장되는 크리스마스트리 형태의 연결 구조를 말한다.
18) 팻 트리(Fat Tree): 모든 층위가 연결된 노드 수에 상관없이 동일한 대역폭을 가진 형태의 2진 트리 구조. 이러한 조건을 만족하려면 노드 수가 적은 최상단의 연결부에 할당된 대역폭을 최하단으로 내려갈수록 노드 수만큼 나눠 배분해야 한다.

뉴로모픽 방식의 AI 칩

DNN을 가속하는 클라우드 서버용 프로세서는 모든 데이터의 표현과 처리 방식이 디지털로 이뤄져 있으며, 연산은 하드웨어의 바탕 위에서 소프트웨어로 시뮬레이션하는 방식으로 진행된다. 최근에는 이러한 시뮬레이션 방식과 달리 생명체의 신경망 회로와 그 신호를 그대로 아날로그 전자 회로로 직접 가져와 동일하게 처리하는 뉴로모픽 AI 칩도 활발히 연구되고 있다.

뉴로모픽 방식을 활용하는 실제 응용 분야에서는 원래의 데이터 표현이 아날로그 방식을 따르므로 한 개의 신호는 한 개의 노드에 표현된다. 또한 연결 상태는 소프트웨어로 결정되지 않고 하드웨어로 연결되어 있으며, 가중치는 아날로그 형태의 고정된 상태로 저장되게 된다. 이러한 구조는 매우 적은 에너지로 한 번에 많은 정보를 처리할 수 있다는 장점이 있다.

뉴로모픽 AI 칩은 구조가 고정돼 있어 ‘프로그램화할 수 있는 가능성(Programmability)’은 낮지만, 규모가 작은 특정 엣지 응용 분야에서는 장점이 크다. 실제로 뉴로모픽 프로세서는 높은 에너지 효율을 발휘해, 사물인터넷(Internet of Things, IoT)에서 사용하는 센서의 AI 신호 처리나 대량의 영상 입력 데이터를 고정된 가중치의 CNN으로 처리해야 하는 영상 분류와 같은 응용 분야에 유용하다.

하지만 가중치가 고정돼 있어 지속적인 학습이 필요한 응용 분야에는 사용되기 어려울 것으로 예상된다. 또한 구조의 한계로 여러 개의 칩을 동시에 연결하는 병행성(Parallelism)¹⁹⁾을 활용하기도 어렵다. 이에 따라 실제 응용 분야는 엣지 컴퓨팅 분야에 한정될 것으로 전망된다.

뉴로모픽 구조를 IBM의 ‘트루노스(TrueNorth)’와 같이 아날로그 형태가 아닌 디지털 형태로 구현하는 것도 가능하다. 하지만 확장성이 좋지 않은 것으로 알려져 있어 유용한 응용 사례를 찾기는 어렵다.

19) 병행성(Parallelism): 컴퓨터 시스템의 여러 부분이 동시에 작동하거나 여러 컴퓨터 시스템이 동시에 작동하는 것을 의미한다.

AI 칩 기술의 현주소

사용자가 생성하는 막대한 데이터를 처리하는 메타(Meta, 구 페이스북)에서는 인간과 대화할 수 있는 AI 비서를 구현하기 위해 세상에 대한 기본 지식과 상식을 가진 특화된 AI 칩을 설계하고 있다. 또한 페이스북(Facebook)에 게재되는 수많은 영상의 게재 허용 여부를 판정하기 위한 AI 칩도 자체 개발하고 있다.

이커머스(E-commerce)와 클라우드 서비스에 주력하고 있는 아마존에서도 AI 비서 ‘알렉사’ 구현을 위해 ‘인퍼런시아(Inferentia)’라는 AI 가속기를 자체 개발해 사용 중이다. 이 가속기는 음성 신호를 인식하는 목적으로 사용된다. 클라우드 서비스를 제공하는 AWS는 인퍼런시아 칩을 사용하는 기반(Infrastructure)을 갖추고, 구글(Google)의 TPU처럼 클라우드 서비스 사용자에게 딥 러닝 워크로드(Deep-learning Workload)를 가속할 수 있는 기능을 서비스하고 있다.

마이크로소프트(Microsoft)는 현재뿐만 아니라 미래의 응용 분야에도 최적화된 AI 칩을 만들기 위해 FPGA(Field Programmable Gate Array)²⁰⁾를 데이터 센터에 탑재하고 응용 알고리즘에 따라 그 정밀도(Precision)와 심층 신경망 구조를 재구성(Reconfigure)하는 방식을 시도하고 있다.

하지만 이 방식은 최적의 구조를 찾아냈다 하더라도 그 구조와 논리 회로로 재구성하기 위해 큰 비용이 소요된다. 결과적으로 특정 목적을 위해 특별히 설계된 ASIC(Application Specific Integrated Circuit)²¹⁾보다는 에너지와 성능 면에서 크게 불리할 수밖에 없어, 실제 이익이 있을지 확실하지 않다.

또한 한정된 응용 분야에 특화되지 않고 다양한 용도로 사용할 수 있는 가속기를 개발해 엔비디아(NVIDIA)에 대항하려는 여러 팹리스(Fab-less) 스타트업들도 등장하고 있다. 이미 세레브라스(Cerebras Systems), 그래프코어(Graphcore), 그로크(Groq) 등 많은 회사가 시장에서 치열하게 경쟁하고 있다.

▲SK텔레콤의 AI반도체 SAPEON X220

국내에서는 SK하이닉스가 올해 초 SK텔레콤에서 분사한 AI 반도체 전문 기업 사피온(SAPEON)과 협력해 AI 반도체 ‘사피온’을 개발하고, 이를 데이터 센터에 사용할 예정이다. 더 나아가 PIM 기술이 적용된 SK하이닉스의 반도체(GDDR6-AiM)와 ‘사피온’이 결합된 기술도 선보일 계획이다. 또한 퓨리오사 AI(Furiosa AI)에서는 ‘워보이(Warboy)’를 개발해 상업화하고 있다.

이렇게 개발된 인공지능 하드웨어는 구동하는 소프트웨어가 얼마나 최적화돼 있는지에 따라 그 성능이 크게 좌우된다. 수천, 수만 개의 연산 회로를 시스톨릭 배열(Systolic Array)²²⁾을 통해 동시에 구동하고 그 결과를 효율적으로 취합하는 일은 고도의 계산에 따라 조직화(Coordination)하는 과정이 필요한 작업이다. 특히 제작된 AI 칩에 있는 수많은 연산 회로가 쉬지 않고 번갈아 동작하도록 데이터의 공급 순서를 정하고 계산 결과를 다음 단계로 보내는 일은 특화된 저장장치(Library)를 통해 이뤄져야 해, 효율적인 저장장치와 컴파일러(Compiler)²³⁾를 개발하는 것이 하드웨어 설계 못지않게 중요하다.

엔비디아의 GPU도 그래픽 엔진에서 출발했다. 하지만 쿠다(Compute Unified Device Architecture, CUDA)²⁴⁾라는 개발 환경을 통해 사용자가 쉽게 프로그램을 작성하고 GPU 위에서 효율적으로 작업을 수행할 수 있도록 해, AI 관련 커뮤니티에서 널리 사용될 수 있었다. 또한 구글에서는 자체 TPU를 활용하는 소프트웨어 개발을 돕기 위해 ‘텐서플로(TensorFlow)’라는 개발 환경을 제공하고 사용자가 더 쉽게 TPU를 활용할 수 있도록 지원하고 있다. 앞으로도 이러한 개발 환경이 더욱 다양하게 제공돼야 AI 칩의 활용도가 점점 더 높아질 것이다.

20) FPGA(Field Programmable Gate Array): 회로 변경이 불가능한 일반 반도체와 달리 용도에 맞게 회로를 다시 새겨넣을 수 있어 프로그램이 가능한 비메모리 반도체를 말한다.
21) ASIC(Application Specific Integrated Circuit): 특정 목적으로 설계된 비메모리 반도체를 의미한다.
22) 시스톨릭 배열(Systolic Array): 같은 기능을 가진 셀로 연결망을 구성해 전체적인 동기 신호에 맞춰 하나의 연산을 수행할 수 있도록 설계된 특수한 처리장치를 뜻한다.
23) 컴파일러(Compiler): 고급 언어로 쓰인 프로그램을 컴퓨터에서 즉시 실행될 수 있는 형태의 목적 프로그램으로 변환해주는 프로그램을 가리킨다.
24) 쿠다(Compute Unified Device Architecture, CUDA): 엔비디아에서 개발한 기술로 그래픽 처리 장치(GPU)에서 수행하는 (병렬 처리) 알고리즘을 C 프로그래밍 언어를 비롯한 산업 표준 언어를 사용하여 작성할 수 있도록 하는 GPGPU 기술을 말한다.

AI 칩과 전력소모

앞으로 AI 서비스는 서비스 질의 향상과 함께 전력소모를 절감하는 방향으로 전개될 것이다. 이를 위해 AI 칩 자체의 전력소모를 줄이려는 노력과 더불어 이를 위한 DNN 구조의 개발도 가속될 것으로 예상된다.

실제로 이미지넷(ImageNet)에서 오류(Error) 확률을 5% 이내로 줄이기 위해서는 1019의 부동소수점 연산이 필요하다고 알려져 있으며, 이는 뉴욕 시민이 한 달 동안 사용하는 전력의 양과 같다. 2016년 이세돌 9단과의 대국에 사용된 ‘알파고(AlphaGo)’의 경우 바둑을 두기 위한 인터페이스에 1,202개의 CPU와 176개의 GPU가 사용됐다. 이때 소모한 전력은 약 1MW로 이는 인간 두뇌의 전력 소모량인 20W와 비교하면 엄청나게 큰 차이라 볼 수 있다.

이후 개발된 ‘알파고 제로(AlphaGo Zero)’는 단 4개의 TPU를 사용하는 ‘Re-enforcement Learning’ 기법을 사용해 겨우 72시간의 학습 후 AlphaGo의 성능을 능가했다. 이는 신경망의 구조와 학습 방법에 따라 전력소모를 얼마든지 줄일 수 있음을 보여주는 사례로, 에너지 절약형 DNN 구조를 계속 연구·개발할 필요가 있다.

AI 반도체 시장의 미래

AI의 응용 분야가 확대되고 성과가 나타나면서 관련 시장 규모도 크게 확대될 것으로 전망된다. 일례로 SK하이닉스는 최근 메모리 반도체에 연산 기능을 더해 AI와 빅데이터 처리 분야에서 데이터 접근의 정체 현상을 해결할 수 있는 차세대 지능형 메모리반도체인 PIM(Processing-In-Memory) 개발 소식을 전했다. SK하이닉스는 이러한 PIM이 적용된 첫 제품으로 ‘GDDR6-AiM(Accelerator in Memory)’ 샘플을 선보였고, 지난 2월 말 미국 샌프란시스코에서 열린 반도체 분야 세계 최고 권위 학회인 ‘ISSCC 2022’에서 PIM 개발 성과를 공개했다.

▲SK하이닉스가 개발한 차세대 메모리반도체 PIM이 적용된 ‘GDDR6-AiM’

결국 AI 시장은 응용 시스템이 견인하며 계속 새로운 분야를 창출할 것이다. 또한 신경망 회로 구조에 따른 인터페이스 품질에 의해 서비스 질이 차별화될 것이다. 이러한 AI 시스템의 근간을 이루는 하드웨어인 AI 칩의 경우, 추론과 학습을 얼마나 빠르고, 정확하게, 적은 전력 소모로 구현하는지에 따라 경쟁우위가 결정될 것이다.

지금까지의 연구 결과로는 AI 칩의 전력 효율이 떨어지는 것으로 판명됐다. 따라서 향후 기능의 관점과 더불어 전력 효율의 관점에서도 새로운 신경회로망 구조를 연구할 필요가 있다. 하드웨어 측면에서 전력 효율의 핵심 요소는 메모리 접근 방식을 개선하는 것이다.

이에 따라 앞으로는 메모리 내에서 정보를 처리하는 PIM(Processing-In-Memory)과 시냅스 가중치(Synapse Weight)²⁵⁾를 아날로그 메모리에 저장해 신경회로망을 뉴로모픽으로 모사하는 방식이 중요한 연구 주제로 다뤄질 것이다.

25) 시냅스 가중치(Synapse Weight): 전기 신호를 인접한 뉴런으로 전달하는 신호 전달 능력을 의미한다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

심층 신경망부터 맞춤형 반도체까지_ AI 반도체의 현황과 미래전망

정덕균 교수 — Thu, 24 Feb 2022 20:00:00 +0000

요즘 인공지능(AI) 기술이 다양한 분야에서 활용되고 있다. 우리가 알지 못하는 사이 번호판 인식, 음성인식, 번역, 자연어 대화, 자율주행, 게임은 물론, 인간만이 가능하다고 여겨졌던 작곡, 회화 등 창의의 영역에서도 주목할만한 성과를 내고 있다. 심지어 20년 내로 인간의 지능을 뛰어넘는 AI가 등장해 인류를 위협할 것이라는 전망도 나온다.

AI가 이렇게 뛰어난 문제 해결 성과를 거두기 시작한 것은 기존의 컴퓨터에서 수행하던 것과는 전혀 다른 계산 방식인 신경망 회로(Neural Network)¹⁾덕분이다. 현재 많은 연구자들이 기존의 방법으로는 해결이 어려웠던 문제들을 신경망 회로로 풀어내려 시도하고 있고, 21세기 들어 양자 계산기(Quantum Computing)²⁾와 함께 새로운 문제해결 방식으로 크게 주목받고 있다. 전통적인 컴퓨터는 부울대수(Boolean Alegebra)³⁾에 입각한 수학적인 모델을 바탕으로, 폰 노이만(Von Neumann) 구조의 컴퓨터를 통해 고안한 알고리즘을 실행하는 방식으로 문제를 해결했다. 하지만 이제는 전혀 다른 방식으로 새로운 능력을 보여주는 AI의 시대가 도래했다.

1) 일반적으로 ‘인공 신경망(Artificial Neural Network)’으로 불리는 ‘신경망(Neural Network)’은 동물의 뇌를 구성하는 생물학적 신경 네트워크에 영감을 받아 만들어진 컴퓨팅 시스템을 의미함.
2) 양자 계산기(Quantum Computing): 계산을 수행하기 위해 중첩, 간섭 및 얽힘과 같은 양자 상태의 집합적 특성을 이용하는 계산의 한 유형.
3) 부울대수(Boolean Alegebra): 변수들의 값이 참과 거짓인 대수학의 한 분야로, 보통 각각 1과 0으로 표시됨.

‘인식 모델부터 합성곱 신경망까지’ 신경망 회로의 역사

현재 대부분의 AI 분야에서 채택하고 있는 신경망 회로가 처음 등장한 지는 오래됐지만, 실제로 응용되기 시작한 시기는 비교적 최근이다. AI 연구 초창기에는 기존의 지식들을 표현하고 나열해 해답을 제시하는 전문가 시스템(Expert System), 컴퓨터와의 대화를 가능하게 하는 스크립트 기반(Script-Based) 대화형 에이전트(Agent) 등 인간의 사고를 모사하는 여러 인공 지능 기술이 혼재해 있었다. 신경망(Neural Network)도 문제 해결 방법 중 하나로 여겨졌지만, 실용화 단계에 이르기에는 너무 원시적이고 한계가 뚜렷했다.

▲ 인공신경망의 활성화 기능을 위한 수학적 기초

신경망 회로는 생명체의 두뇌가 작동하는 원리를 본 따 만들어진 계산 방식이다. 신경망이 신경세포(Neuron)와 신경세포 간의 시냅스(Synapse)로 연결돼 있다는 사실이 신경해부학적으로 밝혀진 이후, 이 동작에 대한 수학적인 모델이 1943년 워렌 맥컬로치(Warren McCulloch)와 월터 피츠(Walter Pitts)에 의해 확립됐다. 이 모델은 ‘퍼셉트론 모델(Perceptron Model)’이라고 불리며, 뇌를 구성하는 신경세포의 동작을 모사해 다양한 논리적인 연산을 할 수 있음을 보여줬다.

그러나 1969년 저명한 수학자인 마빈 민스키(Marvin Minsky)와 시모어 페퍼트(Seymour Papert)가 ‘퍼셉트론 모델은 선형 함수 정도의 문제만 풀 수 있을 뿐, 단순한 배타적 논리합(XOR) 계산⁴⁾도 불가능하다’고 폄하한 이후에는 관심 밖으로 밀려났다. 또한 신경망 계산의 핵심을 이루는 시냅스 가중치(Synapse Weight)⁵⁾를 학습해 결정하는 방식도 어려워 실용화되지 못하고 있었다.

4) 배타적 논리합(XOR, exclusive OR) 계산: 두 개의 입력값이 서로 다를 때 결과값을 ‘참(True)’으로 도출하는 계산.
5) 시냅스 가중치(Synapse Weight): 전기 신호를 인접한 뉴런으로 전달하는 신호 전달 능력.

▲ 신경망 회로

그러던 중 2010년 토론토 대학교의 제프리 힌턴(Geoffrey Hinton) 교수가 ‘ReLU(Rectified Linear Unit)’라고 명명한 활성화 함수(Activation Function)를 채택한 것이 신경망 회로에 대한 연구에 또 한 번의 전기를 마련했다. ReLU를 활용해 시냅스 가중치가 멀티 레이어를 뚫을 때, 즉 출력에서 입력 방향으로 정보를 역전파(Back Propagation)할 때 학습의 정확도를 높일 수 있다⁶⁾는 단순하지만 획기적인 방법을 제시한 것.

힌턴 교수의 연구 그룹은 2012년 컴퓨터 비전(Computer Vision)⁷⁾ 분야에서 가장 어려운 문제로 꼽히는 이미지 분류에 심층 신경망(Deep Neural Network, DNN)의 학습 방법을 적용한 ‘알렉스넷(AlexNet)’을 발표했다. 알렉스넷은 고양이의 눈이 망막에 맺힌 이미지를 처리하는 방식을 모사해 합성곱 신경망(Convolutional Neural Net, CNN) 구조를 도입했고, 그 결과 기존 기술의 한계를 크게 뛰어넘어 사람의 이미지 분석 능력에 필적하는 성능을 낼 수 있었다.

심층 신경망은 보통의 신경망이 4-5개 정도의 층(Layer)을 가지는 데 비해 10개 이상의 은닉층(Hidden Layer)을 가진 깊은 수직 구조로 이루어져 있다. 이 과정에 필요한 계산량을 기존의 컴퓨터로 감당하기에는 너무 많은 시간이 소요돼, 실용화가 어려웠다. 그러나 엔비디아(NVIDIA)가 대량 병렬 연산 기능을 가진 GPU를 활용해 기존 방법으로 해결이 어려웠던 문제에 대해 심층 신경망을 구성하고 신경망이 시냅스 가중치를 빠르게 학습하도록 해, 실용 가능성을 크게 높였다.

이제 심층 신경망은 다양한 응용 분야에 적용되고 있고, 많은 연구자들이 심층 신경망의 새로운 구조를 경쟁적으로 연구하고 있다. 이에 따라 AI의 문제 해결 능력도 급속도로 발전하고 있으며, 응용 분야도 확대되고 있다. 이제는 신층 신경망 구조의 AI가 어려운 문제를 해결하는 데 있어 만병통치약처럼 여겨지기 시작했다.

6) 역전파 알고리즘(Back Propagation Algorithm): 다층 구조를 가진 신경망의 머신 러닝(Machine Learning)에 활용되는 통계적 기법 중 하나로, 예측값과 실제값의 차이인 오차를 계산해 이를 다시 반영해 가중치를 다시 설정하는 방식의 학습 방식을 의미함.
7) 컴퓨터 비전(Computer Vision): 컴퓨터를 활용해 인간의 시각적인 인식 능력을 재연하는 기술 분야.

인간의 능력을 넘어서기 위해, 차세대 AI 반도체의 미래

이렇게 심층 신경망이 이론적인 기초를 넘어 응용에 이를 수 있었던 것은 GPU로 대표되는 하드웨어의 데이터 처리 성능이 발전한 덕분이다. 방대한 양의 데이터를 빠르게 처리할 수 있는 GPU가 등장하지 않았다면, AI 기술의 발전은 지금보다 훨씬 늦어졌을 것이다. 궁극적으로 인간의 능력을 뛰어넘는 AI를 만들기 위해서는 당연히 지금보다 훨씬 더 높은 컴퓨팅 성능(Computing Power)이 필요하다. 그리고 이를 구현하기 위해서는 현재의 GPU 성능을 훨씬 능가하는 차세대 AI 반도체가 필요하다.

인간의 신경세포 개수는 약 850억 개 정도로 알려져 있고, 이들 사이를 연결하는 시냅스의 개수는 신경세포 개수의 약 1,000~1만 배에 달한다. 따라서 사람의 두뇌를 모사하기 위해서는 85조에서 850조 개 정도의 시냅스 가중치와 이 값을 저장할 수 있는 대용량 저장장치가 필요하다. 이처럼 방대한 규모의 계산은 현재의 반도체 기술 수준으로는 감당하기 어렵지만, 전문적으로 설계된 AI 반도체가 등장하면 감당할 수 있을 것으로 예상된다.

AI 기술의 응용 분야가 지속적으로 확대되고 있는 만큼, AI 반도체의 성능은 급격히 개선되고 관련 시장도 폭발적으로 성장할 것이다. 기업들의 투자 규모 역시 2024년 약 52조 원 수준에서 2030년까지 약 140조 원으로 크게 확대될 것으로 전망된다.

AI 반도체는 응용 분야에 따라 크게 중앙 서버에서 데이터를 처리하는 클라우드 서비스용 반도체와 네트워크 말단인 기기에서 데이터를 처리하는 엣지 컴퓨팅(Edge Computing)용 반도체로 구분할 수 있다. 각각 요구되는 특성은 매우 다르지만 시장의 크기는 서로 비슷할 것으로 예상된다.

또한 AI 반도체는 기능에 따라 크게 2가지 전문 분야로 구분할 수 있다. 하나는 추론(Inference), 다른 하나는 학습(Training)이다. 이때, 학습 기능은 일반적으로 추론 기능을 포함한다.

추론은 이미 학습된 내용을 바탕으로 입력에 알맞은 출력을 해내는 일방향성 계산으로, 주로 8bit 이하 정밀도를 가진 행렬-벡터(Matrix-Vector) 곱셈 방식이 활용된다. 반면, 학습이 목적이라면 16~32bit 수준의 높은 정밀도가 필요하고, 신속한 학습을 위해 방대한 양의 데이터를 일괄적으로 처리할 수 있어야 한다. 이를 위해 행렬-행렬(Matrix-Matrix) 연산이 주로 사용되는데, 단순한 추론에 비해 많은 계산이 필요한 탓에 소모되는 에너지도 크다. 다행히 학습은 한 번만 수행하면 되고, 시냅스 가중치가 결정되면 그 이후에는 추론만 전문적으로 하는 저전력 AI 반도체를 대량으로 사용하게 된다.

‘더 유용하게, 더 효율적으로’ 구글, TPU로 AI 전용 반도체 시대를 열다

구글은 클라우드 서비스의 최강자인 동시에, 경쟁자들에 비해 AI 서비스를 더 효율적으로 운용할 수 있도록 하는 데 많은 관심을 갖고 있다. 특히 딥 러닝(Deep Learning)⁸⁾을 진행할 때, 데이터를 더 빠르고 경제적으로 처리하는 데 특화된 전용 프로세서(Processor)의 필요성도 인식하고 있다.

가장 현실적인 방법은 엔비디아의 GPU를 사용하는 것이지만, GPU의 본래 용도는 영상 이미지 합성이다. GPU는 광선 추적(Ray Tracing)⁹⁾ 계산을 위해 프로그램 방식의 ‘단일 명령 다중 데이터 처리 구조(Single-instruction Multiple Data Processor)’¹⁰⁾를 채택하고 있다. 하나의 프로그램 안에서 데이터를 처리할 수 있는 ‘Programmable Processor’인 만큼 고속 게임용 그래픽 처리에는 최적화돼 있지만, 딥 러닝과 같은 머신 러닝을 수행할 심층 신경망에 활용하기에는 또한 지원하는 데이터 유형이 그래픽에 맞춰져 있어 연산 방식이 다르고, 기능이 다양한 만큼 에너지 효율도 좋지 않다.

이에 구글은 AI 서비스에 특화된 자체 프로세서를 만들기 위해 지난 2013년 기업 내 ‘Processor Architecture Team’을 구성해 데이터 분석과 딥 러닝을 위한 TPU(Tensor Processing Unit) 개발에 착수했고, 2015년부터 클라우드 서비스에 활용하기 시작했다.
TPU의 자세한 기능과 구성은 베일에 싸여 있다가 2017년 공개됐는데, 이 반도체 칩 내부에는 심층 신경망의 추론 기능을 효율적으로 구현하기 위해 시냅스 가중치를 담고 있는 거대한 행렬과 각 층의 입력에 해당하는 벡터를 곱하는 기능이 장착됐다. 필요한 계산을 병렬 구조로 시간 낭비 없이 겹쳐 계산하는 ‘파이프라인’ 방식의 시스톨릭(Systolic)¹¹⁾ 구조를 채택해, 처리 성능도 크게 개선했다.

1세대 TPU는 28nm(나노미터) 공정으로 만든 주문형 반도체(Application Specific Integrated Circuit, ASIC)¹²⁾다. 인공지능이 인간을 이기기 어렵다고 여겨지던 바둑 분야에서 인간에게 승리를 거둔 AI 바둑 프로그램 ‘알파고(AlphaGo)’에도 TPU가 탑재돼 있다. 알파고는 2016년 3월 개최된 ‘Google Deepmind Challenge’에서 이세돌 9단에게 총 전적 4승 1패로 승리하며, AI의 능력이 인간의 능력을 넘어설 수 있음을 보여줬다.

8) 딥 러닝(Deep Learning): AI에 데이터를 학습시키는 머신 러닝의 한 분야로, 빅데이터를 컴퓨터가 처리할 수 있는 형태인 벡터나 그래프 등으로 표현하고 이를 학습하는 추상화 모델을 구축하는 기술 또는 시스템(알고리즘).
9) 광선 추적(Ray Tracing): 그래픽이 표시하고자 하는 사물과 주변의 광원 상태를 인지해, 광원에서 나오는 광선이 물체에 끼치는 영향(현상)을 연산(시뮬레이션)을 통해 이미지화하는 기법.
10) 단일 명령 다중 데이터 처리 구조(Single-instruction Multiple Data Processor): 하나의 명령어로 여러 데이터를 동시에 처리하는 병렬 구조의 처리장치.
11) 스톨릭(Systolic): 반도체 내부의 셀(Cell)들이 연결망(Network)을 구성해 전체적인 동기 신호에 맞춰 하나의 연산을 수행하는 구조.
12) 주문형 반도체(Application Specific Integrated Circuit): 특정 목적으로 설계된 시스템 반도체.

AI 반도체 성능 향상의 열쇠는 ‘메모리 반도체’…구글, TPU에 HBM 채택해 학습 가속화

TPU에서 Tensor는 2차 이상의 다차원 행렬(Matrix)을 지칭한다. 구글에서 개발한 1세대 TPU는 추론을 위해 제작된 AI 반도체 칩으로, 2차원의 추론 기능만 할 수 있었다. 이후 구글은 2세대 TPU를 2017년 공개했는데, 여기에는 다차원 함수를 계산하는 기능이 탑재돼 추론과 더불어 학습도 가능해졌다.

구글은 이후 2018년 3세대 TPU, 2020년 4세대 TPU를 차례로 선보였는데, 외부 메모리로는 기존의 DDR(Double Data Rate) DRAM이 아닌 2.5차원(2.5D) 시스템 구성이 가능한 차세대 고대역폭 메모리 반도체인 HBM(High-Bandwidth Memory)을 채택했다.

▲ SK하이닉스가 업계 최초로 출시한 HBM3

HBM은 기존 서버에서 주로 사용되던 DDR DRAM에서 크게 발전된 형태를 갖추고 있다. HBM은 4개 또는 8개의 DRAM 칩을 수직으로 적층해 더 많은 저장 용량을 확보했다. 또한 입출력 성능을 획기적으로 개선하기 위해 2,000개 이상의 많은 연결선을 할당했고, 이를 기존에 주로 사용하던 인쇄회로 기판(Printed Circuit Board, PCB) 대신 미세회로 기판인 ‘실리콘 인터포저(Si Interposer)’로 연결했다. 그 결과 HBM은 고성능 시스템 구성을 위한 필수 메모리 반도체로 각광받고 있다.

SK하이닉스는 현재 HBM2E 시장을 선도하고 있으며, 최근 업계 최초로 차세대 표준인 HBM3 개발에 성공하며 관련 시장의 주도권을 놓치지 않고 있다.

AI 반도체에 가장 효율적인 구조를 찾기 위해서는 시스템 운용 관련 데이터가 필요한데, 구글은 자체적으로 대규모 클라우드 서비스 센터를 운용하고 있어 정보 획득도 용이하다. AI 서비스를 효율적으로 운영하기 위한 실사용 데이터는 물론, 서비스 효율화를 가로막는 장애물이 무엇인지 파악할 수 있는 다양한 데이터를 확보할 수 있어, 이를 바탕으로 최적화된 AI Accelerator¹³⁾를 지속적으로 개발할 수 있는 체계를 갖출 수 있다. 구글은 이러한 강점을 활용해 앞으로도 다양한 응용 분야에 대응할 AI 반도체 칩을 지속적으로 선보일 전망이다.

엔비디아의 경우, ‘Programmable Processor’로의 정체성은 유지하면서도 그래픽뿐 아니라 AI Accelerator로 효율적인 새로운 GPU 모델이 계속 개발되고 있다. 구조 역시 다양한 응용 분야에 대응하기 위해 유연하게 설계돼 있다. 그러나 특정 응용 분야에 대해 최적화되어 있는 구글의 TPU에 비해서는 성능과 에너지 효율이 떨어질 수밖에 없다.

엔비디아 입장에서는 계속 경쟁력 있는 GPU를 내놓기 위해 구글을 비롯한 페이스북(Facebook), 아마존(Amazon), 마이크로소프트(Microsoft)와 같은 클라우드 서비스 운영 기업들로부터 다양한 응용 분야에서의 실사용 데이터를 비롯해 더 효율적인 운용을 위한 데이터를 수집하는 것이 중요하다. 또한 계속 변화하는 응용 분야에 대응해 경쟁력을 유지하려면 반드시 AI 반도체 칩 개발을 지속해야 한다.

13) AI Accelerator: AI를 위한 데이터 처리와 연산에 특화된 하드웨어 또는 프로세서.

맞춤형 AI 반도체 칩 제작 트렌드는 앞으로도 지속될 전망

최근 프로세서 설계와 제작은 더 이상 인텔(Intel)이나 AMD, 삼성전자 등 시스템 반도체 제조 기업만의 전유물이 아니다. 누구든 고도로 발달한 설계 자동화 도구(Design Automation Tool)를 이용해 효율적인 설계가 가능하고, 최첨단 공정을 제공하는 파운드리(Foundry, 반도체 위탁생산 업체)를 통해 자체 응용 분야에 최적화된 기능을 가진 프로세서를 맞춤형으로 제작할 수 있다.

실제로 애플(Apple)은 아이폰(iPhone)에 사용되는 모바일용 프로세서(Application Processor, AP)에 자사가 설계한 반도체 칩을 사용하는 것에서 한 걸음 더 나아갔다. PC의 CPU를 자체 설계해 인텔 칩을 사용하던 맥(Mac PC)의 성능과 에너지 효율을 크게 향상시킨 것. 애플이 설계한 ‘M1’칩의 최상위 모델인 M1Max 프로세서는 3.2GHz에서 570억 개의 트랜지스터, 10개의 코어를 갖추고 동작하며, 인텔의 최신 프로세서인 11세대 i9에 비해 성능과 에너지 효율 면에서 크게 앞선 성능을 자랑한다.

반면, 인텔의 경우 기존 프로세서와의 명령어 호환성 때문에 최적의 프로세서 구조를 채택하기 어려운 것이 단점으로 작용하고 있다. 특정 응용 분야에 최적화된 고유의 프로세서를 개발하는 추세는 앞으로도 계속될 것이며, 특히 클라우드 서비스를 운영하는 기업은 심층 신경망에 일반 프로세서를 사용하는지, 특화된 프로세서를 사용하는지에 따라 서비스의 질에서 큰 차별성이 나타날 것으로 보인다. 다만 반도체 칩을 자체적으로 설계하기에는 많은 자본과 인력이 소요되기 때문에, 그 이득이 비용을 상쇄할 수 있는 소수의 대형 클라우드 서비스 운영 기업만이 AI 반도체 칩 제작에 뛰어들 수 있을 것이다.

이러한 추세와 더불어 현재 많은 반도체 설계 전문 회사들이 GPU를 능가하는 클라우드 서비스용 범용 AI 반도체 칩을 목표로 개발을 진행하고 있다. 하지만 다양한 응용 분야에서의 실사용 데이터를 확보해야만 경쟁력 있는 AI 반도체 칩 개발이 가능한 만큼, AI 반도체 전문 팹리스(Fabless, 반도체 설계 전문 업체)들은 클라우드 서비스 운영 기업과의 공동 개발이 반드시 필요할 것이다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

메모리 반도체 분야에서의 새로운 기회와 도전

김중식 TL — Tue, 28 Sep 2021 21:03:00 +0000

데이터 폭증, 메모리 반도체 분야에 열린 새로운 기회

2020년 처리된 데이터의 양은 약 59제타바이트(Zetabyte)¹⁾로, 최근 몇 년간 ICT 사회에서 생성되는 데이터의 양이 폭발적으로 증가하고 있다. 특히 코로나19로 인해 재택근무, 화상회의, 스트리밍 등의 서비스가 전 세계적으로 급증함에 따라 데이터 사용량이 더 늘었다. 향후 5년 동안 인공지능(AI), 자율주행, 증강현실(AR), 가상현실(VR) 등의 ICT 기술을 우리 일상에 적용하기 위해 지금 수준의 3배가 넘는 데이터가 생성될 것으로 예상된다.

1) 제타바이트(Zetabyte): Zeta는 10해(10의 21승)를 의미하는 수의 단위. Byte는 데이터의 크기를 표현하는 단위. 킬로바이트(KB), 메가바이트(MB), 기가바이트(GB), 테라바이트(TB), 페타바이트(PB), 엑사바이트(EB), 제타바이트(ZB) 순으로 단위가 점점 커지며, 단위가 바뀔 때마다 데이터의 크기가 1,000배씩 증가함.

SK하이닉스의 신기술 발굴 및 개발을 주도하고 있는 RTC 나명희 담당이 ISC 2021 패널토론에서 발표한 바에 따르면, 10년 내 메모리 대역폭 수요는 8배, 용량 수요는 5배 증가할 전망이다.

이러한 엄청난 양의 데이터를 처리하기 위해서는 데이터 센터와 엣지 디바이스(Edge Device)에서 컴퓨팅 성능, 전력, 비용 등이 끊임없이 개선돼야 한다. 데이터의 폭발적인 증가로 메모리 성능과 용량에 대한 수요가 급증하면 ‘메모리 벽(Memory Wall)’²⁾도 극에 달할 것이다.

2) 메모리 벽(Memory Wall): CPU와 CPU 칩 외부 메모리 사이의 속도 차이.

‘메모리 벽’을 허물 차세대 메모리 반도체 기술은?

DRAM과 NAND는 지금까지 “확장성(Scalability)을 확보해 달라”는 고객의 요구에 보조를 맞춰 발전해왔으며, 이 추세는 앞으로도 계속될 것으로 보인다. 최근 수십 년 동안 DRAM과 NAND를 대체할 수 있는 새로운 기술을 개발하기 위한 다양한 시도가 있었지만, 아직 이를 대체할 수 있는 기술은 등장하지 않았다. 특히 앞으로는 메모리 반도체 용량과 성능에 대한 수요가 예측하기 어려울 정도로 증가할 전망이어서, 메모리 반도체 기술을 더욱 발전시켜야만 새로운 기회를 창출할 수 있다.

메모리 반도체 계층의 성능 격차를 해소하기 위한 방법으로 스토리지 클래스 메모리(Storage Class Memory, SCM)³⁾ 개념이 도입됐다. 상변화 메모리(Phase-Change RAM, PCRAM)⁴⁾는 SCM의 가능성을 처음으로 실현한 대표적인 예다.

또한 컴퓨팅 프로세서와 메모리 반도체 사이의 벽을 허물기 위한 노력으로, 내장형(Embedded), 독립형(Standalone) 솔루션 등 여러 방식이 동원됐다. 이러한 솔루션은 다양한 분야에 적용될 수 있겠지만, 새로운 메모리 반도체 기술을 도입하기 위해서는 항상 고품질의 메모리 반도체 재료와 그 재료 간 적절한 비율의 결합이 필요하다.

3) 스토리지 클래스 메모리(Storage Class Memory): NAND처럼 고용량/비휘발성 속성을 제공하면서 동시에 DRAM처럼 고속으로 데이터를 처리하는 메모리.

4) 상변화 메모리(Phase-change RAM): 상변화 물질의 상태 변화로 인해 발생하는 저항의 차이를 활용해 1과 0을 인식시키는 방식으로 동작하는 메모리 반도체. 빠른 동작 특성과 비휘발성 등 장점을 두루 갖춰 차세대 메모리 반도체로 주목받고 있음.

이러한 측면에서 최근 몇 년 동안 새로운 메모리 반도체 재료 분야에 대한 기초 연구가 활발히 진행되고 있다. 최근 열린 2021 VLSI 기술 심포지엄의 발표에 따르면 가장 널리 연구되고 있는 것으로 알려진 세 가지의 신기술은 △강유전체 메모리(Ferroelectric Memory, FRAM) △STT-MRAM(Spin Transfer Torque Magnetic Random Access Memory) △ReRAM(Resistive RAM, RRAM)이다.

강유전체 메모리(FRAM)

강유전체 메모리(FRAM)는 외부 전기장에 의해 전환될 수 있는 두 개의 안정적인 강유전체 쌍극자를 사용하는 메모리다. 강유전체 재료는 캐퍼시터(Capacitor), 그리고 결합된 산화물층으로 상보성 금속 산화물 반도체(Complementary Metal-oxide Semiconductor, 이하 CMOS) 게이트 스택(Gate Stack)에 데이터를 저장하는 요소가 될 수 있다.

특히 산화하프늄(HfO2)이 강유전성을 갖고 있다는 것이 발견돼 큰 주목을 받았다. HfO2는 CMOS 게이트 산화막(Gate Oxide)에 널리 사용되는 재료로, 빠른 속도와 비휘발성, CMOS 기술과의 손쉬운 통합성 덕분에 새로운 부가가치를 창출할 메모리 반도체 후보로 널리 연구되고 있다.

하지만 강유전체 메모리가 가진 내구성의 한계는, 메모리 반도체 계층 구조에서의 위치를 차지하는 데 가장 큰 걸림돌 중 하나가 될 것이다.

STT-MRAM

STT-MRAM은 가장 주목받는 차세대 메모리 반도체 기술 중 하나다. 스핀-토크(Spin-Torque) 전달을 통해 전환 가능한 두 가지 안정적인 자화 상태(Magnetic State)를 사용하는 STT-MRAM은, 차세대 메모리 반도체 후보군으로 고려되는 다른 신기술에 비해 처리 속도가 매우 빠르며 내구성도 뛰어나다. 최근 STT-MRAM은 주로 사물인터넷(IoT) 엣지 디바이스용 내장 메모리 반도체로 연구되고 있다.

STT-MRAM은 저전력 특성을 갖고 있을 뿐 아니라, 백 엔드(Back End) CMOS 공정 기술에 쉽게 통합될 수 있어, 노어 플래시(NOR Flash)⁵⁾와 달리 프런트 엔드(Front End) 공정 아키텍처(Architecture) 변경과 관계없이 통합할 수 있다. 또한 매우 빠른 처리 속도 덕분에 최종 레벨의 캐시 메모리(Cache Memory)⁶⁾로 간주된다.

SOT-MRAM(Spin-Orbit Torque Magnetic Random Access Memory)은 읽기와 쓰기 경로를 분리하는 방식으로 내구성을 높여, 캐시 애플리케이션에 매력적인 옵션이 될 것이다. 이러한 유형의 메모리 반도체는 빠른 처리 속도와 우수한 내구성으로 데이터 센터 등 고성능 컴퓨팅 시스템의 메모리 반도체 계층을 구성할 좋은 후보가 될 수도 있다.

하지만 STT-MRAM 또는 SOT-MRAM이 고집적(High Density) 메모리 반도체로 채택되기 위해서는 비용과 집적도를 개선할 필요도 있다.

5) 노어 플래시(NOR Flash): 병렬 구조로 각 셀이 어드레스 라인과 데이터 라인으로 연결된 플래시 메모리. 필요로 하는 셀에 바로 접근할 수 있어 읽기 속도가 NAND보다 빠르지만, 회로가 복잡해 집적도를 높이기 어렵고 전력 소모도 큼.

6) 캐시 메모리(Cache Memory): 주 기억장치와 중앙처리장치(CPU) 사이에서 데이터와 명령어를 일시적으로 저장하는 고속 메모리.

ReRAM(RRAM)

앞서 언급한 바와 같이 고용량(High Capacity) 메모리 반도체의 공정 집적화 솔루션은 반도체 기술의 기본 단위 중 하나다. 따라서 고용량 메모리 반도체로 채택되려면 최소 10년 이상의 추가 확장성을 보장해야 한다. 평면 타입의 적층 기술(2D Scaling)이 이미 물리적 한계에 직면해 있다는 점을 고려할 때, 새로운 3D 입체 타입의 적층 기술(3D Stacking)은 메모리 계층 구조 안에서 고밀도 메모리 반도체를 구성하는 ‘게임 체인저(Game Changer)’가 될 수 있다.

컴퓨팅 프로세스를 메모리 어레이(Memory Array)로 가져오는 인메모리 컴퓨팅(In-Memory Computing)도 컴퓨팅 에너지와 성능을 향상하기 위한 좋은 메모리 반도체 솔루션이 될 것이다. 데이터가 메모리 반도체에서 컴퓨팅 프로세서(Computing Processor)로 전송될 때 주로 처리 시간이 지연되고 에너지가 소비되기 때문이다.

인공지능(AI)을 활용한 여러 작업에서는 덧셈과 곱셈을 수없이 반복해, 기존 컴퓨팅 방식과 메모리 아키텍처를 사용하면 비효율적이다. 반면, 인메모리 컴퓨팅을 활용하면 행렬 곱셈도 옴의 법칙(Ohm’s law)⁷⁾과 키르히호프의 법칙(Kirchhoff’s Rule)⁸⁾을 활용해 메모리 어레이 내에서 수행할 수 있다.

7) 옴의 법칙(Ohm’s Law): 전류의 세기는 두 점 사이의 전위차에 비례하고, 전기저항에 반비례한다는 법칙.

8) 키르히호프의 법칙(Kirchhoff’s Rule): 독일의 물리학자 G. R. Kirchhoff가 발견한 법칙으로, ‘노드(node)로 들어오는 전류와 흘러나가는 전류는 같다’로 정의되는 ‘전류의 법칙’과, ‘닫힌 고리에서 모든 전압을 더했을 때 0이 된다’로 정의되는 ‘전압의 법칙’이 있음.

이러한 인메모리 컴퓨팅을 구현하기 위해 다양한 유형의 새로운 메모리 반도체에 대한 연구가 진행되고 있다. 그중 ReRAM은 하나의 셀에 여러 층을 저장하는 데 더 적합하다. 이 기능은 인메모리 컴퓨팅 에너지와 비용의 효율성 측면에서 필수적인 만큼, 다양한 후보군 중 ReRAM은 높은 경쟁력을 가지고 있는 것으로 판단된다.

최근 여러 가지 새로운 메모리 반도체 기술이 각각의 독특한 장점으로 주목받기 시작했지만, 아직 승자는 없다. 폭발적인 데이터 수요 급증에 힘입어 메모리 반도체 시장에 완전히 새로운 기회가 열리고, 이에 따라 DRAM, NAND 등 기존 메모리의 한계를 뛰어넘는 새로운 메모리 반도체 기술이 요구되고 있음은 명백하다. 그러나 이러한 새로운 기회를 잡기까지는 많은 과제가 남아 있다.

SK하이닉스는 DRAM, NAND의 성능을 향상하는 것뿐만 아니라 새로운 메모리 반도체 기술을 확보하는 데에도 많은 노력을 기울이고 있다. 이를 통해 AI, 자율주행을 비롯해 우리의 삶과 사회를 향상할 다양한 미래 기술들이 지속적으로 발전하는 데 크게 이바지할 것이다.

[미래 반도체 기술] 차세대 3D 이미지센서 소자 – 단광자눈사태다이오드(SPAD)

장준연 소장 — Tue, 11 May 2021 15:00:00 +0000

이미지센서는 빛을 디지털 신호로 변환해 이미지로 구현하는 역할을 하는 반도체다. 오늘날 카메라의 비중이 높은 스마트폰에서 빼놓을 수 없는 기술이자, 자율주행자동차, 로봇 등 미래 기술을 구현하는 데 있어서도 핵심적인 역할을 할 것으로 기대된다. 이처럼 전후방산업과의 연관 관계가 깊고 이를 활용해 고부가가치를 창출할 수 있어, 반도체 산업의 핵심 카테고리 중 하나로 주목받고 있다.

현재 이미지센서의 최대 수요처는 스마트폰으로 전체 이미지센서 수요의 약 70% 정도를 차지하고 있다. 하지만 앞으로는 자율주행자동차를 비롯한 미래 산업에서도 이미지 센서의 수요가 크게 증가할 것으로 예상된다.

이처럼 그 중요성이 강조되고 이에 따라 글로벌 주요 첨단 기술기업들의 관심이 쏠리면서, 앞으로는 현재 이미지센서 선도 그룹들의 시장 장악력이 크게 감소할 수도 있다는 전망도 나온다. 이에 소니(Sony)와 같은 기존 선도 업체들은 차세대 이미지센서 연구개발을 적극적으로 수행하고 있다.

차세대 이미지 센서 시장을 주도할 새로운 폼팩터 ‘3D 이미지 센서’

최근 차세대 이미지센서 시장을 주도할 새로운 폼팩터(Form Factor)로는 ‘3D 이미지센서’가 크게 각광받고 있다. 기존 이미지센서는 2D 이미지만 구현할 수 있는 데 반해, 3D 이미지센서는 사물까지의 거리(심도)를 측정함으로써 더 정밀하게 물체나 동작을 인식해 이를 3D 이미지로 구현할 수 있기 때문이다.

지난해 Yole Developpement가 발표한 내용에 따르면¹⁾, 3D 이미지센서 시장은 2019년 약 50억 달러에서 2025년 150억 달러로 연평균 성장률(CAGR)이 약 20%에 달할 것으로 기대된다. 그중 스마트폰 부문은 같은 기간 약 26.2%의 높은 성장률을 기록하며, 2025년에는 절반이 넘는 시장점유율을 기록할 것으로 전망된다. 자동차 부문 역시 약 27%로 가장 높은 연평균 성장률을 기록하며, 두 번째로 큰 시장을 형성할 것으로 예상된다.

1) ‘CMOS Camera Module Industry for Consumer & Automotive 2020’ by Yole Developpement(2020)

특히 스마트폰 분야에서는 자동초점(Autofocus)²⁾, 근접 감지(Proximity Sensing)³⁾ 등의 기능을 구현하기 위해 이미 2010년 초반부터 3D 이미지센서가 활용돼왔다. 또한 2017년 애플(Apple)이 아이폰(iPhone) 시리즈 10주년을 맞아 출시한 아이폰 X에서 3D 얼굴 인식 기능인 ‘Face ID’를 대대적으로 홍보한 이후에는 스마트폰의 혁신을 이끌 새로운 폼팩터 중 하나로 주목받기 시작했다.

이에 지금은 애플뿐만 아니라 삼성전자, LG전자, 화웨이(Huawei), 오포(OPPO), 비보(Vivo) 등 주요 스마트폰 업체들도 자사 스마트폰에 경쟁사보다 더 우수한 3D 이미지센서를 탑재하기 위해 치열한 기술 경쟁을 펼치고 있다.

2) 자동초점(Autofocus): 피사체에 초점이 자동으로 맞춰지도록 하는 카메라의 기능.
3) 근접 감지(Proximity Sensing): 빛을 쏘아 반사되는 광파를 감지해 물체나 사람의 존재를 인식하는 센서의 기능. 스마트폰에서는 통화할 때 화면에 닿은 사람의 얼굴을 인식해 화면을 꺼 불필요한 터치를 방지하는 등의 용도로 사용되고, 자율주행, 로봇 기술 등에서는 자동차 또는 로봇과 물체의 거리를 측정해 물체의 위치나 접근 여부를 알려주는 데 주로 사용됨.

3D 이미지센서의 동작 원리는?

3D 이미지센서가 3D 이미지를 얻는 방식은 크게 양안 시각(Stereo Vision)⁴⁾ 방식, 구조 광(Structured Light)⁵⁾ 방식, 비행시간(Time of Flight, 이하 ToF) 방식으로 분류된다. 이중 ToF 방식은 거리 측정 방식에 따라 위상 차이를 이용하는 ‘간접 ToF(Indirect ToF, 이하 I-ToF)’와 시간 차이를 직접 측정하는 방식인 ‘직접 ToF(Direct ToF, 이하 D-ToF)’로 구분된다.

4) 양안 시각(Stereo Vision): 사람이 두 눈으로 원근감을 인지하는 것과 유사하게 두 개의 이미지 센서를 사용해 사물까지의 거리를 측정하고 이를 활용해 3D 이미지를 구현하는 방식. 소형화가 어렵다는 근본적인 단점을 가지고 있음.
5) 구조 광(Structured Light): 특정한 패턴의 빛을 물체에 조사한 뒤 입체적인 물체로부터 반사돼 이미지 센서로 돌아온 빛의 패턴이 왜곡된 정도를 소프트웨어를 통해 분석해 3D 이미지를 획득하는 방식. 실외와 같이 외부의 빛이 강한 조건에서는 정확한 동작이 어렵고, 소프트웨어의 부담이 비교적 높다는 단점이 있음.

I-ToF 방식은 특정 주파수로 변조된 레이저를 이용해 물체로부터 반사돼 되돌아온 신호와의 위상 차이를 측정함으로써 물체까지의 거리를 측정하는 방식이다. 기존 포토다이오드(Photodiode, PD) 소자를 이용해 비교적 수월하게 구현할 수 있다는 장점이 있으나, 광검출 소자의 낮은 효율로 인해 수 미터 이상 떨어진 물체와의 거리를 측정하기가 매우 어렵다는 한계점이 있다.

D-ToF 방식은 펄스 레이저를 사물에 조사해 반사된 펄스 신호들이 이미지센서에 도착하는 시간을 측정함으로써 물체까지의 거리를 탐지하는 방식이다. 수십 혹은 수백 미터 이상 떨어진 물체와의 거리도 측정할 수 있다는 매우 큰 장점을 가지고 있으나, 이를 위해서는 초고효율 특성을 제공하는 소자인 단광자눈사태다이오드(Single-Photon Avalanche Diode, SPAD)가 필수적으로 요구된다.

차세대 3D 이미지 센서 핵심 기술은 ‘D-ToF’

초창기 애플 아이폰 X의 전면부 카메라에 사용된 3D 이미지센서에는 구조 광 방식이 활용됐으나, 이후 I-ToF 방식의 초소형 이미지센서가 개발돼 다양한 스마트폰에 적용되고 있다. 특히 이미지센서 시장의 강자 소니가 2015년 소프트키네틱 시스템즈(Softkinetic Systems S.A.) 인수를 통해 관련 기술력을 조기 확보한 뒤, I-ToF 방식 3D 이미지센서(이하 I-ToF 센서) 시장에서 높은 점유율을 확보한 점은 분명 눈여겨보아야 할 부분이다.

하지만 앞으로는 D-ToF 방식 3D 이미지센서(이하 D-ToF 센서)의 중요성이 더 커질 전망이다. 스마트폰에 탑재되는 3D 이미지센서의 수가 크게 증가할 것으로 예상되는 가운데, 전면부보다는 다양한 응용이 가능한 후면부에 더 많은 3D 이미지센서가 탑재될 것으로 전망되기 때문. 후면부에 탑재되는 3D 이미지센서의 경우 5~10미터 이상의 비교적 긴 거리를 측정할 수 있어야 해, 이를 위해 최근 SPAD 기반의 D-ToF 기술이 경쟁적으로 연구개발되고 있다.

실제로 Markets and Markets는 2020년 ToF 센서 시장에 대해 발표한 조사자료⁶⁾에서 I-ToF 센서가 2025년까지 약 11%의 연평균 성장률을 기록하는 동안 D-ToF 센서는 그 3배가 넘는 약 37.3%의 연평균 성장률을 달성할 것으로 전망했다.

6) ‘Time-of-Flight (ToF) Sensor Market – Global Forecast to 2025’ by Markets and Markets(2020)

지난해 애플은 스마트폰 업체 중 가장 먼저 아이패드 프로와 아이폰 12 프로 후면부에 D-ToF 센서를 탑재했다. 애플은 이를 개발하기 위해 소니의 SPAD 소자·공정 기술을 사용했고, 기존 I-ToF 센서와의 차별점을 강조하기 위해 이를 D-ToF가 아닌 ‘LiDAR(Light Detection and Ranging) Scanner’라고 명명했다.

애플의 LiDAR Scanner는 5미터의 측정 거리를 제공하며 I-ToF 센서보다 우수한 성능을 자랑한다. 애플은 이 같은 강점을 활용, 아이폰 12 출시 당시 3D 이미지를 활용한 다양한 증강현실(Augmented Reality, AR) 기반 앱과 기능을 전면에 내세웠다.

지난해 Yole Developpement는 애플이 LiDAR Scanner 기반 스마트폰을 출시함에 따라 2021년 3D 이미지센서 시장은 크게 확장될 것으로 예측했다. 이와 함께 Yole Developpement는 2024년부터는 자율주행자동차용 LiDAR 센서가 3D 이미지센서 시장 성장의 주 원동력이 될 것이라고 전망했다.⁷⁾

7) ‘CMOS Camera Module Industry for Consumer & Automotive 2020’ by Yole Developpement(2020)

실제로 자율주행자동차용 LiDAR 센서는 우수한 분해능(Resolution)⁸⁾특성과 함께 정밀한 3D 이미지를 제공해 자율주행 기술의 핵심 요소로 각광받고 있다. 다만, 현재까지 개발된 차량용 LiDAR 센서는 대부분 모터를 사용한 기계식 스캔(Mechanical Scanning) 방식으로 크기가 매우 크고 가격이 비싸 양산 및 상용화에는 부적합하다는 평가를 받고 있다. 이에 △중장거리 측정이 가능하고 △센서 크기를 소형화할 수 있을 뿐만 아니라 △가격적인 측면에서도 이점이 있는 D-ToF 기반 LiDAR 센서 개발에 대한 시장의 요구가 커지고 있다.

8) 분해능(Resolution): 서로 떨어져 있는 두 물체를 구별할 수 있는 능력

나아가 로봇, 드론 등 차세대 자율형 이동체 응용 분야에서도 D-ToF 센서의 역할이 확대될 것이라는 사실도 어렵지 않게 예상할 수 있다. 아마존(Amazon)이 추진 중인 창고용 물류 로봇 상용화, 드론 배달 서비스 등이 대표적인 사례다. 또한 D-ToF 센서는 공장 자동화(Automation) 분야에서도 필수 기술로써 평가되고 있다.

‘D-ToF 센서의 필수 요소’ SPAD 기술의 현주소는?

단광자눈사태다이오드(Single-Photon Avalanche Diode, SPAD)는 소자의 매우 높은 이득(Gain) 특성으로 단광자(Single Photon)⁹⁾를 검출할 정도로 효율이 극도로 높은 차세대 반도체 광 소자다.

SPAD에서는 소자의 항복 전압(Breakdown Voltage)¹⁰⁾보다 높은 전압을 걸어주었을 때 매우 큰 전기장(Electric Field)에 따라 자유전자(Carrier)가 가속돼 원자와 강한 충돌을 일으키고, 이에 따라 원자에 구속돼 있는 전자가 방출돼 자유전자의 수가 급속도로 증가하는 ‘충격 이온화(Impact Ionization)’ 현상이 일어난다. 이것을 눈사태 증폭(Avalanche Multiplication)이라 하며, 이 효과로 인해 외부에서 이미지 센서로 조사된 광자(Photon)로 인해 생성되는 자유전자의 수가 매우 크게 증가한다. 즉, 주변 환경이 매우 어둡거나 아주 멀리서 빛이 조사돼, 이미지 센서에 아주 미세한 수준의 광자만 들어왔다고 하더라도 이 광자를 증폭해 아주 많은 광자가 들어온 것처럼 인식할 수 있다는 의미다.

또한, SPAD 소자는 광자가 소자로 들어왔을 때 출력으로 디지털 펄스(Digital Pulse)를 내보내는 특성이 있기 때문에, 이를 이용한 비행시간 측정이 용이하다. 이뿐만 아니라, 아주 미세한 시간차를 잡아낼 수 있는 특성도 갖고 있어 ㎜~㎝ 범위에서도 ‘심도 분해능(Depth Resolution)’¹¹⁾을 얻을 수가 있다.

9) 단광자(Single Photon): 고전적 전자파에 대비되는 양자화된 전자파인 빛의 단일 입자를 의미함.
10) 항복 전압(Breakdown Voltage): PN 접합에 가하는 역방향 전압의 크기가 어느 한계를 넘으면 전자 사태(Avalanche)를 일으켜 큰 전류가 흐르게 되는데, 이때의 전압을 항복 전압이라고 함.
11) 심도 분해능(Depth Resolution): 아주 밀접한 차이로 서로 떨어져 있는 두 물체를 구별할 수 있는 능력.

SPAD 기반 D-ToF 센서의 경우 스위스의 로잔연방공과대학교(EPFL), 영국의 에든버러대학교(University of Edinburgh) 등에서 선도적으로 연구개발을 하며 성공적으로 그 성능을 검증해왔다. 또한 이러한 기술을 ST마이크로일렉트로닉스(STMicroelectronics)에서 발 빠르게 채택해 근접 센서(Proximity Sensor)를 출시하고, 다양한 스마트폰에 그 제품을 탑재해왔다.

이미지센서에서 성능 향상을 위해 후면조사(Backside Illumination, BSI) 방식으로 연구개발이 진행돼 왔듯이, SPAD 기반 D-ToF 센서 분야에서도 선도 그룹들을 위주로 3D-stacked BSI SPAD array 연구가 진행돼 왔다.¹²⁾ 또한 앞서 언급한 바와 같이 최근 애플과 소니가 협업해 더 우수한 성능의 3D-stacked BSI SPAD 기반 D-ToF 센서를 성공적으로 개발하고, 애플의 스마트폰 후면 카메라에 탑재하고 있다.

국내에서도 현재 한국과학기술연구원(KIST)의 차세대반도체연구소 연구진이 D-ToF 센서의 필수 요소인 SPAD 기술을 선도적으로 연구해오며 관련 원천 기술을 확보하고 있으며, 차세대 3D-stacked BSI D-ToF 센서에 대한 연구개발도 적극적으로 수행하고 있다.

소니는 관련 원천기술을 확보하고 있던 소프트키네틱 시스템즈를 인수했기에 I-ToF 센서 시장을 조기에 장악할 수 있었다. 이와 마찬가지로 SK하이닉스와 같이 우수한 기술력과 인프라를 갖추고 있는 국내 이미지센서 및 반도체 기업들이 핵심 원천기술을 확보하고 있는 국내 연구진들과 적극적으로 공동 연구개발을 진행한다면, 추후 D-ToF 센서 및 LiDAR 센서 시장을 선도하며 전세계적으로 매우 큰 시장을 확보할 수 있을 것으로 기대된다.

12) 관련 레퍼런스
https://doi.org/10.1109/IEDM.2016.7838372
https://doi.org/10.1109/IEDM.2017.8268405
https://doi.org/10.1109/ISSCC.2018.8310201
https://doi.org/10.1109/ISSCC.2019.8662355
https://doi.org/10.1109/JSSC.2019.2938412
https://doi.org/10.1109/IEDM13553.2020.9371944
https://doi.org/10.1109/ISSCC42613.2021.9365961
https://doi.org/10.1109/ISSCC42613.2021.9366010

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

인텔 뉴 메모리 ‘옵태인’ 과거와 현재 그리고 미래

한주엽 기자 — Wed, 06 Nov 2019 15:00:00 +0000

2015년 7월 28일. 인텔과 마이크론이 미국 현지에서 공동 기자회견을 열었다. 양사는 이 자리에서 “혁신 비휘발성 메모리 기술을 함께 개발했다”고 밝혔다. P램 일종인 3D 크로스포인트가 주인공이었다. P램은 물질 상이 변화할 때 1비트를 얻는 방식으로 작동한다. 물론 인텔이 P램이라고 직접 밝힌 것은 아니었다. 인텔은 해당 메모리의 기술 핵심을 철저히 비밀에 부쳤다.

인텔과 마이크론은 3D 크로스포인트 메모리 기술 장점을 3가지로 요약했다. 첫째 낸드플래시 보다 1000배 빠르고(데이터에 접근하는 시간), 둘째 D램보단 10배 저장 공간이 넓고, 셋째 낸드플래시 대비 수명이 1000배나 길다.

인텔 뉴 메모리 옵태인의 등장

이 발표 이후 인텔은 미국에서 매년 열리는 플래시메모리 기술 심포지엄인 플래시메모리서밋에서 핵심을 제외한 기술 면면을 상세하게 소개했다. 캐나다 칩 설계 특허 분석 전문업체 테크인사이트 최정동 박사는 “그 자리에서 인텔 발표를 들었던 모든 청중이 ‘뉴 메모리’ 시대가 드디어 온다면서 환호했다”고 회고했다.

인텔은 메모리 치킨게임에 버티지 못하고 1985년 D램 시장에서 철수한 이력이 있다. 그러나 3D 크로스포인트를 개발한 이후 메모리 분야에서 자신감을 회복한 모습이었다. 회사는 얼마 안 있어 “중국 다롄 소재 시스템반도체 공장을 메모리 생산라인으로 전환한다”고 발표했다. 인텔은 메모리 사업 포기 이후 마이크론과 합작사를 만들어 낸드플래시 칩을 공급받기도 했었다. 그러나 본격적으로 생산에 참여하진 않았다. 이 소식이 전해지자 국내 언론에선 “인텔이 30년 만에 메모리 시장 재진출을 선언했다”고 대서특필했다.

▲3D 크로스포인트의 내부 구조도 / 3D 크로스포인트 메모리 칩 다이(Die) (출처 : 인텔 뉴스룸)

국내 메모리 업계는 인텔의 속내를 파악하고자 동분서주했다. 인텔은 PC와 서버 중앙처리장치(CPU) 시장을 독점하고 있는 기업이다. 마음만 먹으면 CPU 시장 독점 경쟁력을 무기삼아 메모리 업계 판도를 뒤집을 수도 있다는 우려가 나왔다.

인텔과 마이크론은 아직도 3D 크로스포인트 메모리 내부 구조에 대해 명확한 발표를 하지 않고 있다. 2017년 테크인사이트는 시중에 상용화 된 옵태인 메모리를 입수해 원자 수준의 분석을 마치고 내부 구조를 외부에 공표했다. 모든 메모리 전문가가 추정했던 대로 3D 크로스포인트는 물질 상이 변화할 때 1비트를 얻는 P램의 일종이었다. 자료에 따르면 3D 크로스포인트는 워드라인과 비트라인이 교차하는 영역에 메모리 최소 단위인 셀이 위치한다. 현재 3D 크로스포인트는 2층 구조로 돼 있다. 64기가비트(Gb) 크로스포인트 셀 어레이를 2층 구조로 만들어 128Gb 용량을 갖는다. 기억 소자는 게르마늄(Ge), 안티몬(Sb), 텔루륨(Te)을 혼합해서 만들었다. 이른바 ‘GST’로 불린다. 스위칭 소자는 오보닉 스위치(OTS:Ovonic Threshold Switch)라는 기술을 적용했다. 오보닉 스위칭 소자 재료는 셀레늄(Se)과 비소(As), 게르마늄(Ge), 실리콘(Si)을 함께 썼다. 3D 크로스포인트에 적용된 오보닉 스위치는 가만히 두면 저항이 높은 비정질 상태지만 전압을 올리면 저항이 낮아지고 합금 상태로 바뀌는 성질을 갖고 있다.

인텔은 과거부터 이러한 P램 연구개발(R&D)을 계속해왔다. 유럽 ST마이크로와 합작으로 뉴모닉스를 세웠던 이유도 바로 이 때문이다. 뉴모닉스는 2010년 마이크론으로 인수됐다. 인텔이 마이크론과 3D 크로스포인트를 공동 개발한 이유는 바로 이러한 배경이 있기 때문이다.

인텔 옵태인 메모리의 현재

4년이 지난 지금 냉정하게 평가하면 3D 크로스포인트는 등장만 화려했다. 양산 과정과 실제 사업 부문에서 인텔은 고전했다. 일단 양산 수율이 낮았다. 수요를 만들어내지 못해 판매도 제대로 이뤄지지 않았다. 하드디스크드라이브(HDD)를 보조해 빠르게 부팅하는 용도로 3D 크로스포인트 메모리를 탑재한 ‘옵태인’을 내놓았으나 채택률이 신통치 않았다. 한 동안 인텔의 비 메모리 사업은 적자였다.

지난 4월 인텔은 3D 크로스포인트를 채택한 두 가지의 신제품을 발표한다. 그 중 하나가 트리플레벨셀(TLC) 3D 낸드플래시와 3D 크로스포인트를 혼합해서 장착한 하이브리드 솔리드스테이트드라이브(SSD)인 옵태인 메모리 H10이 주인공이다. 인텔은 일반 SSD보다 가격대비 성능이 우수하다고 강조했다.

▲비휘발성 특성을 가진 인텔 옵태인 DC 퍼시스턴트 메모리 모듈 (출처 : 인텔 뉴스룸)

또 하나는 3D 크로스포인트 메모리를 탑재한 메모리 모듈 제품인 옵태인 DC 퍼시스턴트(Persistent)다. 이 제품은 D램 인터페이스인 DDR4 데이터 신호를 활용할 수 있게끔 설계했다. 기존 서버용 D램 모듈과 동일한 형태로 서버 메인보드에 꽂아서 쓸 수 있다. 인텔이 최근 출시한 서버용 2세대 제온 스케일러블프로세서(SP)은 옵태인 DC 퍼시스턴트 메모리를 정식 지원한다. 2세대 제온 SP에는 옵태인 DC 퍼시스턴트 메모리를 마치 D램처럼 사용할 수 있도록 돕는 컨트롤러가 내장됐다.

옵태인 DC는 일반 D램보단 느리지만, 기존 플래시메모리 대비 데이터 접근 속도가 빠르고, D램보다 값이 저렴하다고 인텔은 강조했다. 전원을 꺼도 데이터가 사라지지 않는 비휘발성 특성을 갖춰 일부 환경에선 서버를 재부팅하는 속도가 비약적으로 빨라진다고 설명했다.

옵태인 DC 퍼시스턴트는 메모리, 앱 다이렉트 모두 두 가지로 동작한다. 메모리 모드에서 옵태인 DC 퍼시스턴트는 단순하게 대용량 D램으로 취급된다. 앱 다이렉트 모드에선 말 그대로 응용 프로그램을 실행할 수 있게 된다.

최근 오라클은 차세대 데이터베이스(DB) 서버 플랫폼 엑사데이터 X8M에 옵태인 DC 퍼시스턴트 메모리를 탑재한다고 밝혔다. 이에 앞서 지난 8월에는 중국 최대 검색기업인 바이두가 자사 서버에 옵태인 DC 퍼시스턴트 메모리를 도입할 계획이라고 밝혔다. 인텔은 국내 대형 서버 사용자와도 도입 논의를 하고 있는 것으로 전해졌다.

다만 이 같은 여러 움직임을 ‘성공’이라고 말하기는 힘들다. 전문가들은 기존 D램과 낸드플래시를 당장 대체할 수는 없다고 선을 긋고 있다. 인텔도 이를 잘 알기 때문에 틈새 시장부터 비집고 들어오는 것이라고 설명했다.

인텔과 함께 3D 크로스포인트를 개발한 마이크론은 콴텍스(QuantX)라는 브랜드명을 공개하긴 했지만 아직 상용 제품을 내놓지 못했다. 따라서 3D 크로스포인트 메모리 관련 매출은 현재로선 없는 것으로 파악된다.

인텔과 마이크론 결별, 3D 크로스포인트의 미래는

인텔은 최근 3D 크로스포인트라는 기술 명칭 대신 ‘옵태인 미디어’라는 이름을 쓰고 있다. 작년 7월 마이크론과 공동 개발 계약을 공식적으로 종료했기 때문이다. 작년 10월에는 인텔과 마이크론과 합작한 IM플래시테크놀러지스(IMFT)의 연결 고리도 끊어졌다. 인텔이 보유하고 있던 지분을 모두 마이크론에 넘겼다. 양사의 계약 종료는 2세대 3D 크로스포인트 개발까지 완료하고 난 이후에 이뤄졌다.

인텔은 뉴멕시코 리오란초 소재 팹11X에서 성능이 대대적으로 개선된 2세대 3D 크로스포인트(옵태인 미디어) 칩 R&D와 파일럿 생산을 병행할 것이라고 밝혔다. 2세대 제품은 내년에 출시된다. 2단 크로스포인트가 4단으로 늘어난다. 3세대, 4세대 제품 역시 이 곳에서 개발과 양산이 이뤄질 전망이다.

최정동 테크인사이트 박사는 “3D 낸드플래시는 32단, 64단, 96단 이런 식으로 빠르게 저장 밀도를 높여나가고 있는 반면에 3D 크로스포인트는 셀 어레이를 높게 쌓았을 시 인터커넥션 자리를 만드는 것이 쉽지 않다”면서 “메모리는 결국 밀도를 높이는 경쟁인데 설계 플랫폼을 융통성있게 보다 바꿀 필요성이 있어 보인다”고 말했다.

2세대 제품이 조금 더 빨리 나왔어야 했다는 의미다. 4년이 넘게 지난 시점에서 새로운 세대의 제품이 나오는 것은 시장 전망을 부정적으로 보게 만드는 요소다.

다만 CPU 시장에서 독점적 지위를 갖고 있는 인텔이 메모리 시장에 치고 들어오는 것은 국내 기업에 부정적인 요소인 것 만큼 틀림이 없다. 아울러 마이크론이 빠른 시기에 콴텍스 브랜드의 메모리 제품을 내놓으면서 시장을 확대할 가능성도 존재한다. 국내 업계도 기존 D램과 낸드플래시 기술 경쟁력 확보와 더불어 뉴 메모리에 대한 R&D에 공을 들여야 할 것으로 보인다.

※ 본 기사는 기고자의 주관적 견해로, SK하이닉스의 공식입장과는 다를 수 있습니다.