AI 반도체 – SK hynix Newsroom

[All Around AI 4편] 딥러닝의 이해

한국인공지능학회 KAIST 윤철희 교수 — Tue, 27 Aug 2024 15:00:00 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서 머신러닝(Machine Learning, 기계 학습)이 기존의 규칙 기반 인공지능에 비해 가지는 강점과 차이점을 알아보았습니다. 이번에는 딥러닝(Deep Learning, 심층 학습)의 개념과 대표적인 신경망 구조 등에 대해 살펴봅니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

딥러닝의 개념

▲ 머신 러닝과 딥러닝의 차이

딥러닝은 머신 러닝의 한 분야지만, 전통적인 머신 러닝 기법들과는 접근법에서 큰 차이를 보인다. 전통적인 머신 러닝은 도메인 지식*을 활용해 데이터의 특징(Feature)을 추출하고 이를 디자인한다. 이 과정은 사람의 시행착오와 노력이 필요했다. 다만, 훈련 과정은 비교적 쉬운 작업으로 디자인한 특징들에 적용할 가중치(Weight)만 학습하면 훈련이 완료되었다.

* 도메인 지식(Domain Knowledge): 특정 분야나 문제에 대한 전문적인 지식과 이해를 의미한다. 머신 러닝에서 도메인 지식은 해당 데이터의 특징(Feature)을 이해하고, 설계하는 과정에서 중요한 역할을 한다.

이와 달리 딥러닝은 심층 신경망(Deep Neural Network, DNN)을 사용해 복잡한 데이터 특성을 스스로 학습하고 추출한다. 여러 층(Layer)으로 이루어진 심층 신경망은 이전 층의 출력을 입력으로 받아 특정한 변환을 수행한 후 이를 그 다음 층으로 전달한다. 이 변환 과정은 뉴런* 간의 연결선에 할당되는 학습 가능한 파라미터*들과 활성화 함수*로 이뤄지며, 이 파라미터 값을 적절히 설정하는 것이 학습의 핵심이다.

* 뉴런(Neuron): 입력 신호를 받아 처리하고 출력을 생성하는 기본 단위. 노드(node)라고도 한다.
* 학습 가능한 파라미터(Learnable Parameter): 뉴런 간의 연결 강도를 나타내는 값으로, 주로 가중치(weight)와 편향(Bias)이 포함된다. 이 파라미터들은 학습 과정에서 최적화 알고리즘에 의해 조정되어 모델이 주어진 데이터에 대해 최적의 예측을 할 수 있도록 한다.
* 활성화 함수(Activation Function): 입력 신호의 총합을 비선형적으로 변환하여 뉴런의 최종 출력을 결정하는 함수

물론, 딥러닝에도 단점은 있다. 첫째, 많은 파라미터와 데이터가 필요해 상당한 연산량과 시간이 소요된다. 둘째, 심층 신경망을 잘 훈련시키기 위해 필요한 하이퍼파라미터(Hyperparameter)*를 찾기 위해서는 여전히 많은 시행착오가 필요하다. 마지막으로 딥러닝 모델은 그 작동 방식이 복잡해 어떤 요소가 예측에 중요한 역할을 하는지 파악하기 어렵다. 이는 딥러닝에 대한 신뢰성 문제로 이어져 실생활에 AI 모델을 적용하는 데 여러 법적, 제도적 걸림돌을 초래하고 있다.

* 하이퍼파라미터(Hyperparameter): 학습 가능한 파라미터와는 달리 학습 과정에서 자동으로 조정되지 않고 사전에 정의되는 값

그럼에도 딥러닝은 스스로 특징을 추출하는 성능 때문에 기존의 머신 러닝 방법론에 비해 월등히 우수한 성능을 보이며, 오늘날 인공지능 방법론의 대표 주자로 자리매김했다.

심층 신경망의 구조

딥러닝에서 사용되는 심층 신경망은 크게 세 가지 주요 층으로 구성되며, 각 층의 역할과 기능은 다음과 같다.

입력층(Input Layer)
입력층은 신경망에 데이터를 제공하는 첫 번째 층이다. 이 층은 외부로부터 데이터를 받아 신경망의 내부로 전달하는 역할을 한다. 예를 들어 이미지 처리에서는 각 픽셀의 값이 입력층으로 들어가며, 자연어 처리에서는 단어 또는 문자의 숫자화된 형태가 입력층으로 입력된다.

은닉층 (Hidden Layer)
은닉층은 데이터의 패턴이나 특징을 학습하는 층이다. 각 은닉층은 이전 층으로부터의 입력값을 받아 처리하고 다음 층으로 결과를 전달한다. 이 과정에서 각 입력값에 특정 가중치를 곱하여 중요한 특징을 더 잘 인식할 수 있게 한다. 은닉층의 수는 문제의 복잡성, 데이터의 양, 그리고 모델의 성능 요구 사항에 따라 다르게 설정된다.

출력층 (Output Layer)
출력층은 신경망의 마지막 층으로 결과나 예측을 나타낸다. 출력층에서는 가능한 답들의 확률을 계산해, 가장 높은 확률을 가진 답을 최종적으로 선택한다.
심층 신경망은 이 구조를 기본으로 다양한 모델을 개발하고 개선하며 발전해 왔다. 대표적으로 ▲모든 뉴런이 서로 연결된 기본 신경망 구조인 ‘완전 연결 신경망(Fully-Connected Network)’ ▲이미지 처리에 최적화된 ‘합성곱 신경망(Convolutional Neural Network)’ ▲문장 번역이나 음성 인식 같은 연속된 데이터 처리에 적합한 ‘순환 신경망(Recurrent Neural Network)’ ▲복잡한 이미지 분류 작업에 사용되는 ‘잔차 신경망(Residual Network)’ ▲자연어 처리 분야에서 처음 제안되어 챗GPT(ChatGPT)를 비롯한 거대 언어 모델(Large Language Model, LLM) 등 최신 AI 모델의 근간이 되는 ‘트랜스포머(Transformer)’ 등이 있다.

이와 같은 신경망 구조들은 각각의 특성에 맞춰 다양한 분야에서 활용되며, 딥러닝의 예측 성능을 높이는 데 기여하고 있다.

심층 신경망의 학습 과정

https://skhynix-prd-data.s3.ap-northeast-2.amazonaws.com/wp-content/uploads/2024/08/All_Around_AI_4%ED%8E%B8_%EB%94%A5%EB%9F%AC%EB%8B%9D%EC%9D%98_%EC%9D%B4%ED%95%B4_01_%EA%B8%B0%ED%83%80_%EC%98%81%EC%83%81_2024-%EC%88%98%EC%A0%95.mp4

심층 신경망의 학습 과정은 크게 순전파와 역전파 과정으로 구성된다. 순전파는 입력 데이터를 신경망에 정방향으로 통과시켜 예측값을 얻는 과정이다. 즉, 입력 데이터가 신경망에 주어지면, 각 층의 뉴런이 이를 처리하여 다음 층으로 전달하고, 이 과정을 반복하여 출력층에서 최종 예측값을 생성한다.

예를 들어, 손으로 쓴 숫자를 인식하는 신경망을 구성했다고 가정해 보자. 입력층에 숫자 이미지가 제공되면, 첫 번째 은닉층은 이미지의 간단한 특징들(예: 선의 방향, 모서리)을 추출하여, 이를 다음 층으로 전달한다. 마지막 은닉층은 훨씬 더 복잡한 특징들을 결합하여 숫자를 판별하는 데 필요한 정보를 형성한다. 이렇게 순전파를 통해 최종적으로 예측 결과를 얻게 되는 것이다.

이후 이 예측값과 실제값(라벨)을 비교하여 손실 함수로 예측의 정확도를 평가한다. 손실이 크다는 것은 예측이 실제값과 많이 다르다는 뜻이다. 손실이 계산되면 역전파 과정이 시작된다. 역전파는 손실값을 최소화하기 위해 신경망의 파라미터 값을 조정하는 과정이다. 이 과정은 순전파와는 반대로, 출력층에서 입력층 방향으로 진행된다.

출력층에서 손실 함수의 변화에 따른 기울기(Gradient)를 계산하고, 이 기울기와 각 뉴런의 활성화 함수 기울기를 바탕으로 각 파라미터가 손실 함수에 미치는 영향을 평가한다. 이렇게 파라미터에 대한 손실 함수의 기울기가 계산되면, 경사 하강법* 등의 최적화 알고리즘을 사용해 파라미터 값을 손실 함수가 작아지는 방향으로 업데이트한다. 신경망은 이 과정을 여러 번 반복해 점점 더 정확한 예측을 하는 모델로 발전하게 된다.

* 경사 하강법(Gradient Descent: 비용 함수를 최소화하기 위해 기울기를 따라 매개변수를 업데이트하는 최적화 알고리즘

한편, 일반적으로 신경망의 출력 층은 마지막 은닉층 뉴런들의 출력값에 가중치(Weight)를 곱한 후 이들을 더해 예측값을 출력한다. 때문에 맨 마지막 은닉층 뉴런의 출력값은 신경망이 데이터로부터 학습하고 추출해 낸 특징으로 간주할 수 있다.

딥러닝의 역사를 바꾼 대표 사례

최근 10여 년간 딥러닝은 수많은 성공 사례를 보여주면서 인공지능의 양적/질적 성장을 주도해 왔다. 대표 사례를 몇 가지 꼽자면 아래와 같다.

1)합성곱 신경망과 이미지넷(ImageNet)

이미지 인식 분야는 딥러닝이 크게 발전시킨 분야 중 하나로, 여기에는 합성곱 신경망의 역할이 컸다. 합성곱 신경망은 이미지의 지엽적인 부분에서 패턴을 추출하는 데 특화된 구조로, 여러 합성곱 층을 쌓아 이미지의 계층적 구조를 효과적으로 파악하고 특성을 추출하는 모델을 만들 수 있다.

이러한 딥러닝 방법론의 우수성을 널리 알린 대표적인 사례는 2012년의 이미지넷 대규모 시각 인식 챌린지(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)이다. 이 대회에서 토론토 대학의 제프리 힌튼(Geoffrey E. Hinton) 교수의 연구팀이 개발한 AlexNet이라는 딥러닝 모델은 기존의 전통적인 기계 학습 방법론들을 크게 능가하는 성능을 보이며 우승을 차지했다. 당시 AlexNet의 에러율은 15.3%로, 2등을 차지한 모델인 26.2%에 비교하면 매우 낮은 수치다. 이러한 성과는 컴퓨터 비전 분야에 큰 충격을 안겨주었고, 이후 딥러닝은 컴퓨터 비전의 다양한 분야에서 뛰어난 성능을 보여주고 있다.

2) 알파고, 바둑을 마스터하다

바둑은 경우의 수가 워낙 많아 AI가 정복하기 불가능한 게임이라 여겨왔다. 그러나 구글 딥마인드에서 개발한 알파고는 이런 믿음을 완전히 깨부수며 AI의 능력에 대한 대중의 관심을 불러일으켰다.

2016년, 알파고는 프로바둑기사 이세돌 선수와 대결을 펼쳤다. 실제 대국이 이뤄지기 전까지는 인공지능이 정상의 프로기사를 넘어서기에는 아직 부족하다는 예상이 지배적이었으나, 실제 이뤄진 대국에서는 4:1로 알파고가 이세돌 선수를 압도하며 세계를 놀라게 했다. 이처럼 놀라운 성능의 바둑 AI를 만들기 위한 딥마인드의 접근법은 딥러닝, 강화 학습 그리고 확률적 탐색 알고리즘을 접목시키는 것이었다. 인간의 기보를 통해 바둑판의 돌의 배열 상태와 수에 대한 ‘점수’를 심층 신경망으로 학습하고, 강화 학습을 사용해 스스로 대국을 반복하며 전략을 정교하게 다듬어 뛰어난 실력을 연마할 수 있었다.

3) 또 다른 딥마인드의 혁신, 알파폴드

▲ 알파폴드는 오랫동안 난제로 여겨져온 ‘단백질 접힘 문제’를 AI라는 새로운 접근법을 통해 효율적으로 풀어가고 있다.

알파고 이후 구글 딥마인드가 2018년에 처음 발표한 알파폴드(AlphaFold)는 단백질의 3차원 구조를 높은 정확도로 예측할 수 있는 딥러닝 모델이다. 단백질의 접힘 구조는 신약 개발 등 의학, 생명과학 연구에서 중요한 역할을 하지만, 구조를 파악하는 데는 비용과 시간이 많이 소모된다. 알파폴드는 이 문제를 아미노산의 배열에서 3차원 구조를 예측할 수 있는 신경망을 훈련시키는 방법으로 접근했고, 단백질 구조 예측(Critical Assessment of Protein Structure Prediction, CASP) 대회에서 기존에 방법을 능가하는 성능으로 1등을 차지했다. 이후 딥마인드는 현재까지도 꾸준히 알파폴드를 업데이트하며 신약 개발에 더욱 효과적으로 활용될 수 있도록 개선하고 있다.

4) 점점 다가오는 완전자율주행시대

▲ 웨이모 드라이버가 소개하는 완전 자율주행 기술

딥러닝은 꿈으로만 여겨져 왔던 완전 자율주행을 현실로 만드는 데 핵심적인 역할을 하고 있다. 신경망을 사용해 카메라, 라이다(LiDAR), 레이더, GPS 등 다양한 센서로부터의 입력을 처리하고, 강화 학습 알고리즘을 사용해 차량의 조작 방법을 결정하는 것이다. 알파벳이 소유한 웨이모는 이미 미국 일부 지역에서 운전기사 없이 완전히 자동으로 운영되는 택시를 운행하고 있다.

또 테슬라는 오토파일럿 시스템을 중심으로 한 첨단 운전자 보조 시스템(Advanced Driver Assistance System, ADAS)을 제공하며 궁극적으로 운전자 없는 완전 자율 주행을 목표로 하고 있다. 테슬라는 라이다와 레이더 센서에 대한 의존도를 최소화하고, 차량에 장착된 다수의 카메라로 주변을 인식해 판단한다. 테슬라는 방대한 실제 주행 데이터를 활용하여 지속적으로 모델을 개선하고 있다. 이러한 기술적 진보는 완전 자율주행 시대에 대한 기대감을 불러왔지만, 기술의 안정성에 대한 법적·제도적 승인 등 여전히 극복해야 할 장애물은 남아 있다.

5) GPT 시리즈의 등장

오픈AI(OpenAI)가 개발한 GPT(Generative Pre-trained Transformer) 시리즈는 트랜스포머 구조를 기반으로 한 대형 언어 모델(Large Language Model, LLM)의 일종이다. 이 대형 언어 모델이 하는 일은 생각 외로 간단한데, 주어진 맥락을 바탕으로 다음에 올 자연스러운 단어를 예측하는 것이다. 모델의 크기가 커지고 데이터가 많아질수록, 처리할 수 있는 맥락의 길이도 길어지고, 번역, 질의응답, 작문까지도 수행할 수 있다.

2022년, GPT-3.5를 기반으로 한 챗봇인 챗GPT가 발표되었고 곧 GPT-4로 업데이트 되었는데, 자연스러운 대화 기능과 작문 능력으로 사회 전반에 엄청난 충격을 주었다. 교육, 사무, 작문, 개발 등 실생활 전반에서 생산성을 비약적으로 향상시켜줄 수 있는 대형 언어 모델의 잠재성을 증명했기 때문에, 챗GPT의 성공은 인공지능 업계에 큰 변화를 불러일으켰다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

SK하이닉스, 카이스트서 ‘AiM’ 교육 실시…“AI 반도체 인재 육성에 더욱 힘쓸 것”

SK하이닉스 — Sun, 07 Jul 2024 15:00:00 +0000

SK하이닉스가 지난 6월 20일, 21일 양일간 대전광역시 카이스트(KAIST)에서 AI 및 반도체 관련 학과 학부생과 대학원생을 대상으로 ‘AiM(Accelerator-in-Memory) 이론 및 실습’ 교육을 진행했다.

회사는 카이스트를 비롯해 국내 주요 대학교의 학부 및 대학원 수강생들을 대상으로 거대언어모델(LLM)*과 SK하이닉스의 PIM* 반도체인 AiM*에 대한 이론 및 실습 교육을 제공했다. 특히 이번 교육은 PIM 제품을 활용한 실습이 포함돼 강의 전부터 많은 관심을 끌었다.

* 거대언어모델(LLM, Large Language Model): 대량의 텍스트 데이터로 학습하는 인공지능으로 챗GPT가 이에 해당
* PIM(Processing-In-Memory):메모리 반도체에 연산 기능을 더해 AI와 빅데이터 처리 분야에서 데이터 이동 정체 문제를 풀어낼 수 있는 차세대 기술
* AiM(Accelerator-in-Memory): SK하이닉스의 PIM 반도체 제품명, GDDR6-AiM이 이에 포함됨

▲ 교육 자료로 활용된 AiMX의 실물 모습

이번 강의 주제인 PIM은 메모리 반도체에서 일부 연산을 수행해 데이터 이동을 최소화함으로써 데이터 처리 속도가 향상될 뿐만 아니라, 전성비(전력 대비 성능비)도 높아지는 특징이 있다. 따라서 AI와 빅데이터 등 방대한 양의 데이터 연산이 필요한 분야에서 많은 관심을 받으며, 기존 컴퓨팅 생태계를 혁신할 차세대 반도체로 각광받고 있다.

이에 SK하이닉스와 카이스트 PIM반도체설계연구센터는 하드웨어(Hardware)와 소프트웨어(Software)를 아우르는 PIM 전문가 양성을 위해 이번 교육을 기획했으며, 이를 계기로 앞으로도 더욱 많은 교육 프로그램을 추진해 미래 반도체 인재 양성에 힘쓰겠다고 밝혔다.

뜨거운 열의가 가득했던 교육 현장

이날 현장에는 SK하이닉스 PIM HW팀 김정빈, 신경철 TL이 강사로 나섰다. 강의를 듣는 수강생들의 열기는 때아닌 6월의 폭염만큼이나 뜨거웠다.

교육 첫날에는 ▲인공지능(AI)과 거대언어모델이란?(What is AI and LLM?) ▲챗봇 서비스는 우리에게 어떻게 제공될까?(How to serve Chatbot in the real world?) ▲SK하이닉스의 GDDR6-AiM과 AiMX(SK hynix’s GDDR6-AiM and AiMX) 등을 주제로 이론 강의가 진행됐다.

▲ 이론 강의를 진행한 김정빈 TL(첫 번째 사진)과 수강생들의 모습

AI와 LLM에 대한 기본 지식부터 LLM을 활용한 챗봇 서비스 구동 원리, 그리고 AI의 성능 향상을 위해 SK하이닉스의 AiM이 어떻게 작용하는지 다뤄졌다. 수강생들은 강의 내용을 부지런히 정리하며 수업에 집중했다. 특히, 질의응답 시간에는 질문이 그치질 않고 이어졌는데, 작은 궁금증까지 모두 해결하고자 하는 수강생들의 의지를 엿볼 수 있었다.

김정빈 TL은 “지루할 수 있는 이론 수업에서 조금이라도 더 자세히 듣고자 하는 수강생들의 표정과 끊이지 않는 질문이 인상적이었다”고 말했다.

▲ 실습 강의를 진행한 신경철 TL(첫 번째 사진 오른쪽)과 수강생들의 모습

다음날에는 실습이 진행됐다. 수강생들은 SK하이닉스의 GDDR6-AiM이 여러 개 집적된 AiMX 가속기 카드를 살펴보고, PCIe* 폼팩터에 맞춰 AiMX*가 장착된 서버 환경 속에서 드라이버를 설치하는 등 하드웨어를 직접 구동해 봤다.

* PCIe(Peripheral Component Interconnect express): 디지털 기기의 메인보드에서 사용하는 직렬 구조의 고속 입출력 인터페이스
* AiMX(AiM based Accelerator): GDDR6-AiM 칩을 사용해 거대 언어 모델(Large Language Model, 대량의 텍스트 데이터로 학습하는 인공지능으로 챗GPT가 이에 해당)에 특화된 SK하이닉스의 가속기 카드 제품

이후, SK하이닉스에서 개발한 AiMX SDK(Software Development Kit)를 활용해 소프트웨어 실습을 이어갔다. 해당 실습을 통해 수강생들은 AiM을 활용해 AI 응용 서비스의 주된 워크로드(Workload)인 GEMV 연산*을 가속하는 과정을 체험해 볼 수 있었다. 이를 통해 AiMX 유무에 따른 LLM 추론 과정의 속도 차이를 직접 확인하며 하드웨어와 소프트웨어 측면에서 실습이 진행됐다.

* GEMV 연산: 행렬과 벡터를 곱하는 함수로 LLM을 이루는 중요한 기본 연산

▲ 서버용 PCIe 폼팩터에 AiMX를 장착하고 있는 모습(첫 번째 사진)과 폼팩터에 장착된 AiMX를 살펴보고 있는 엄소연 수강생(두 번째 사진)

카이스트 전기/전자공학부 박사과정의 엄소연 수강생은 “논문으로는 하드웨어 구성이나 성능 이외의 정보를 얻는 데 한계가 있는데, 이번 실습을 통해 직접 AMiX 제품을 보며, 하드웨어를 작동하기 위해 무엇이 필요하고, 어떻게 사용해야 하는지 경험해 볼 수 있어서 유익한 시간이었다”며 소감을 전했다.

PIM 전문가 양성의 초석이 될 ‘AiM(Accelerator-in-Memory) 이론 및 실습’ 교육은 큰 호응을 얻으며 성공적으로 마무리됐다. 수강생들은 쉬는 시간까지 강사들을 찾아와 개인적인 궁금증을 해결하고자 했고, 하루 종일 진행된 실습 강의가 짧게만 느껴질 정도였다며 아쉬움을 털어놓기도 했다.

▲ 본격적인 교육 전 당부의 말을 전하고 있는 이윤종 PIM반도체설계연구센터 부센터장

카이스트 PIM반도체설계연구센터 이윤종 부센터장은 “학교에서 배우는 것과 산업 현장에서 필요한 것은 차이가 있지만, 글로벌 AI 산업을 이끌어가는 SK하이닉스의 강의를 통해 이러한 간극을 줄일 수 있었던 것 같다”며 “수강생들의 열의가 뜨거웠던 만큼 앞으로도 SK하이닉스와 더 많은 교류를 통해 이와 같은 교육이 이뤄지길 기대한다”고 전했다.

강의를 마친 김정빈 TL은 “PIM 개발을 위해서는 AiM 반도체 단계부터 시작해 하드웨어, 소프트웨어까지 전반에 걸쳐 높은 이해도를 갖춘 전문가가 필요하다”며 “이번 강의를 들은 수강생들 중, AiM 개발을 함께할 수 있는 PIM 전문가가 탄생하기를 진심으로 바란다”고 말했다.

끝으로 신경철 TL은 “PIM이라는 주제가 생소하고 어려운 개념일 수 있는데, 관심을 갖고 열정적으로 수강해 준 수강생분들께 감사의 마음을 전한다”며 “향후 개발될 온디바이스 AI*용 AiM 제품들에 대해서도 강의할 기회가 있기를 바란다”고 전했다

* 온디바이스(On-Device) AI: 물리적으로 떨어진 서버의 연산을 거치지 않고 기기 자체에서 AI 기능을 구현하는 기술. 스마트 기기가 자체적으로 정보를 수집, 연산하기 때문에 AI 기능의 반응 속도가 빨라지고 사용자 맞춤형 AI 서비스 기능도 강화되는 장점이 있음

[All Around AI 3편] 머신러닝의 이해

한국인공지능학회 KAIST 윤철희 교수 — Mon, 24 Jun 2024 15:00:00 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서 인공지능의 발전 역사와 동작 원리를 알아보았습니다. 이번에는 인공지능의 가장 큰 줄기를 이루고 있는 머신 러닝(Machine Learning, 기계 학습)에 대해 조금 더 자세히 살펴봅니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

머신 러닝의 개념

[All Around AI 1편]에서 언급했듯 머신 러닝은 데이터의 패턴을 스스로 학습해 예측을 수행하는 알고리즘이다. 이 기술은 데이터의 폭발적인 증가와 함께 대표적인 인공지능 방법론으로 자리매김했다. 기존의 전통적인 인공지능은 인간이 규칙과 논리를 명확히 프로그래밍해야 했다. 이는 간단한 보드게임 같이 명확한 규칙이 있는 문제에는 효과적이었지만, 복잡한 데이터나 규칙을 다루는 경우 한계를 보였다. 예를 들어, 사진에서 고양이를 구별할 수 있는 인공지능을 만든다고 생각해 보자. 사진 속 수많은 픽셀에서 RGB 값이나 고양이의 패턴을 어떻게 처리할지, 어떤 방식으로 규칙을 설정할지 고민해 보면 이를 프로그래밍하는 일이 얼마나 어려운지를 실감하게 된다.

머신 러닝은 데이터 안에 숨겨진 복잡한 구조나 패턴을 발견하고, 이를 스스로 학습해 새로운 데이터의 예측을 수행하는 방식이다. 예를 들어 고양이의 유무를 판단하는 인공지능을 머신 러닝으로 만드는 경우, 다양한 사진(데이터)을 모아 알고리즘으로 학습시켜서, 고양이를 판단하는 방법을 스스로 파악하게 한다.

머신 러닝을 구현하는 과정은 크게 데이터 수집, 학습 모델 선택, 목적 함수 정의, 파라미터 학습 단계로 나눌 수 있다. 데이터 수집 단계에서는 학습에 필요한 데이터를 모으고, 학습 모델 선택 단계에서는 수집한 데이터를 가장 잘 표현할 수 있는 학습 모델을 선택한다. 목적 함수 정의 단계에서는 모델의 성능을 측정하기 위한 기준을 설정한다. 주로 모델의 예측이 실제 데이터와 얼마나 잘 일치하는지를 나타내는 손실 함수*로 표현된다. 마지막으로 파라미터 학습 단계에서는 파라미터를 조정하며 손실 함수를 최소화하는 방향으로 학습을 진행한다. [All Around AI 2편]에서 자세히 보기

* 손실 함수(Loss Function): 모델의 예측이 실제 데이터와 얼마나 차이 나는지를 측정하는 지표. 모델 학습을 통해 최소화되어야 할 핵심 값으로, 예측 정확도를 향상시키는 데 중요한 역할을 한다.

머신 러닝 알고리즘의 종류와 특징

머신 러닝 알고리즘은 실세계에 내재한 확률 분포*에서 데이터를 추출하고, 이 데이터를 기반으로 모델을 훈련해 문제를 해결하는 것이 핵심이다. 학습하려는 문제의 유형에 따라 크게 세 가지로 나뉘며, 각각 고유한 특성과 응용 분야를 가지고 있다.

* 확률 분포(Probability Distribution): 데이터를 수학적으로 설명하는 모델로 이를 통해 데이터의 패턴과 구조를 파악한다.

https://skhynix-prd-data.s3.ap-northeast-2.amazonaws.com/wp-content/uploads/2024/06/AAA_ep03_part1_0620.mp4

1) 지도 학습(Supervised Learning)

지도 학습은 입력 데이터와 함께 ‘정답(라벨, label)’을 학습하는 방식이다. 모델은 이 데이터-라벨을 쌍으로 학습하여 새로운 데이터에 대한 정답을 예측한다. 예를 들어 사진 속 인물의 성별을 예측하는 인공지능 개발은 지도 학습의 예시로 볼 수 있다. 이때, 사진은 입력 데이터로 성별은 ‘정답’으로 제공된다. 이를 통해 모델은 남성과 여성을 구별하는 패턴을 학습하고, 추후 새로운 사진의 성별을 예측한다. 지도 학습은 라벨의 속성에 따라 다시 두 가지 유형으로 나뉜다.

• 분류(Classification): 라벨이 이산적(Discrete)으로 주어지는 경우다. 예를 들어 사진 속 강아지의 유무를 판단하는 문제, 손으로 쓴 글씨를 보고 알파벳을 구분하는 문제 등이 여기에 해당한다. 이 경우 데이터는 특정 카테고리에 속하며, 소속 카테고리가 라벨로 지정된다.

• 회귀(Regression): 라벨이 연속적인 숫자로 주어지는 경우다. 예를 들어 집의 평수와 위치 등을 바탕으로 집값을 예측하는 문제, 기상 데이터로부터 다음날의 기온을 예측하는 문제 등 정답이 될 숫자를 가능한 정확하게 예측해야 하는 상황에 해당한다.

2) 비지도 학습(Unsupervised Learning)

명칭에서 알 수 있듯이, 비지도 학습은 지도 학습과 달리 명시적인 ‘지도(Supervision)’, 즉 라벨이 없이 데이터만을 학습한다. 이 방법은 데이터가 나타내는 확률 분포의 특성을 파악해 학습하는 것을 목표로 한다. 비지도 학습의 주요 방법은 다음과 같다.

• 군집화(Clustering): 비슷한 특성을 가진 데이터를 그룹으로 묶어 확률 분포에 숨은 패턴을 파악하는 데 목적이 있다. 실제 반도체 공정에서 불량으로 판정된 웨이퍼 사진을 모아 군집화 알고리즘을 적용한 결과, 불량 원인에 따라 몇 가지 유형으로 분류할 수 있었다.

• 차원 축소(Dimensionality Reduction): 고차원 데이터를 저차원으로 축소해 복잡한 데이터에서 중요한 정보만을 남기고 단순화하는 기술이다. 이는 데이터 분석과 시각화에 도움이 된다. 대표적으로 주성분 분석*이 있다.

* 주성분 분석(Principal Component Analysis): 고차원 데이터를 저차원으로 축소하는 통계적 기법. 데이터의 차원을 축소함으로써, 계산 효율성을 높이고, 불필요한 정보(노이즈 등)를 제거하여 데이터의 핵심 특성을 더욱 명확하게 이해할 수 있게 한다.

최근 주목 받는 생성형 AI 기술도 비지도 학습의 범주에 포함할 수 있다. 이는 데이터로부터 확률 분포를 학습하고, 이를 통해 새로운 데이터를 생성하는 것으로 볼 수 있기 때문이다. 예를 들어 챗GPT는 ‘자연어 확률 분포’를 학습하고, 이를 통해 주어진 텍스트의 다음 단어를 예측한다고 볼 수 있다. 그러나 생성형 AI를 훈련하기 위해 지도 학습 기법이 사용되기도 하므로 완전한 비지도 학습으로 볼 수 있는지는 이견의 여지가 있다.

3) 강화 학습(Reinforcement Learning)

모델이 주변 환경과 상호작용을 하며 최대한 많은 ‘보상’을 받도록 학습하는 것이 목표다. 특히 문제가 순차적 의사결정이 필요한 곳에서 효과적이다. 예컨대 로봇이 주어진 환경에서 장애물을 피하며 목적지까지 이동하는 최적의 경로를 찾는 경우와 같이 로보틱스 분야나 자율 주행, 게임 AI 등에 많이 활용된다. 최근에는 챗GPT 등의 대형 언어 모델을 인간의 선호와 일치시키기 위해 인간 피드백을 통한 강화 학습*도 많은 주목을 받고 있다.

* 인간 피드백을 통한 강화 학습(Reinforcement Learning With Human Feedback): 인간의 피드백을 기반으로 보상받으며 학습하는 방법. 모델이 생성한 결과에 대한 인간의 반응이나 평가를 통해 보상을 조정하고, 이를 통해 모델은 인간에게 맞춰진 반응을 할 수 있게 학습한다.

▲ 인공지능의 벽돌 깨기 게임 영상. 대표적인 강화 학습 사례로 인공지능에게 ‘벽돌을 많이 깨면 더 높은 점수를 올릴 수 있다’는 규칙을 주자 인공지능 스스로 벽돌을 더 많이 깰 수 있는 방법을 터득한다.

머신 러닝의 성능 평가

머신 러닝의 궁극적인 목표는 실제 환경에서 처음 보는 데이터에도 우수한 성능을 보이게 하는 것이다. 즉, 모델이 일반화(Generalization) 능력을 갖추는 것이 중요하다. 이를 위해서는 모델의 성능을 정확하게 평가하고 검증하는 것이 필수다. 그렇다면 모델의 성능은 어떻게 평가해야 할까?

1) 성능 지표 선택

머신 러닝의 성능을 평가하는 데는 문제의 유형에 따라 다양한 지표를 사용한다. 분류 문제의 경우 일반적으로 정확도(Accuracy), 정밀도(Precision), 재현율(Recall)을 성능 지표로 활용한다.

먼저, 정확도는 전체 예측 중 올바르게 예측한 비율을 나타낸다. 가령 의료 진단 테스트에서 100번의 테스트 중 95번을 정확하게 진단했다면 정확도는 95%이다. 그러나 이를 위해서는 균형 잡힌 데이터셋이 필요하다. 만약 100개의 샘플 중 95개가 음성이고 5개만 양성이라고 하자. 이 경우 모델이 모든 샘플을 음성으로 예측해도 정확도는 95%가 된다. 이는 높은 정확도처럼 보이지만, 실제로 모델은 양성 샘플을 전혀 예측하지 못했을 수 있다.

정밀도는 ‘모델이 양성으로 예측한 것’ 중 ‘실제로 양성인 것’의 비율을, 재현율은 ‘실제 양성’ 중 ‘모델이 양성으로 예측한’ 비율이다. 이들은 서로 트레이드 오프 관계, 즉 하나를 높이면 다른 하나는 낮아질 수 있어, 둘 사이의 균형과 목적을 고려해 모델을 최적화한다. 이를 테면, 의료 검사에서는 재현율을 높이는 것이, 이메일 스팸 필터에서는 정밀도를 더 중요하게 생각하는 식이다. 이 문제를 해결하기 위해 정밀도와 재현율의 조화를 평가하는 F1 스코어*를 사용하기도 한다.

* F1 스코어(F1-Score): 정밀도와 재현율의 조화평균으로 데이터 분류 클래스의 불균형이 심할 때 사용한다. 0과 1 사이의 값이며 1에 가까울수록 분류 성능이 좋고 할 수 있다.

회귀 문제의 경우는 평균 제곱 오차*, 제곱근 평균 제곱 오차*, 평균 절대 오차* 등을 사용해서 모델의 성능을 평가한다.

* 평균 제곱 오차(MSE): 예측값과 실제값의 차이를 제곱한 후 평균을 낸 값
* 제곱근 평균 제곱 오차(RMSE): MSE의 제곱근으로, 오차의 크기를 실제 값의 단위와 동일하게 표현
* 평균 절대 오차(MAE): 예측값과 실제값 차이의 절댓값을 평균한 값

2) 성능 평가 방법

머신 러닝 모델의 평가는 주로 데이터를 훈련 세트와 테스트 세트로 나누어 진행한다. 이 과정을 통해 모델이 새로운 데이터를 얼마나 잘 일반화할 수 있는지 확인할 수 있다.

• 훈련-테스트 분할법(Train-Test Split): 가장 간단한 방법의 하나는 수집된 데이터를 훈련 세트와 테스트 세트로 나누는 방법이다. 훈련 세트로 모델을 훈련한 후, 테스트 세트로 모델의 예측 성능을 평가해 일반화 성능을 가늠한다. 일반적으로 전체 데이터 중 약 70~80%를 훈련 세트에 활용한다.

• 교차 검증(Cross Validation): 교차 검증은 데이터를 K개의 세트로 나눠서, K개 중 한 세트를 제외한 나머지로 모델을 훈련한 뒤, 제외한 세트로 성능을 평가한다. 이 과정을 K번 반복해 평균 성능을 구한다. 교차 검증법은 전통적인 기계 학습에서 많이 사용하던 방법이지만, 시간이 많이 소요되어 심층 학습에서는 훈련-테스트 분할법을 더 선호한다.

3) 성능 평가 및 해석

위 평가 방법을 통해 얻어진 결과는 모델의 성능 향상을 위한 중요한 피드백을 제공하며, 문제가 있을 때는 주로 두 가지 현상이 나타난다.

https://skhynix-prd-data.s3.ap-northeast-2.amazonaws.com/wp-content/uploads/2024/06/AAA_ep03_part2_0620.mp4

• 과소적합(Underfitting): 모델이 너무 단순해서 데이터의 기본적인 패턴을 학습하지 못하는 경우로 훈련 및 테스트 세트 모두에서 성능이 미달일 경우 과소적합이 발생했다고 볼 수 있다. 가령 회귀 문제에서 실제 데이터가 2차 함수인데 예측 모델을 1차 함수로 설정했다면, 데이터의 패턴을 포착하기 위한 표현력(Expressivity)이 부족해서 과소적합으로 이어질 수 있다.

• 과대적합(Overfitting): 모델이 너무 복잡해서 기본적인 패턴뿐 아니라 노이즈 등 불필요한 부분까지 학습해 발생한다. 이에 따라 모델은 학습 데이터에 대해서는 높은 성능을 보이지만, 테스트 데이터나 새로운 데이터에서는 성능이 떨어지는 특성을 보인다. 이를 방지하고 모델의 일반화 성능을 더 정확하게 평가하기 위해 앞서 말한 교차 검증을 사용할 수 있다. 이렇게 다양한 데이터 분할에서 모델의 성능을 평가하면, 과대적합 여부를 더 정확하게 판단하고 모델 복잡도를 선택할 수 있다.

한편, 일반화 성능이 좋은 모델을 구축하기 위해서는 정규화* 등의 방법으로 과소/과대 적합 사이의 균형을 찾는 것이 중요하다고 알려져 왔다. 그러나, 최근 심층 학습에서는 과대적합이 일어난 이후에 모델의 크기를 더욱 더 키우면 과대적합이 더 심해지는 게 아니라 오히려 일반화 성능이 개선된다는 이중 하강 현상*이 발견되어 이에 대한 활발한 연구가 진행되고 있다.

* 정규화(Regularization): 모델의 과대적합을 방지하기 위해 모델의 복잡도를 제한하거나 페널티를 부과하는 학습 방법.
* 정이중 하강(Double Descent) 현상: 모델의 크기가 커질수록 성능이 먼저 저하되다가 일정 크기를 넘어서면 다시 개선되는 현상을 말한다. 이는 전통적인 통계학의 과대적합 개념에 도전하는 현상으로, 딥러닝 분야에서 새롭게 관찰되었다. 하지만 이론적으로는 아직 완전히 이해되지 않은 상태다.

[All Around AI 2편] AI 알고리즘의 기본 개념과 작동 원리

한국인공지능학회 학회장 서울대학교 김용대 — Sun, 28 Apr 2024 15:00:00 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 2화부터는 한국인공지능학회와 함께 더욱 깊이 있고 기술적인 인사이트를 제공하고자 합니다. 이번 회차에서는 AI 알고리즘이란 무엇인지, AI 알고리즘은 어떤 과정을 거쳐 작동하는지 기본 개념을 살펴봅니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

인공지능 알고리즘이란 무엇인가?

인공지능이란 특정 목적을 위해 설계된 컴퓨터 알고리즘*으로, 주어진 입력에 기반해 자동으로 과업을 처리한다. 이는 개발자가 직접 컴퓨터에 알고리즘을 입력하는 기존의 방법과 달리, 데이터를 기반으로 컴퓨터가 스스로 알고리즘을 학습한다는 점에서 큰 차이가 있다. 그래서 인공지능 알고리즘을 ‘알고리즘을 위한 알고리즘’이라고도 부른다.

* 알고리즘(Algorithm): 컴퓨터를 활용한 문제 해결 과정에서, 어떤 문제를 해결하기 위해 정의된 절차, 방법, 명령어 등의 집합

학습 알고리즘에서 ‘학습(Learning)’은 주어진 데이터를 분석해 특정 작업을 수행할 수 있는 규칙이나 패턴을 발견하는 과정을 뜻한다. 학습 알고리즘의 역할은 데이터로부터 주어진 과업을 수행할 알고리즘을 찾아내는 것이다. 예측 알고리즘에서 ‘예측(Prediction)’은 학습된 모형*을 사용하여 새로운 데이터에 대한 결과를 추론하는 과정을 말한다. 즉, 예측 알고리즘은 학습 알고리즘을 통해 학습되며, 특정 과업을 수행하는 역할을 한다. 이 두 알고리즘의 역할과 작동 원리를 이해하는 것은 인공지능의 기본 원리를 이해하는 데 매우 중요하다.

* 모형(Model): 학습된 규칙이나 패턴을 표현하는 수학적 또는 계산적인 구조

▲ 그림 1. 인공지능 시스템 구성도

주어진 숫자 데이터를 내림차순으로 정렬하는 알고리즘을 생각해보자. 기존 방식에서는 개발자가 수학적 지식을 바탕으로 정렬 알고리즘을 설계하고, 이를 컴퓨터 프로그램으로 구현한다. 이를 인공지능의 관점에서 ‘학습’이라 할 수 있다. 이후, 개발자가 만든 정렬 알고리즘에 숫자 데이터를 입력하면, 큰 숫자부터 작은 숫자 순으로 정렬된 새로운 데이터가 출력된다. 이것은 ‘예측’에 해당하며, 개발자가 구현한 것은 예측 알고리즘으로 이해할 수 있다.

위에서 살펴본 정렬 알고리즘 개발 프로세스에서, 컴퓨터가 ‘스스로’ 개발자 역할을 수행하도록 하는 것이 인공지능의 핵심이다. 그럼 컴퓨터는 어떻게 수학적 지식 없이 정렬 알고리즘을 만들 수 있을까? 여기에 필요한 것이 학습 데이터와 학습 알고리즘이다. 정렬되기 전과 후의 다양한 데이터를 컴퓨터에 입력하면, 인공지능 학습 알고리즘이 이 데이터들을 분석하고 스스로 정렬 알고리즘을 찾아낸다. [그림 2]는 기존의 정렬 알고리즘과 인공지능이 학습한 정렬 알고리즘을 비교해서 보여준다.

▲ 그림 2. 기존 알고리즘과 인공지능 알고리즘의 비교

인공지능의 놀라운 점은 알고리즘을 스스로 찾아낸다는 것이다. 예를 들어, 과거에는 언어 번역 알고리즘을 만들기 위해 컴퓨터 전문가와 언어학자들이 다양한 규칙을 개발하고 적용해 왔다. 하지만 인간의 논리로는 이해하기 어려운 언어의 복잡성 때문에 성능은 그리 좋지 않았다. 그러나 수십 만 개의 문서에서 스스로 문법을 찾아내는 인공지능 학습 알고리즘의 등장으로 자동 언어 번역의 성능은 인간과 유사한 수준까지 도달했다. 최근 화제를 모았던 챗GPT도 이렇게 학습된 언어이해 알고리즘이다.

인공지능 작동 과정의 이해

인공지능 프로세스는 주어진 학습 데이터에서 학습 알고리즘을 이용해 예측 알고리즘을 만드는 일련의 과정으로 이해할 수 있다([그림 1] 참조). 이를 다음과 같이 간략하게 정리할 수 있다.

1) 문제 정의

인공지능은 인간이 수행하기 힘든 특정 업무를 학습 데이터 기반으로 컴퓨터를 학습 시켜 자동화하는 것이 목적이다. 따라서 인공지능 프로세스는 문제를 정확히 정의하는 것으로 시작한다. 이 단계는 매우 중요하다. 문제 정의가 제대로 되지 않는다면, 이후의 과정이 잘 진행되더라도 원하는 결과를 얻지 못할 수 있기 때문이다.

예를 들어, 주차장에 자동화 시스템을 구축하기 위해 번호판을 인식하는 인공지능 알고리즘을 개발한다고 가정해 보자. 번호판은 숫자와 문자로 이루어져 있기 때문에, 이를 수집하고 인식하는 알고리즘으로 시스템을 구축할 수 있다. 하지만 이 알고리즘은 번호판 이외의 이미지에서도 숫자와 문자를 인식할 수 있어, 불필요한 정보가 입력될 수 있다. 때문에 문제 정의는 ‘숫자와 문자의 인식’이 아니라 ‘자동차 번호판의 숫자와 문자의 인식’이 되어야 한다. 따라서 숫자와 문자 뿐만 아니라 번호판의 모양을 인식하는 예측 모형도 필요하다.

2) 데이터 수집

▲ 그림 3. 학습을 위한 데이터 수집 과정

문제가 잘 정의되었다면, 컴퓨터가 학습할 수 있게 데이터를 수집해야 한다. 데이터는 문제 정의에 따라 계획적으로 수집돼야 한다. 예를 들어, 이미지에서 남성과 여성을 구분하는 인공지능 모형을 학습시키기 위해서는 라벨(남성, 여성)*이 분류된 이미지를 수집해야 한다. 데이터 수집에서 중요한 점은 데이터가 모집단 전체를 대표할 수 있어야 한다는 것이다. 만약 청소년 등 특정 연령층의 이미지만 학습한다면, 다른 연령층에서는 인식률이 떨어질 수 있다. 따라서 컴퓨터가 학습할 수 있는 양질의 대규모 데이터를 구축하는 것이 인공지능 알고리즘 성패의 핵심이 된다.

* 라벨(Label): 학습 데이터에서 원하는 출력 또는 목표 값을 나타내는 정보

3) 학습 알고리즘

다음은 수집한 데이터를 이용하여 학습시키는 과정이다. 이때 학습 알고리즘은 목적과 방식에 따라 다양하게 선택할 수 있다. 예를 들어, 인물 이미지의 성별을 분류하는 것과 같이 주어진 상황에서 자동으로 판단해야 하는 경우는 분류 모형에 특화된 학습 알고리즘을 사용한다. 반면에 새로운 사진이나 문서를 생성하는 경우는 챗GPT와 같은 생성형 인공지능 알고리즘을 사용한다. 또한, 게임이나 바둑과 같이 상호작용이 필요한 상황에서는 강화 학습 알고리즘*을 사용한다.

* 강화 학습 알고리즘: 에이전트가 환경과 상호작용하며, 행동의 결과로 얻은 보상을 통해 최적의 결정 방법을 배우는 알고리즘

기본적으로 학습 알고리즘은 학습 데이터를 입력으로 받아서 예측 알고리즘을 출력으로 제공한다. 따라서 학습 알고리즘이 어떤 방식으로 학습 데이터를 처리하여 예측 알고리즘으로 바꾸는지 이해하는 것이 중요하다. 이를 위해서는 먼저 예측 알고리즘이 무엇인지 알아야 한다.

▲ 그림 4. 인물 이미지의 성별 예측 알고리즘 출력 과정

예측 알고리즘은 새로운 정보를 입력으로 받아 최적의 의사결정을 출력한다. 예를 들어, 인물 이미지의 성별을 분류하는 인공지능에서는 이미지를 입력으로 받아 성별을 출력으로 제공한다. 이를 위해서는 이미지와 성별 라벨이 함께 있는 학습 데이터가 필요하며, 각 이미지는 픽셀의 색깔과 명도를 수치화한 데이터로 변환된다. 학습 알고리즘은 이 숫자들의 나열, 즉 벡터를 입력으로 받아 가장 정확하게 성별을 출력할 수 있는 함수를 찾는 것이다.

즉, 예측 알고리즘은 입력 벡터와 출력 데이터 사이의 관계를 최대한 정확히 매칭하는 수학적 함수로 이해할 수 있으며, 학습 알고리즘은 이러한 함수를 찾아내는 과정이라 할 수 있다.

(i) 학습 모형의 선택

모든 함수 중에서 예측을 가장 잘하는 함수를 찾는 것은 거의 불가능하다. 이유는 가능한 함수가 너무 많기 때문이다. 이 문제를 해결하는 방법이 바로 모형을 사용하는 것이다. 인공지능 모형이란 입력 변수(데이터)로부터 출력 변수(결과)를 예측하는 함수 중에 특정한 ‘파라미터(Parameter)’로 표현되는 함수를 가리킨다. 여기서 파라미터란 함수의 특정한 성질을 나타내는 변수로, 모형이 어떻게 작동할지를 결정하는 유한개의 숫자다.

▲ 그림 5. 선형 회귀 모델의 데이터 특성을 보여주는 1차 함수 그래프

가장 간단한 인공지능 모형은 데이터의 특성과 결과 사이에 선형 관계를 보이는 ‘선형 모형’이다. 그 중 선형 회귀* 모형의 함수 y=ax+b를 예로 들자. 파라미터는 a와 b로, 이 값을 통해 데이터의 선형 관계를 이해할 수 있으며, 모형이 데이터를 어떻게 처리할지 알 수 있다.

* 선형 회귀(Linear Regression): 선형 모형 중 연속적인 값을 예측하는 모형으로, 주어진 데이터에 대해 최소제곱법을 사용하여 에러의 제곱 합을 최소화하는 방식으로 파라미터를 학습한다.

학습 모형의 선택은 문제의 종류(분류, 회귀 등) 및 데이터의 특성, 사용 가능한 컴퓨팅 자원 등을 고려해서 이루어진다. 선형 모형은 일반적으로 정확도가 낮은 편이다. 따라서 보다 복잡한 문제를 해결하기 위해 다양한 함수를 사용하는 모형들이 개발되었다. 그중 가장 많이 사용되는 모형이 바로 심층신경망, 딥러닝이다. 딥러닝은 여러 층의 선형과 비선형 변환을 거쳐 출력을 내는 함수를 통칭한다.

▲ 그림 6. 심층신경망의 구조

딥러닝은 문제의 종류와 난이도 등에 따라 다양한 형태로 발전해왔다. 예를 들어, 이미지 분류나 생성과 같은 문제에는 이미지 데이터에 특화된 딥러닝 모형인 CNN*이 사용된다. CNN은 이미지에서 불필요한 정보(배경 등)를 제거하고 중요한 부분에 집중함으로써 성능을 높인 것이다.

문서 데이터에서는 단어 간의 순서를 고려하여 모형화한 RNN*이 주로 사용됐다. 최근에는 단어 간의 연관성을 자동으로 탐지해 각 단어를 벡터로 변환하는 트랜스포머(Transformer) 모형이 각광받고 있다. 챗GPT와 같은 대형 언어 모델도 트랜스포머를 기반으로 개발되었다.

* CNN(Convolutional Neural Network, 합성곱 신경망): 이미지와 같은 고차원 데이터에서 유용한 특징을 자동으로 감지하고 학습할 수 있는 딥러닝 모델로 합성곱 계층을 사용하여 입력 데이터에서 중요한 특징을 추출하여 이미지 분류, 객체 인식 등의 작업을 수행한다.
* RNN(Recurrent Neural Network, 순환 신경망): 이전에 처리한 정보를 기억하고 이를 바탕으로 현재의 입력과 결합하여 출력을 생성하는 딥러닝 모델로, 자연어 처리, 음성 인식, 시계열 예측 등 시간적 연속성이 중요한 데이터를 다루는 작업에 주로 사용된다.

(ii) 파라미터의 학습

학습 모형을 선택했다면, 다음은 모형에서 예측을 가장 잘하는 파라미터를 찾아야 한다. 이를 ‘인공지능의 학습’이라고 한다. 파라미터는 데이터의 학습을 통해 찾을 수 있는 내부 변수로, 모형의 성능에 직접적인 영향을 미친다. 따라서 인공지능의 학습은 데이터로부터 정보를 추출하고 이를 이용해 모형의 파라미터를 최적화하는 과정이라 할 수 있으며, 이를 통해 모형은 주어진 데이터에 최적화되어 더 정확하게 예측하거나 분류할 수 있게 된다.

파라미터의 학습을 위해서는 먼저 목적함수를 정의해야 한다. 목적함수는 모형의 성능을 정량적으로 평가하며, 모형의 학습 방향을 제시하는 중요한 역할을 한다. 목적함수는 모형의 예측값과 실제 데이터 사이의 오차를 계산하는데, 이 오차를 최소화하는 방향으로 모형의 파라미터를 조정하여 성능을 높이는 것이다.

목적함수는 주어진 문제와 선택된 모형에 따라 달라진다. 예를 들어, 회귀 문제에서는 예측값과 실제값의 차이를 제곱하여 평균을 내는 방식으로 작동하는 평균 제곱 오차(Mean Squared Error, MSE)가 자주 사용되고, 분류 문제에서는 예측이 실제 레이블의 분포와 얼마나 잘 일치하는지를 측정하는 교차 엔트로피 손실(Cross-Entropy Loss)이 흔히 사용된다. 특히, 다양한 학습 모형 중 딥러닝 모형은 비선형 함수이기 때문에 최적화가 매우 어렵고, 이 문제를 해결하기 위한 다양한 최적화 알고리즘이 연구·개발되고 있다. 파라미터 학습에 관한 내용은 다음 챕터에서 더욱 자세하게 다루도록 하겠다.

(iii) 예측성능 측정

인공지능 학습의 어려운 점은, 주어진 학습 데이터에서 예측을 잘하는 모형을 찾는 것이 아니라, 미래의 데이터(이하 예측 데이터, Test Data)에서 예측을 잘하는 모형을 찾는 것이 최종 목표라는 점이다. 보통 학습 데이터에서 예측을 잘하는 모형이 예측 데이터에서도 잘 작동한다. 그러나 너무 복잡한 모형을 사용하거나, 학습 데이터가 잘못 구성된 경우에는 학습 데이터에서 예측을 잘하는 모형이 예측 데이터에서는 나쁜 성능을 보일 수 있다. 이 문제를 해결하는 것이 인공지능 학습 방법론의 중요한 연구주제이다.

예측 모형이 제대로 학습되었는지 확인하기 위해서는 예측 데이터가 필요한데, 일반적으로 학습 당시에는 예측 데이터가 존재하지 않는다. 이 문제를 해결하기 위해서는 주어진 데이터를 임의로 학습 데이터와 예측 데이터로 나누는 방법이 자주 쓰인다. 학습 데이터로 모형을 학습시킨 후, 예측 데이터를 사용하여 모형의 성능을 확인하는 것이다.

이러한 과정을 통해 성능이 원하는 만큼 나온다면 학습된 예측 모형을 사용할 수 있다. 그러나 성능이 기준에 미치지 못한다면 그 이유를 확인해야 한다. 알고리즘의 선택이 잘못되었을 수 있고, 데이터에도 문제가 있을 수 있다. 나아가 주식 가격 예측같이, 문제 자체가 예측이 어려운 문제일 수 있다. 따라서 원점으로 되돌아가 문제의 정의, 수집된 데이터나 알고리즘의 선택을 다시 고려해야 한다.

4) 예측 및 모니터링

예측 성능 측정 단계에서 원하는 결과가 나온다면 모형을 실제 업무에 적용한다. 즉, 문제를 해결하기 위해 학습 알고리즘이 만들어 낸 예측 모형을 사용하는 것이다. 이때, 새로운 입력 정보를 예측 모형에 넣어서 출력값을 얻는 일련의 과정을 예측 알고리즘이라고 한다. 이미지 분류에서는 라벨이 알려지지 않은 새로운 이미지를 넣으면 예측 모형은 출력값으로 라벨을 제공한다.

이때 원하는 성능이 꾸준히 나오는지에 대한 모니터링은 필수다. 데이터는 시간에 따라 분포가 바뀔 수 있기 때문에 모형이 학습될 때 고려하지 않던 새로운 정보가 생길 수 있다. 따라서 모형을 꾸준히 모니터링하고, 필요한 경우 새로운 데이터를 추가하여 재학습을 고려해야 한다. 모든 학습 프로세스를 다시 수행하지 않고, 현재의 예측 모형과 새로운 데이터를 결합해 꾸준히 학습하는 방법도 개발되고 있다. 관련 분야로는 연속적 학습(Continual Learning)*, 전이 학습(Transfer Learning)*, 도메인 적응(Domain Adaptation)* 등이 있다.

* 연속적 학습(Continual Learning): 지속해서 변하는 환경에서 이전 데이터의 재학습 없이 새로운 데이터를 학습하는 기법. 로봇공학, 자연어 처리 등의 분야에서 중요하게 다루어진다.
* 전이 학습(Transfer Learning): 한 작업에서 학습된 지식을 다른 작업에 적용하여 학습 시간을 단축하고 성능을 높이는 학습 기법. 충분한 훈련 데이터를 확보하기 어려운 작업에 유용하게 쓰인다.
* 도메인 적응(Domain Adaptation): 특정 도메인에서 학습된 모형을 다른 도메인(타깃 도메인)에서도 잘 작동하도록 조정하는 학습 기법. 의료 이미징, 음성 인식 등 데이터 환경이 끊임없이 변하는 환경에 유용하게 쓰인다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[All Around AI 1편] AI의 시작과 발전 과정, 미래 전망

SK 경영경제연구소 김지현 부사장 — Thu, 14 Mar 2024 15:04:39 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 1화에서는 인공지능의 역사적 발전 과정과 그것이 현재 우리 삶에 어떻게 녹아들었는지 살펴봅니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

인공지능을 탑재해 사람처럼 걷고 말하며 생각하는 로봇은 과거 공상과학 만화와 영화의 단골 소재였다. 인간의 상상 속에서만 존재하던 AI와 로봇은 더 이상 꿈이 아니다. 이제 현실로 구현되며 사람들의 일상을 바꾸고 있는 AI는 언제부터 시작되어 어떻게 발전해 왔으며, 앞으로 어떤 미래를 만들어 나갈까?

‘AI’의 시작과 발전 과정

AI의 시작은 1950년대로 거슬러 올라간다. 1950년, 영국의 수학자 앨런 튜링(Alan Turing)은 기계는 생각할 수 있다고 주장하며, 이를 테스트하기 위한 방법으로 ‘튜링 테스트(The Turing Test)’를 고안했다. 이것은 AI라는 개념을 최초로 제시한 연구로 꼽힌다. 1956년에는 AI의 개념을 세상에 알린 다트머스 회의(Dartmouth Conference)가 열렸다. 이 회의에서는 기계가 인간처럼 학습하고 발전할 수 있는지에 대한 토론이 이루어졌으며, 인공지능이라는 용어가 처음 사용되었다.

이 시기에는 인공신경망(Artificial Neural Network) 모델에 관한 연구도 활발히 진행되었다. 1957년, 프랑크 로젠블랏(Frank Rosenblatt)은 ‘퍼셉트론(Perceptron)’ 모델을 통해 컴퓨터가 패턴을 인식하고 학습할 수 있다는 개념을 실증적으로 보여줬다. 이는 1943년에 신경 생리학자 워렌 맥컬럭(Warren McCulloch)과 월터 피트(Walter Pitts)가 신경세포의 상호작용을 간단한 계산 모델로 정리한 ‘신경망’ 이론을 실제 테스트에 활용한 것이다. 이러한 초기 연구의 성과는 세간의 기대를 높였으나, 컴퓨팅 성능, 논리 체계, 데이터 부족 등의 한계로 AI 연구는 곧 침체기에 들어섰다.

1980년대에는 사람이 입력한 규칙을 기반으로 자동 판정을 내리는 ‘전문가 시스템(Expert System)’이 등장했다. 전문가 시스템은 의학, 법률, 유통 등 실용적인 분야에서 진단, 분류, 분석 등의 기능을 수행하며, 일시적으로 AI에 대한 관심을 다시 불러일으켰다. 그러나 이 시스템은 사람이 설정한 규칙에만 의존하여 동작하며, 복잡한 현실 세계를 이해하는 능력을 갖추지 못했다는 한계가 있었다.

인간의 명령으로만 작동하던 AI는 1990년대 들어서 스스로 규칙을 찾아 학습하게 된다. 바로 ‘머신러닝(Machine Learning, 기계학습)’ 알고리즘을 활용하면서부터다. 이것이 가능해진 이유는 디지털과 인터넷이 등장했기 때문이다. 웹에서 수집한 대량의 데이터를 활용할 수 있게 되면서, AI는 스스로 규칙을 학습하고 나아가 사람이 찾지 못하는 규칙까지 찾아낼 수 있게 되었다. AI 연구는 머신러닝을 기반으로 다시 성과를 내기 시작했다.

AI의 핵심 기술, ‘딥러닝’의 발전

인공신경망 초기 연구는 1969년, 앞서 언급했던 퍼셉트론 모델이 비선형 문제를 해결할 수 없다는 것*이 밝혀지면서 긴 침체기에 접어들었다. 이후, 인공신경망 연구를 다시 수면위로 끌어올린 인물은 ‘딥러닝의 대부’로 불리는 제프리 힌튼(Geoffrey Hinton, 이하 힌튼)이다.

* 초기 퍼셉트론 모델은 단층 퍼셉트론(Single-layer Perceptron)으로 입력 값이 두 개이고, 두 입력 값이 같으면 0을 출력하고 다르면 1을 출력하는 XOR 문제와 같은 비선형 문제를 해결할 수 없었다.

1986년, 힌튼은 인공신경망을 여러 겹 쌓은 다층 퍼셉트론(Multi-Layer Perceptrons) 이론에 역전파* 알고리즘을 적용하여 퍼셉트론의 기존 문제를 해결할 수 있음을 증명했다. 이를 계기로 인공신경망 연구가 다시 활기를 되찾는 듯했지만, 신경망의 깊이가 깊어질수록 학습 과정과 결과에 이상이 나타나는 문제가 발생했다.

* 역전파(Backpropagation): 신경망에서 출력 값과 실제 값 사이의 차이를 계산하고, 오차를 줄이기 위해 출력부터 시작하여 역순으로 가중치를 조절하는 알고리즘

2006년, 힌튼은 ‘A fast learning algorithm for deep belief nets’라는 논문을 통해 다층 퍼셉트론의 성능을 높인 ‘심층 신뢰 신경망(Deep Belief Network, DBN)’을 제시했다. 심층 신뢰 신경망은 비지도학습*을 통해 각 층을 사전 훈련한 후, 전체 네트워크를 미세 조정하는 방식으로 신경망의 학습 속도와 효율성을 크게 높였다. 또한 AI 기술을 대표하는 알고리즘인 ‘딥러닝(Deep Learnning)’의 기초 개념을 정립했다.

* 비지도학습 (Unsupervised Learning): 머신러닝의 학습론 중 하나로 입력 데이터에 대한 정답을 주지 않고, 숨은 구조나 패턴 등을 발견하고 이해할 수 있게 학습시키는 방법

▲ Kien Nguyen, Arun Ross. “Iris Recognition with Off-the-Shelf CNN Features: A Deep Learning Perspective”, IEEE ACCESS SEPT(2017), p.3

그리고 2012년, 딥러닝의 압도적인 성능을 증명한 역사적인 사건이 발생한다. 바로 이미지 인식 경진대회인 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 힌튼이 이끄는 팀의 알렉스넷(AlexNet)이 우승을 차지한 것이다. 딥러닝 기반의 모델인 알렉스넷은 이미지 인식률 84.7%를 기록했는데, 이는 다른 모델과 비교했을 때 월등히 높은 수치였다. 특히, 전년도 우승팀의 오류율 25.8%를 무려 16.4%까지 낮추는 기염을 토했다.

AI 연구의 대세가 된 딥러닝은 2010년대부터 급속도로 성장하게 되는데, 이러한 성장에는 두 가지 배경이 있다. 첫째, GPU(Graphics Processing Unit, 그래픽처리장치)를 비롯한 컴퓨터 시스템의 발전이다. GPU는 본래 컴퓨터의 그래픽을 처리하기 위해 만들어졌다. CPU(Central Processing Unit, 중앙처리장치)와 비교할 때, GPU는 유사하고 반복적인 연산을 병렬로 처리하여 훨씬 속도가 빠르다. 2010년대에 들어서며, GPU가 CPU의 역할까지 대신할 수 있게 보완한 GPGPU(General-Purpose computing on GPU) 기술이 등장했다. GPU의 쓰임새가 늘어났고, 인공신경망의 학습에도 적용되며 딥러닝의 발전이 크게 가속화되었다. 방대한 학습 데이터를 분석해 특성을 추출하는 딥러닝은 반복적인 계산이 필수인데, GPU의 병렬 계산 구조는 이에 아주 적합했기 때문이다.

두 번째는 데이터(Data)의 증가다. 인공신경망 학습에는 대량의 데이터가 필요하다. 과거의 데이터는 컴퓨터에 입력된 정보 수준에 그쳤다. 하지만 1990년대 이후, 인터넷이 보급되고 검색엔진이 발전하며, 가공할 수 있는 데이터의 범위가 기하급수적으로 늘어났다. 2000년대 이후에는 스마트폰과 사물인터넷(Internet of Things, IoT)이 발전하며 빅데이터(Big Data)의 개념이 등장한다. 현실 세계의 곳곳에서 셀 수 없이 많은 데이터가 실시간으로 수집되는 것이다. 많은 데이터를 학습한 딥러닝 알고리즘은 더욱 정교하게 구축된다. 데이터 패러다임의 변화는 딥러닝 기술 발전의 큰 기반이 되었다.

▲ 2016년 3월 9일 진행된 알파고와 이세돌의 대국을 그린 다큐멘터리 영화 ‘AlphaGo – The Movie’ (Google DeepMind)

그리고 2016년, 딥러닝은 또 한 번 세상을 바꾼다. 구글 딥마인드가 개발한 AI 알파고(AlphaGo)가 4승 1패로 바둑기사 이세돌 9단을 꺾으며 승리, 전 세계에 AI의 존재를 각인한 것이다. 알파고는 딥러닝 알고리즘과 강화학습*, 몬테카를로 트리 탐색* 알고리즘을 결합해 탄생했다. 이를 통해 수만 번의 자가 대국을 진행하여 스스로 학습하고, 인간의 직관을 모방하여 수를 예측하고 전략까지 세울 수 있었다. ‘인간을 꺾은 AI’의 탄생은 본격적인 AI 시대의 시작을 알린 신호탄이었다.

* 강화학습(Reinforcement Learning): AI가 행동을 학습하는 방식 중 하나. 행동에 따른 결과를 보상의 형태로 알려주면서, 주어진 상태에서 최적의 행동을 선택하는 전략을 찾게 한다.

* 몬테카를로 트리 탐색(Monte Carlo tree search, MCTS): 일련의 난수를 반복적으로 생성하여 함수의 값을 수리적으로 근사하는 확률적 알고리즘의 일종. 현 상황에서 선택 가능한 행동들을 탐색 트리로 구조화하고, 무작위적 시뮬레이션을 통해 각 행동의 득실을 추론하여 최적의 행동을 결정하는 기능을 한다.

챗GPT를 필두로 시작된 ‘생성형 AI’ 붐

▲ 생성형 AI 개념도

2022년 말, 인류는 AI 기술로 거대한 변혁을 맞이했다. 오픈AI가 LLM(거대 언어 모델)* GPT(Generative Pre-trained Transformer) 3.5를 탑재한 ‘챗 GPT’를 출시하면서 생성형 AI(Generative AI)의 시대를 연 것이다. 생성형 AI는 인간의 고유 영역으로만 여겨지던 ‘창작’의 영역에 침투하여 다양한 포맷의 수준 높은 콘텐츠를 생성한다. 데이터를 바탕으로 예측하거나 분류하는 딥러닝의 수준을 넘어 사용자의 요구에 따라 LLM이나 다양한 이미지 생성 모형(예: VAE, GAN, Diffusion Model 등)을 활용해 스스로 결과물을 생성하는 것이 특징이다.

* LLM(Large Language Model, 거대 언어 모델): 방대한 양의 데이터를 통해 얻은 지식을 기반으로 다양한 자연어 처리 작업을 수행하는 딥러닝 알고리즘

생성형 AI의 시작은 2014년 이안 굿펠로우(Ian Goodfellow)가 발표한 ‘GANs(Generative Adversarial Networks, 생성적 적대 신경망)’ 모델이다. GANs는 두 신경망이 서로 경쟁하면서 학습하는 구조다. 한 신경망은 실제 데이터와 구분하기 어려운 새로운 데이터를 생성하고 다른 신경망은 이를 실제 데이터와 비교하여 판별하는데, 이 과정을 반복하며 점점 더 정교한 데이터를 완성한다. GANs 모델은 이후 변형과 개선을 통해 현재까지 이미지 생성 및 변환 등 다양한 응용 분야에서 활발하게 사용되고 있다.

2017년에는 자연어처리(Natural Language Processing, NLP) 모델 ‘트랜스포머(Transformer)’가 발표된다. 트랜스포머는 데이터 간의 관계를 중요 변수로 고려한다. 특정 정보에 더 많은 ‘주의’를 기울여 데이터 사이의 복잡한 관계와 패턴까지 학습할 수 있으며, 더 중요한 정보를 포착해 이를 기반으로 더 나은 품질의 결과물을 생성할 수 있다. 트랜스포머 모델은 언어 이해, 기계 번역, 대화형 시스템 등의 자연어 처리 작업에 혁신을 가져왔다. 특히, 앞서 언급했던 GPT 등의 LLM의 출현에 크게 영향을 미쳤다.

2018년 처음 출시된 GPT는 매년 더 많은 매개변수와 학습 데이터를 사용해, 빠른 속도로 성능을 개선해 왔다. 그리고 2022년, GPT-3.5를 탑재한 대화형 인공지능 시스템 챗GPT가 출시됐고, AI의 패러다임을 완전히 바꿔놓았다. 챗GPT는 사용자와의 대화에서 맥락을 잘 이해하고 적절한 반응을 제시할 수 있으며, 답변할 수 있는 영역 또한 광범위했다. 출시 일주일 만에 사용자 수 100만 명을 돌파했으며 두 달 만에 활성 이용자 수 1억 명을 넘기는 등 전세계적으로 폭발적인 인기를 끌었다.

2023년, 오픈 AI는 기술적으로 한 단계 도약한 GPT-4를 출시했다. GPT-4는 GPT-3.5보다 약 500배 더 큰 데이터 셋을 활용한 모델로, 텍스트를 넘어 이미지와 오디오, 비디오 등 다양한 입력 데이터를 동시에 처리하며, 데이터 포맷 역시 다양하게 생성하는 LMM(멀티 모달 모델)*으로 진화했다. 챗GPT가 촉발한 생성형 AI 붐을 타고, 기업들은 너나 할 것 없이 다양한 생성형 AI 서비스를 출시하고 있다. 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해할 수 있는 구글의 제미나이(Gemini)와 이미지 내 특정 객체를 정확하게 인식하고 분리할 수 있는 메타의 샘(SAM), 텍스트 프롬프트 기반으로 영상을 제작하는 오픈AI의 소라(Sora) 등이 대표적이다.

* LMM(Large Multimodal Model, 멀티 모달 모델): 텍스트뿐만 아니라 이미지, 오디오 등의 다양한 유형의 데이터를 처리할 수 있는 딥러닝 알고리즘

생성형 AI 시장은 이제 시작이다. 글로벌 시장 조사업체인 IDC(International Data Corporation)의 보고서에 따르면 2024년 생성형 AI 시장은 전년 대비 2.7배나 높은 401억 달러 규모로 성장할 전망이다(AI타임즈, 2023). 또한, 매년 성장을 가속화하여 2027년에는 1,511억 달러 수준으로 성장할 것이라 예측했다. 앞으로 생성형 AI는 소프트웨어를 넘어서 하드웨어, 인터넷 서비스 등 다양한 포맷에 도입될 것이다. 기능은 상향 평준화될 것이며, 더 많은 사람들이 손쉽게 이용할 수 있도록 편의성은 확장될 것이다.

일상을 바꾸는 AI와 미래 전망

AI는 2000년대의 구글 검색, 2010년대의 모바일 SNS처럼 사회 전반에 새로운 변화와 기회를 제공하는 구심점으로 기능하고 있다. 기술의 발전 속도는 비슷한 사례를 찾아보기 힘들 정도로 빠르며, 그 과정에서 인류의 도전과 고민 역시 커지고 있다.

그렇다면 ‘Next 생성형 AI 기술’은 무엇일까? 현재 가장 주목받는 미래 AI 기술은 단연 ‘온디바이스(On-Device) AI’다. 일반적으로 AI 서비스를 이용하기 위해서는 대규모 클라우드 서버와 통신하여 엣지 디바이스로 데이터를 끌어와야 한다. 하지만 온디바이스는 휴대폰, PC 등의 전자기기에 AI 칩셋과 sLLM(Smaller LLM)을 설치해서 자체적으로 AI 서비스를 구동할 수 있다. AI 구동에 따른 보안이나 자원 문제를 해결할 수 있는 대안이며 동시에 더욱 개인화된 AI 서비스까지 제공할 수 있다.

▲ 클라우드 기반 AI와 온디바이스 AI 구조 비교

온디바이스 AI와 같이, 앞으로 AI는 더 많은 기기에 탑재될 것이며 그 형태는 계속해서 진화할 것이다. 이미 영화에서나 볼 수 있었던 혁신적인 아이템이 시장에 출시됐다. 2023년 미국 AI 스타트업 휴메인(Hamane)이 출시한 AI Pin은 사용자의 손바닥에 메뉴를 투영하는 레이저 잉크 디스플레이를 탑재한 웨어러블 AI 디바이스다. CES 2024에서 소개되며 화제를 모았던 래빗(Rabbit)의 R1, 브릴리언트 랩스(Brilliant Labs) Frame 역시 AI 기술을 탑재한 혁신적인 웨어러블 디바이스다. 또한, 애플의 비전 프로(Vision Pro), 메타의 퀘스트(Quest)와 같이 AI 기술을 적용한 혼합현실(Mixed Reality, MR) 헤드셋은 기존의 가상현실(Virtual Reality, VR) 과 메타버스를 넘어선 새로운 시장을 창조하고 있다.

빠른 기술 발전은 새로운 기회를 만들어내지만, 동시에 사회적 문제를 야기하기도 한다. AI 기술의 빠른 발전 속도를 따라가지 못하는 사회 전반에서 여러 가지 우려의 목소리가 나오기 시작했다. 특히, 상상 속에서만 존재하던 AI가 실체를 가지고 현실 공간으로 들어오며, 이를 악용한 사례들이 등장했다. AI가 만들어낸 정교한 허위 콘텐츠는 가짜 뉴스를 양산하며 사회적 혼란을 조장한다. 최근 미국 대선 등 대형 선거를 앞둔 여러 국가들을 중심으로 가짜 영상, 이미지 등의 딥페이크(Deepfake) 콘텐츠에 대한 우려가 커지고 있는 상황이다.

▲ 생성형 AI가 묘사한 딥페이크 기술로 인한 사회적 불안과 혼란(DALL·E)

AI 개발 및 활용 과정에서 발생할 수 있는 위험 요소도 존재한다. 생성형 AI가 사전 학습을 위해 웹상에 공개된 자료들을 크롤링하고, 재조합하는 과정에서 수많은 창작물이 표절의 대상이 될 수 있다는 점이다. 또한, 동일한 생성형 AI 프로그램과 비슷한 프롬프트로 생성한 콘텐츠 간의 저작권 다툼 우려도 있다. AI가 사람들의 업무 진행에 도움을 주고 생산성을 높이는 것을 넘어 일자리를 대체하고 노동시장 구조의 변화를 본격화할 것이라는 전망도 마냥 반가운 이야기만은 아니다.

이제 AI가 만드는 세상은 이제 인류의 상상력을 넘어섰다. 한 번도 경험하지 못한 세상이 너무 빠르게 다가오고 있다. 우리는 예상치 못한 미래의 변혁을 어떻게 대비해야 할까? 이에 대한 올바른 대처 방안을 수립하기 위해서는 AI에 대한 깊은 이해와 분석을 바탕으로 보다 구체적인 고민과 사회적 논의가 필요하다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[We Do Future Technology] 미래 인재야, 너도 반도체 전문가 될 수 있어! – AI반도체 편 (4/5)

SK하이닉스 — Sun, 19 Feb 2023 15:00:00 +0000

“We Do Future Technology”

미래 인재를 위한 반도체 기술 해설 시리즈

어려운 반도체 최첨단 기술 용어, SK하이닉스 실무진이 핵심만 쏙쏙 뽑아서 알려드립니다.

사람이 많은 지식을 습득할수록 똑똑해지는 것처럼, 인공지능도 마찬가지다. 많은 데이터를 학습해야만 똑똑해진다. 그리고 인공지능의 도입으로 과거에는 사람이 데이터를 생산하는 주체였다면, 이제는 데이터를 학습한 인공지능이 기존 데이터를 융합해 새로운 데이터를 만들어내는 세상이 도래했다.

인류가 2000년대 초반까지 만든 데이터 양을 단 하루 만에 만들어 내는 빅데이터 시대, 대규모의 연산을 초고속, 저전력으로 처리하고 빅데이터를 학습하고 추론하는데 사용되는 반도체를 AI반도체라고 정의하고 있다.

AI반도체는 기존 반도체와는 어떻게 다르고, 궁극적으로는 어떻게 나아갈까?
데이터와 AI 기술의 관계를 알아보고 SK하이닉스가 개발한 AI반도체는 무엇인지 영상에서 확인해보자.

[창립기념일 특집] ‘글로벌 일류 기술 기업’을 향한 첨단기술 도전은 현재 진행중

SK하이닉스 — Thu, 06 Oct 2022 15:00:00 +0000

반도체가 인공지능(AI) 역사를 바꾼 결정적 순간들

정인성 작가 — Wed, 20 Jul 2022 20:00:00 +0000

20세기 초, 컴퓨터가 발명되면서 인류사에 큰 변화가 생겼다. 과거에는 수많은 사람들이 시간을 써야 했던 각종 문제들을 자동으로 처리할 수 있게 된 것이다. 인간은 컴퓨터에게 프로그램이라는 해야 할 일 덩어리를 던져 주기만 하면 되었다. 컴퓨터는 반도체 기술에 힘입어 이 작업을 매우 정확하고 빠르게 처리할 수 있었다. 이러한 변화는 인간을 삶을 충분히 편리하게 만들었다. 하지만 인간은 거기서 멈추지 않았다. 과학자들이 원한 것은 프로그램이 스스로 주변 환경에 맞춰 변하는 것이었다. 스스로 배워서 변하는 프로그램, 즉 인공지능(Artificial Intelligence, AI)이다.

인공지능을 구현하는 길은 험난했다. 의사결정나무(Decision Tree), SVM(Support Vector Machine)*, 회귀(Regression) 등 인공지능을 만들기 위한 다양한 시도가 있었지만, 원하는 수준의 인공지능을 만들지는 못했다.

* SVM : 데이터의 분류를 위해 기준 선을 정의하는 모델. 데이터가 주어졌을 때, SVM 알고리즘은 기존에 주어진 데이터 집합을 바탕으로 새로운 데이터가 어느 카테고리에 속할지 판단합니다.

▲ 상기 이미지는 이해를 돕기 위한 참고용 이미지로 실제로는 더 복잡한 구조를 가졌다.

그러던 2012년, 이변이 일어난다. ‘이미지넷(ImageNet)’ 사물 인식 대회에서 ‘알렉스넷(AlexNet)’이라는 인공지능 기반 알고리즘이 우승한 것이다. 알렉스넷은 인간의 뇌세포 구조를 이용해 제작된 인공지능으로, 기존 프로그램이 보여주지 못한 성능을 보여주었다. 이 성공으로 전 세계는 인공지능의 가능성을 깨닫게 되었고, 지금의 인공지능 붐(Boom)에 이르게 됐다.

▲ 알렉스넷의 구조도. 병렬적인 구조로 설계되었다는 점이 가장 큰 특징이다.(출처 : 원문 확인)

그런데 뭔가 이상하다. 인공지능을 만들려고 했으면 당연히 ‘인간’ 신경망을 본 뜬, 즉 ‘인공’ 신경망을 제일 먼저 만들어 봐야 했던 것 아닐까? 왜 60년이라는 먼 길을 돌아 이제서야 인공지능이 빛을 보게 된 것일까?

인공신경망, 반도체와 만나다

과학자들도 수십 년간 인간의 신경망을 따라 하려 시도했다. 문제는 인공신경망(Artificial Neural Network, ANN) 관련 이론적 발전이 더디고, 원리상 엄청난 연산 능력이 필요하다는 점이었다.

인공신경망 내에는 인간의 뇌세포에 해당하는 수백만 개에서 최대 수조 개의 값이 필요하다. 인공신경망을 학습시킨다는 것은 이 수많은 신경망 내의 값들을 하나하나 바꿔준다는 의미이다. 문제는 이 조정을 매우 자주 반복해야 한다는 것이다. 학습 1회(배치)마다 최대 수백만~수조개의 값을 바꿔줘야 하는데, 학습 횟수도 수만 회가 넘는 경우가 있다. 이러한 연산 능력 부족 문제는 1980년대까지 해결되지 않은 문제였다. 이 때문에, 2,000년대 이전까지는 당시 CPU 수준에서도 작동 가능한 SVM과 같은 대안 기술에 과학자들이 몰리게 되었다. 하지만 SVM과 같은 기술은 인공지능 기술 발전에 큰 성과를 내지 못했고, 인공지능 전반에 대한 관심이 줄어들었다. 연구비 또한 줄어들면서, 인공지능을 연구하는 사람들은 정부가 전폭적으로 인공지능 연구를 지원하는 캐나다로 이동하게 된다.

연산력 문제가 해결된 것은 2,000년대 후반 인공신경망이 반도체와 만나면서부터다. 특히, GPU(Graphics Processing Unit)가 연산 속도 개선에 중요한 역할을 한다. GPU는 원래 그래픽을 표시하는데 사용된다. 그래픽 연산은 CPU가 수행해야 하는 복잡한 연산들보다는 단순했으나, 대신 유사한 작업을 매우 반복해야 했다. 이런 이유 때문에 GPU는 CPU에 필요한 많은 회로들을 덜어내고, 대신 더 많은 연산 코어를 집적하는 방식으로 발전하였다. 연구자들은 이러한 GPU의 연산 능력이 인공신경망의 연산에 활용될 수 있음을 눈치챘다. 때 마침, GPU 제조사였던 엔비디아는 GPU 기반 프로그래밍을 도와주는 프레임워크 CUDA(Compute Unified Device Architecture)를 제공하고 있었다. CUDA는 GPU의 메모리 모델을 추상화해 좀 더 편하게 GPU를 이용할 수 있도록 도왔고, 과학자들은 GPU를 도입해 인공신경망을 수십 배 빠르게 구동할 수 있게 된 것이다.

▲ 인공신경망은 수백만 개의 인공 연결을 시뮬레이션 해야 한다

메모리 반도체 역시 인공신경망 발전에 큰 역할을 한다. 인공신경망 자체는 GPU에 들어갈 수 없으며, 반드시 메모리에 담아야만 한다. 하지만 인공신경망의 크기는 기존 소프트웨어들보다 거대하다. 게다가 빠른 인공지능 학습을 위해서는 신경망과 가까운 곳에 학습 데이터가 저장되어 있어야 한다. 메모리 반도체 회사들이 인공지능을 위한 고용량, 고대역폭 메모리를 제공했다.

반도체가 인공지능 기술의 동반자로 나선 것이다. GPU는 인공신경망 학습과 구동 속도를 높이고, 메모리 반도체는 더 많은 데이터를 담아 더 큰(깊은) 인공신경망을 만들어 볼 수 있게 된다. 이 같은 환경 변화의 결실이 2012년에 나타난 것이다.

인공지능 기술의 발전은 현재진행형이다

인공지능의 첫 성과 후 10년, 인공지능 기술은 우리 삶 곳곳에 자리 잡았다. 이제는 일상화된 안면 인식, 목소리를 통한 스마트폰 제어, 광학 문자판독(OCR), 실시간 번역 모두 인공지능 기술 덕분에 가능했다. 자율주행 자동차 상용화도 마찬가지다. 인공지능 기술의 발전은 여기에 머무르지 않고 창작의 영역에 도전 중이다. 네이버는 웹툰 자동 채색 서비스를 시범적으로 선보이기도 했으며, 오픈AI(OpenAI)는 인간이 요청한 대로 그림을 그릴 수 있는 인공지능 엔진 DALL-E를 공개했다.

▲ 유저가 요청한 “수프 한 그릇 + 괴물처럼 생긴 + 양털로 짠” 내용에 맞춰 그림을 그려 주는 DALL-E 2 (출처: openai.com/dall-e-2)

이처럼 인공지능이 우리 삶에 깊이 파고들자, 다양한 반도체 분야가 인공지능 산업에 뛰어들었다. GPU는 인공지능 성능 향상의 핵심으로 자리 잡으며, 인공지능 반도체 분야에서의 입지를 더욱 키웠다. 현재, 메모리 반도체 회사들은 HBM(High Bandwidth Memory)과 같이 GPU의 잠재력을 끌어낼 수 있는 고용량 고대역폭 메모리 반도체를 만들고 있다. 엔비디아는 로드맵을 확장하여 감시용 카메라 등 더 작은 기기(Edge device)에 들어갈 인공지능 반도체도 만들기 시작했다. 인텔은 자신들이 점유한 CPU 시장 점유율을 바탕으로 CPU와 GPU의 장점을 결합해 연산력을 높인 단일칩을 출시해 시장에 도전장을 내밀기 시작했다.

▲ 세계 최초로 양산에 돌입한 SK하이닉스의 HBM3

인공지능 반도체에 직접적으로 관련이 없던 회사들의 진출도 시작되었다. 스마트폰 AP 회사들은 NPU(Neural Processing Unit)*라고 부르는 인공지능 연산 전용 부위를 추가해, 영상·이미지·음성 인식 등 스마트폰에 활용되는 인공지능 서비스를 고도화시켰을 뿐 아니라, 이미지 합성, AI 지우개 기능 등 기존 스마트폰에서는 가능하지 않던 재미있는 앱 개발을 가능하게 만들었다. 자동차 회사 테슬라는 자체 연산 칩을 설계하여 반(半)자율주행 알고리즘인 오토파일럿* 기능을 구현하였으며, 인공지능 학습에 사용될 자체 슈퍼컴퓨터 도조(Dojo)까지 만들었다.

* NPU : AI 기반 기술이 스마트폰에 필수적으로 쓰이게 되어 도입된 인공지능 처리 전문 반도체, 혹은 특정 칩에서 인공지능 연산을 담당하는 부분을 지칭하는 용어. 모바일 외에도 음성이나 영상 인식, 스마트 공장, 스마트 빌딩, 스마트 시티 등 다양한 곳에서 사용됩니다.
* 오토파일럿 : 테슬라에서 사용되고 있는 ADAS(Advanced Driver Assistance Systems, 첨단 운전자 지원 시스템) 시스템으로서, 자율주행 5단계인 ‘운전자 없는 자동차를 주행’ 하는 것을 목표로 하고 있습니다. 현재 자율주행 2단계에 속해 테슬라의 주행보조기능을 수행하고 있으며, 사람이 기능이 잘 작동하고 있는지 감시하는 단계의 자율주행 기술입니다.

또 다른 동반자를 찾아

반도체 기술과 인공지능 기술은 선순환의 관계를 가지게 되었다. 반도체의 도움으로 인공지능 기술이 꽃 필 수 있었다. 반도체 산업 역시, 인공지능의 가능성을 알게 된 수많은 플레이어들이 뛰어들며 산업 자체의 파이를 키울 수 있었다.

이러한 선순환 관계는 지속되어야 한다. 현재 인공지능 기술에서의 이슈 중 하나는 전력을 최소화할 수 있는 컴퓨팅을 실현하는 것이다. 이 분야에서도 반도체 회사들의 대결이 뜨겁다. 인텔은 현재의 인공신경망보다 좀 더 인간 신경망에 가까운 SNN(Spiking Neural Network)* 기반의 뉴로모픽 칩을 개발하였으며, 메모리 회사들은 AI 개발 속도는 높이면서 전력 소모를 줄이는 PIM 반도체 개발에 나서고 있다.

* SNN : 인간 두뇌의 생물학적 동적 구조를 모방한 컴퓨팅 기술. 뇌를 구성하는 뉴런(neuron) 과 시냅스(synapse)로 이루어진 신경망 구성방식으로 두뇌에서 정보가 전달, 가공, 출력되는 과정을 인공지능으로 구현하는 방식을 말합니다.

위의 수많은 대안 기술들 중, 혁신가가 어떤 정답을 찾을지는 모른다. 하지만 수많은 경쟁자 사이에서 우리의 반도체가 미래의 혁신가들에게 선택받기 위해서는, 엔비디아와 메모리 회사들이 어떻게 인공지능 연구원들을 도와주었는지 되새길 필요가 있다. 날이 갈수록 반도체를 사용하는 방법은 어려워지고 있다. 따라서 앞으로 반도체의 완성은 사용자가 ‘보고 따라 할 수 있는 매뉴얼과 소통 창구’ 등을 갖추는 것을 포함하게 될지도 모른다. 긴 이야기였지만, 결국 역지사지해야 한다는 이야기이다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

AI 기술의 다양한 응용 분야_AI 반도체의 현황과 미래전망

정덕균 교수 — Fri, 01 Apr 2022 14:55:00 +0000

‘역사상 가장 거대한 패러다임의 전환’이라 불리는 인공지능(AI)은 눈부신 속도로 일상의 중심으로 다가오고 있다. AI는 이미 인간의 지능과 학습 속도를 추월했고, 일상의 다양한 부분을 학습하며 자율주행(Automotive), AI 비서부터 인간의 뇌를 본뜬 뉴로모픽(Neuromorphic) 반도체¹⁾까지 전 영역에서 빠르게 적용되고 있다. 이러한 AI 기술이 활약하고 있는 대표적인 응용 분야는 무엇이고 어떻게 구현되는 것일까?

1) 뉴로모픽(Neuromorphic) 반도체: 사람 뇌의 신경구조를 모방한 반도체 소자로서, 뉴로는 신경, 모픽은 형상을 의미한다. 병렬로 작용하는 인간의 뇌를 모방해 병렬 형태의 연산구조를 지니고 있다.

Cloud Computing vs Edge Computing

기존 클라우드 서비스(Cloud Service)와 대척점에 있는 AI 응용 분야는 엣지 컴퓨팅(Edge Computing)²⁾이다. 영상이나 사진과 같은 대량의 입력 데이터를 처리해야 하는 응용 분야에서는 엣지 컴퓨팅을 통해 데이터를 자체적으로 처리하거나, 데이터의 양을 줄여 유무선 통신을 통해 클라우드 서비스로 전달하는 방식을 취해야 한다.

엣지 컴퓨팅을 위한 가속기는 AI 칩 설계의 또 다른 큰 분야를 차지하고 있다. 주로 자율주행 등에 사용되는 AI 칩이 좋은 예다. 이러한 칩에서는 합성곱 신경망³⁾(Convolution Neural Net, CNN)을 통해 대량의 정보를 지닌 이미지를 압축하고, 여러 처리 과정을 거쳐 영상 분류(Image Classification)⁴⁾, 객체 탐지(Object Detection)⁵⁾등의 작업을 수행하게 된다. 이렇게 입력 데이터가 필터를 거치며 크기가 줄어들면 확실한 특징만 남게 되는데, 이를 통해 최적의 인식 결과를 얻을 수 있다.

2) 엣지 컴퓨팅(Edge Computing): 생성된 데이터를 중앙의 대규모 서버로 전송하지 않고 데이터가 생성된 기기 자체에서 처리하거나 데이터가 발생한 곳과 가까운 소규모 서버로 전송해 처리하는 컴퓨팅 방식을 말한다.
3) 합성곱 신경망(Convolution Neural Net): 행렬로 표현된 필터 각 요소가 데이터 처리에 적합하게 자동으로 학습되도록 하는 기법을 말한다.
4) 영상 분류(Image Classification): 이미지나 영상 속 대상이 어떤 범주에 속하는지 구분하는 작업을 말한다.
5) 객체 탐지(Object Detection): 이미지나 동영상에서 의미 있는 객체(object)의 위치를 정확하게 찾아내는 작업을 말한다.

AI와 개인정보보호

▲Amazon Alexa(왼쪽)와 SK텔레콤 NUGU(오른쪽)

아마존(Amazon)의 ‘알렉사(Alexa)’, SK텔레콤의 ‘NUGU’ 등 대화형 서비스 역시 AI 응용 분야 중 하나로 꼽힌다. 하지만 마이크 입력을 통해 집안의 대화가 끊임없이 노출되는 방식을 사용하는 지금의 대화형 서비스는 단순한 오락용 서비스 이상으로 발전되기 힘들다. 더 다양한 응용 분야에서 활용하기 위해서는 먼저 개인정보보호 문제를 해결해야 하며, 서비스 제공 기업들 역시 이를 인지하고 문제 해결을 위해 노력을 경주하고 있다.

개인정보보호 문제 해결 방안으로 최근 주목받고 있는 기술은 ‘동형 암호화(Homomorphic Encryption)’다. 동형 암호화는 사용자의 음성 또는 의료 데이터와 같은 민감 정보들을 있는 그대로 전송하지 않고, 사용자만이 풀 수 있는 암호문(Ciphertext)으로 변환해 전송하는 기술이다. 데이터를 처리할 때도 암호화된 상태로 곱셈, 덧셈 등 필요한 연산이 이뤄지며, 그 결과를 다시 사용자에게 암호화된 상태로 보내면 사용자가 이를 해독(Decrypt)해 결과를 확인한다. 따라서 사용자 이외에는 아무도 암호화 이전의 데이터를 알 수 없다.

이 같은 기술을 구현하려면 일반적인 데이터를 처리하는 심층 신경망(Deep Neural Network, DNN) 서비스에 비해 적게는 수천 배, 많게는 수만 배에 달하는 계산량이 필요하다. 이에 따라 특별히 설계한 동형 가속기(Homomorphic Accelerator)로 연산 성능을 획기적으로 높여 서비스 시간을 줄이는 것이 앞으로의 주요한 연구 과제가 될 것이다.

AI 칩과 메모리 반도체

대규모 DNN에서는 가중치(Weight)⁶⁾의 수가 늘어 프로세서 내부에 모든 가중치를 담을 수 없다. 이에 외부의 대용량 DRAM에 저장된 가중치를 필요할 때마다 읽어와 프로세서로 가져와야 한다.

이때 가져온 가중치를 한 번만 쓰고 다시 쓰지 못하면, 에너지와 시간을 소모하며 애써 가지고 온 정보가 재활용되지 못하고 버려지게 된다. 모든 가중치가 프로세서 안에 저장돼 활용되는 경우와 비교할 때, 많은 시간과 에너지가 추가로 소모돼 극히 비효율적이다.

따라서 대규모 DNN에서 막대한 수의 가중치를 활용해 많은 양의 데이터를 처리해야 하는 경우에는 병렬 처리와 함께/혹은 한 번에 같은 가중치를 여러 번 사용하는 배치(Batch)⁷⁾ 방식을 활용해야 한다. 즉, DRAM이 장착된 프로세서를 여러 개 병렬로 구성하고 이를 서로 연결한 뒤, 가중치나 중간 데이터를 여러 개의 DRAM에 분산 저장하고 재사용하는 방식으로 연산을 수행해야 한다는 의미다. 이런 구조에서는 프로세서 간 고속 연결이 필수적이다. 이런 방식은 모든 프로세서가 하나의 통로를 통해 연결되는 방식에 비해 더 효율적이며, 최대의 성능을 끌어낼 수 있다.

6) 가중치(Weight): 평균치를 산출할 때 각 개별값에 부여되는 중요도를 말한다.
7) 배치(Batch): 처리해야 할 데이터를 일정 기간 모았다가 한 번에 처리하는 데이터 처리 방식을 말한다.

AI 칩의 연결구조

프로세서들을 상호 접속(Interconnection)⁸⁾ 형태로 대량으로 연결할 때 문제가 되는 것은 대역폭(Bandwidth)과 지연시간(Latency)이다. N개의 가속기(Accelerator)를 병렬로 연결해 N배의 성능을 내고 싶어도, 상호 접속된 연결부의 대역폭에는 한계가 있어 지연시간이 발생하고, 이로 인해 기대한 만큼의 성능을 얻지 못하기 때문이다. 이에 DNN의 크기와 성능은 대역폭과 지연시간을 바탕으로 결정된다.

이러한 성능의 확장성(Scalability)을 효율적으로 제공하기 위해서는 각 프로세서 사이의 연결 구조가 중요하다.

▲NVIDIA’s GPU Accelerator A100

NVIDIA A100 GPU에서는 ‘NVLink 3.0’이 그 역할을 담당하고 있다. 이 GPU칩에는 12개의 NVLink 채널이 있고 각각 50GBps⁹⁾의 대역폭을 제공한다. 4개의 GPU를 서로 연결하는 경우 각 GPU당 4개 채널을 사용해 직접 연결할 수 있지만, 16개를 연결하는 경우에는 외부에 상호 연결을 전담하는 NVSwitch를 사용해야 한다.

Google TPU v2는 496GBps의 총 대역폭(Aggregate Bandwidth)¹⁰⁾을 가진 ICI(Inter-Core Interconnect)¹¹⁾를 활용해, 2D Torus¹²⁾ 구조로 서로 연결할 수 있도록 설계돼 있다.

이렇듯 각 프로세서를 연결하는 방법은 전체 시스템에 큰 영향을 미친다. 예를 들어 메시(Mesh)¹³⁾ 나 Torus 구조로 연결하게 되면 각 칩 간의 물리적 연결이 단순해 구성이 쉽지만, 멀리 연결된 노드(Node)¹⁴⁾를 여러 프로세서를 거쳐 연결해야 해 그 거리만큼 지연시간이 증가한다.

가장 극단적인 해결책은 모든 프로세서를 1:1로 연결하는 클리크(Clique) 구조를 채택하는 것이다. 하지만 칩의 핀(Pin)¹⁵⁾ 수가 프로세서 개수만큼 급격하게 증가하고 인쇄회로기판(Printed Circuit Board, PCB) 상의 정체(Congestion)가 허용할 수 없는 범위를 넘어, 실제 설계에서는 최대 4개의 프로세서밖에 연결할 수 없다.

이로 인해 일반적으로는 NVSwitch와 같은 크로스바 스위치(Crossbar Switch)¹⁶⁾를 이용하는 매력적인 방법이 활용된다. 하지만 이 역시 스위치에 모든 연결이 수렴돼, 연결하려는 프로세서가 많으면 스위치에 신호선이 몰려 PCB 상의 레이아웃을 잡기가 어려워진다.

가장 좋은 방법은 전체 네트워크를 2진 트리(Binary Tree)¹⁷⁾로 구성하는 방법이다. 이 경우 최말단에 프로세서를 연결하고 최상단에 가장 많은 대역폭을 할당해야 하므로, 팻 트리(Fat Tree)¹⁸⁾ 형태로 구성하는 것이 확장성과 함께 최고의 성능을 발휘하기에 가장 이상적이다.

8) 상호 접속(Interconnection): 병렬 처리를 위한 컴퓨터 구조에서 복수 개의 프로세서와 기억 장치 모듈 간에 데이터 및 제어 신호를 전달하기 위한 연결 구조를 말한다.
9) GBps: 초당 얼마나 많은 데이터를 전송할 수 있는지를 나타내는 단위. 1GBps는 1초에 대략 10억 bit의 데이터를 전송할 수 있음을 의미한다.
10) 총 대역폭(Aggregate Bandwidth): 여러 개의 통신 채널이 병렬로 연결될 때 개별 채널들의 대역폭을 다 합한 것을 가리킨다.
11) ICI(Inter-Core Interconnect): 코어 간 연결선을 가리킨다.
12) 2D Torus: 행과 열의 노드들은 기본적으로 그물망 구조로 연결되며 같은 행과 열의 노드들은 별도의 링으로 한 번 더 접속한다.
13) 메시(Mesh): 노드들을 2차원 배열로 연결하여 각 노드가 4개의 주변 노드들과 직접 연결되는 그물망 구조를 말한다.
14)노드(Node): 네트워크상 연결점 또는 종점을 뜻한다.
15) 핀(Pin): 부품과 부품을 고정하는 기계요소를 말한다.
16) 크로스바 스위치(Crossbar Switch): 세로 및 가로로 교차하는 여러 개의 신호선의 교차점에서 접점을 여닫으며 접속 여부를 결정하도록 하는 스위치를 말한다.
17) 2진 트리(Binary Tree): 하나의 노드에 두 개의 노드가 연결되고 연결된 노드에 계속 두 개씩 노드가 연결되며 아래로 확장되는 크리스마스트리 형태의 연결 구조를 말한다.
18) 팻 트리(Fat Tree): 모든 층위가 연결된 노드 수에 상관없이 동일한 대역폭을 가진 형태의 2진 트리 구조. 이러한 조건을 만족하려면 노드 수가 적은 최상단의 연결부에 할당된 대역폭을 최하단으로 내려갈수록 노드 수만큼 나눠 배분해야 한다.

뉴로모픽 방식의 AI 칩

DNN을 가속하는 클라우드 서버용 프로세서는 모든 데이터의 표현과 처리 방식이 디지털로 이뤄져 있으며, 연산은 하드웨어의 바탕 위에서 소프트웨어로 시뮬레이션하는 방식으로 진행된다. 최근에는 이러한 시뮬레이션 방식과 달리 생명체의 신경망 회로와 그 신호를 그대로 아날로그 전자 회로로 직접 가져와 동일하게 처리하는 뉴로모픽 AI 칩도 활발히 연구되고 있다.

뉴로모픽 방식을 활용하는 실제 응용 분야에서는 원래의 데이터 표현이 아날로그 방식을 따르므로 한 개의 신호는 한 개의 노드에 표현된다. 또한 연결 상태는 소프트웨어로 결정되지 않고 하드웨어로 연결되어 있으며, 가중치는 아날로그 형태의 고정된 상태로 저장되게 된다. 이러한 구조는 매우 적은 에너지로 한 번에 많은 정보를 처리할 수 있다는 장점이 있다.

뉴로모픽 AI 칩은 구조가 고정돼 있어 ‘프로그램화할 수 있는 가능성(Programmability)’은 낮지만, 규모가 작은 특정 엣지 응용 분야에서는 장점이 크다. 실제로 뉴로모픽 프로세서는 높은 에너지 효율을 발휘해, 사물인터넷(Internet of Things, IoT)에서 사용하는 센서의 AI 신호 처리나 대량의 영상 입력 데이터를 고정된 가중치의 CNN으로 처리해야 하는 영상 분류와 같은 응용 분야에 유용하다.

하지만 가중치가 고정돼 있어 지속적인 학습이 필요한 응용 분야에는 사용되기 어려울 것으로 예상된다. 또한 구조의 한계로 여러 개의 칩을 동시에 연결하는 병행성(Parallelism)¹⁹⁾을 활용하기도 어렵다. 이에 따라 실제 응용 분야는 엣지 컴퓨팅 분야에 한정될 것으로 전망된다.

뉴로모픽 구조를 IBM의 ‘트루노스(TrueNorth)’와 같이 아날로그 형태가 아닌 디지털 형태로 구현하는 것도 가능하다. 하지만 확장성이 좋지 않은 것으로 알려져 있어 유용한 응용 사례를 찾기는 어렵다.

19) 병행성(Parallelism): 컴퓨터 시스템의 여러 부분이 동시에 작동하거나 여러 컴퓨터 시스템이 동시에 작동하는 것을 의미한다.

AI 칩 기술의 현주소

사용자가 생성하는 막대한 데이터를 처리하는 메타(Meta, 구 페이스북)에서는 인간과 대화할 수 있는 AI 비서를 구현하기 위해 세상에 대한 기본 지식과 상식을 가진 특화된 AI 칩을 설계하고 있다. 또한 페이스북(Facebook)에 게재되는 수많은 영상의 게재 허용 여부를 판정하기 위한 AI 칩도 자체 개발하고 있다.

이커머스(E-commerce)와 클라우드 서비스에 주력하고 있는 아마존에서도 AI 비서 ‘알렉사’ 구현을 위해 ‘인퍼런시아(Inferentia)’라는 AI 가속기를 자체 개발해 사용 중이다. 이 가속기는 음성 신호를 인식하는 목적으로 사용된다. 클라우드 서비스를 제공하는 AWS는 인퍼런시아 칩을 사용하는 기반(Infrastructure)을 갖추고, 구글(Google)의 TPU처럼 클라우드 서비스 사용자에게 딥 러닝 워크로드(Deep-learning Workload)를 가속할 수 있는 기능을 서비스하고 있다.

마이크로소프트(Microsoft)는 현재뿐만 아니라 미래의 응용 분야에도 최적화된 AI 칩을 만들기 위해 FPGA(Field Programmable Gate Array)²⁰⁾를 데이터 센터에 탑재하고 응용 알고리즘에 따라 그 정밀도(Precision)와 심층 신경망 구조를 재구성(Reconfigure)하는 방식을 시도하고 있다.

하지만 이 방식은 최적의 구조를 찾아냈다 하더라도 그 구조와 논리 회로로 재구성하기 위해 큰 비용이 소요된다. 결과적으로 특정 목적을 위해 특별히 설계된 ASIC(Application Specific Integrated Circuit)²¹⁾보다는 에너지와 성능 면에서 크게 불리할 수밖에 없어, 실제 이익이 있을지 확실하지 않다.

또한 한정된 응용 분야에 특화되지 않고 다양한 용도로 사용할 수 있는 가속기를 개발해 엔비디아(NVIDIA)에 대항하려는 여러 팹리스(Fab-less) 스타트업들도 등장하고 있다. 이미 세레브라스(Cerebras Systems), 그래프코어(Graphcore), 그로크(Groq) 등 많은 회사가 시장에서 치열하게 경쟁하고 있다.

▲SK텔레콤의 AI반도체 SAPEON X220

국내에서는 SK하이닉스가 올해 초 SK텔레콤에서 분사한 AI 반도체 전문 기업 사피온(SAPEON)과 협력해 AI 반도체 ‘사피온’을 개발하고, 이를 데이터 센터에 사용할 예정이다. 더 나아가 PIM 기술이 적용된 SK하이닉스의 반도체(GDDR6-AiM)와 ‘사피온’이 결합된 기술도 선보일 계획이다. 또한 퓨리오사 AI(Furiosa AI)에서는 ‘워보이(Warboy)’를 개발해 상업화하고 있다.

이렇게 개발된 인공지능 하드웨어는 구동하는 소프트웨어가 얼마나 최적화돼 있는지에 따라 그 성능이 크게 좌우된다. 수천, 수만 개의 연산 회로를 시스톨릭 배열(Systolic Array)²²⁾을 통해 동시에 구동하고 그 결과를 효율적으로 취합하는 일은 고도의 계산에 따라 조직화(Coordination)하는 과정이 필요한 작업이다. 특히 제작된 AI 칩에 있는 수많은 연산 회로가 쉬지 않고 번갈아 동작하도록 데이터의 공급 순서를 정하고 계산 결과를 다음 단계로 보내는 일은 특화된 저장장치(Library)를 통해 이뤄져야 해, 효율적인 저장장치와 컴파일러(Compiler)²³⁾를 개발하는 것이 하드웨어 설계 못지않게 중요하다.

엔비디아의 GPU도 그래픽 엔진에서 출발했다. 하지만 쿠다(Compute Unified Device Architecture, CUDA)²⁴⁾라는 개발 환경을 통해 사용자가 쉽게 프로그램을 작성하고 GPU 위에서 효율적으로 작업을 수행할 수 있도록 해, AI 관련 커뮤니티에서 널리 사용될 수 있었다. 또한 구글에서는 자체 TPU를 활용하는 소프트웨어 개발을 돕기 위해 ‘텐서플로(TensorFlow)’라는 개발 환경을 제공하고 사용자가 더 쉽게 TPU를 활용할 수 있도록 지원하고 있다. 앞으로도 이러한 개발 환경이 더욱 다양하게 제공돼야 AI 칩의 활용도가 점점 더 높아질 것이다.

20) FPGA(Field Programmable Gate Array): 회로 변경이 불가능한 일반 반도체와 달리 용도에 맞게 회로를 다시 새겨넣을 수 있어 프로그램이 가능한 비메모리 반도체를 말한다.
21) ASIC(Application Specific Integrated Circuit): 특정 목적으로 설계된 비메모리 반도체를 의미한다.
22) 시스톨릭 배열(Systolic Array): 같은 기능을 가진 셀로 연결망을 구성해 전체적인 동기 신호에 맞춰 하나의 연산을 수행할 수 있도록 설계된 특수한 처리장치를 뜻한다.
23) 컴파일러(Compiler): 고급 언어로 쓰인 프로그램을 컴퓨터에서 즉시 실행될 수 있는 형태의 목적 프로그램으로 변환해주는 프로그램을 가리킨다.
24) 쿠다(Compute Unified Device Architecture, CUDA): 엔비디아에서 개발한 기술로 그래픽 처리 장치(GPU)에서 수행하는 (병렬 처리) 알고리즘을 C 프로그래밍 언어를 비롯한 산업 표준 언어를 사용하여 작성할 수 있도록 하는 GPGPU 기술을 말한다.

AI 칩과 전력소모

앞으로 AI 서비스는 서비스 질의 향상과 함께 전력소모를 절감하는 방향으로 전개될 것이다. 이를 위해 AI 칩 자체의 전력소모를 줄이려는 노력과 더불어 이를 위한 DNN 구조의 개발도 가속될 것으로 예상된다.

실제로 이미지넷(ImageNet)에서 오류(Error) 확률을 5% 이내로 줄이기 위해서는 1019의 부동소수점 연산이 필요하다고 알려져 있으며, 이는 뉴욕 시민이 한 달 동안 사용하는 전력의 양과 같다. 2016년 이세돌 9단과의 대국에 사용된 ‘알파고(AlphaGo)’의 경우 바둑을 두기 위한 인터페이스에 1,202개의 CPU와 176개의 GPU가 사용됐다. 이때 소모한 전력은 약 1MW로 이는 인간 두뇌의 전력 소모량인 20W와 비교하면 엄청나게 큰 차이라 볼 수 있다.

이후 개발된 ‘알파고 제로(AlphaGo Zero)’는 단 4개의 TPU를 사용하는 ‘Re-enforcement Learning’ 기법을 사용해 겨우 72시간의 학습 후 AlphaGo의 성능을 능가했다. 이는 신경망의 구조와 학습 방법에 따라 전력소모를 얼마든지 줄일 수 있음을 보여주는 사례로, 에너지 절약형 DNN 구조를 계속 연구·개발할 필요가 있다.

AI 반도체 시장의 미래

AI의 응용 분야가 확대되고 성과가 나타나면서 관련 시장 규모도 크게 확대될 것으로 전망된다. 일례로 SK하이닉스는 최근 메모리 반도체에 연산 기능을 더해 AI와 빅데이터 처리 분야에서 데이터 접근의 정체 현상을 해결할 수 있는 차세대 지능형 메모리반도체인 PIM(Processing-In-Memory) 개발 소식을 전했다. SK하이닉스는 이러한 PIM이 적용된 첫 제품으로 ‘GDDR6-AiM(Accelerator in Memory)’ 샘플을 선보였고, 지난 2월 말 미국 샌프란시스코에서 열린 반도체 분야 세계 최고 권위 학회인 ‘ISSCC 2022’에서 PIM 개발 성과를 공개했다.

▲SK하이닉스가 개발한 차세대 메모리반도체 PIM이 적용된 ‘GDDR6-AiM’

결국 AI 시장은 응용 시스템이 견인하며 계속 새로운 분야를 창출할 것이다. 또한 신경망 회로 구조에 따른 인터페이스 품질에 의해 서비스 질이 차별화될 것이다. 이러한 AI 시스템의 근간을 이루는 하드웨어인 AI 칩의 경우, 추론과 학습을 얼마나 빠르고, 정확하게, 적은 전력 소모로 구현하는지에 따라 경쟁우위가 결정될 것이다.

지금까지의 연구 결과로는 AI 칩의 전력 효율이 떨어지는 것으로 판명됐다. 따라서 향후 기능의 관점과 더불어 전력 효율의 관점에서도 새로운 신경회로망 구조를 연구할 필요가 있다. 하드웨어 측면에서 전력 효율의 핵심 요소는 메모리 접근 방식을 개선하는 것이다.

이에 따라 앞으로는 메모리 내에서 정보를 처리하는 PIM(Processing-In-Memory)과 시냅스 가중치(Synapse Weight)²⁵⁾를 아날로그 메모리에 저장해 신경회로망을 뉴로모픽으로 모사하는 방식이 중요한 연구 주제로 다뤄질 것이다.

25) 시냅스 가중치(Synapse Weight): 전기 신호를 인접한 뉴런으로 전달하는 신호 전달 능력을 의미한다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

심층 신경망부터 맞춤형 반도체까지_ AI 반도체의 현황과 미래전망

정덕균 교수 — Thu, 24 Feb 2022 20:00:00 +0000

요즘 인공지능(AI) 기술이 다양한 분야에서 활용되고 있다. 우리가 알지 못하는 사이 번호판 인식, 음성인식, 번역, 자연어 대화, 자율주행, 게임은 물론, 인간만이 가능하다고 여겨졌던 작곡, 회화 등 창의의 영역에서도 주목할만한 성과를 내고 있다. 심지어 20년 내로 인간의 지능을 뛰어넘는 AI가 등장해 인류를 위협할 것이라는 전망도 나온다.

AI가 이렇게 뛰어난 문제 해결 성과를 거두기 시작한 것은 기존의 컴퓨터에서 수행하던 것과는 전혀 다른 계산 방식인 신경망 회로(Neural Network)¹⁾덕분이다. 현재 많은 연구자들이 기존의 방법으로는 해결이 어려웠던 문제들을 신경망 회로로 풀어내려 시도하고 있고, 21세기 들어 양자 계산기(Quantum Computing)²⁾와 함께 새로운 문제해결 방식으로 크게 주목받고 있다. 전통적인 컴퓨터는 부울대수(Boolean Alegebra)³⁾에 입각한 수학적인 모델을 바탕으로, 폰 노이만(Von Neumann) 구조의 컴퓨터를 통해 고안한 알고리즘을 실행하는 방식으로 문제를 해결했다. 하지만 이제는 전혀 다른 방식으로 새로운 능력을 보여주는 AI의 시대가 도래했다.

1) 일반적으로 ‘인공 신경망(Artificial Neural Network)’으로 불리는 ‘신경망(Neural Network)’은 동물의 뇌를 구성하는 생물학적 신경 네트워크에 영감을 받아 만들어진 컴퓨팅 시스템을 의미함.
2) 양자 계산기(Quantum Computing): 계산을 수행하기 위해 중첩, 간섭 및 얽힘과 같은 양자 상태의 집합적 특성을 이용하는 계산의 한 유형.
3) 부울대수(Boolean Alegebra): 변수들의 값이 참과 거짓인 대수학의 한 분야로, 보통 각각 1과 0으로 표시됨.

‘인식 모델부터 합성곱 신경망까지’ 신경망 회로의 역사

현재 대부분의 AI 분야에서 채택하고 있는 신경망 회로가 처음 등장한 지는 오래됐지만, 실제로 응용되기 시작한 시기는 비교적 최근이다. AI 연구 초창기에는 기존의 지식들을 표현하고 나열해 해답을 제시하는 전문가 시스템(Expert System), 컴퓨터와의 대화를 가능하게 하는 스크립트 기반(Script-Based) 대화형 에이전트(Agent) 등 인간의 사고를 모사하는 여러 인공 지능 기술이 혼재해 있었다. 신경망(Neural Network)도 문제 해결 방법 중 하나로 여겨졌지만, 실용화 단계에 이르기에는 너무 원시적이고 한계가 뚜렷했다.

▲ 인공신경망의 활성화 기능을 위한 수학적 기초

신경망 회로는 생명체의 두뇌가 작동하는 원리를 본 따 만들어진 계산 방식이다. 신경망이 신경세포(Neuron)와 신경세포 간의 시냅스(Synapse)로 연결돼 있다는 사실이 신경해부학적으로 밝혀진 이후, 이 동작에 대한 수학적인 모델이 1943년 워렌 맥컬로치(Warren McCulloch)와 월터 피츠(Walter Pitts)에 의해 확립됐다. 이 모델은 ‘퍼셉트론 모델(Perceptron Model)’이라고 불리며, 뇌를 구성하는 신경세포의 동작을 모사해 다양한 논리적인 연산을 할 수 있음을 보여줬다.

그러나 1969년 저명한 수학자인 마빈 민스키(Marvin Minsky)와 시모어 페퍼트(Seymour Papert)가 ‘퍼셉트론 모델은 선형 함수 정도의 문제만 풀 수 있을 뿐, 단순한 배타적 논리합(XOR) 계산⁴⁾도 불가능하다’고 폄하한 이후에는 관심 밖으로 밀려났다. 또한 신경망 계산의 핵심을 이루는 시냅스 가중치(Synapse Weight)⁵⁾를 학습해 결정하는 방식도 어려워 실용화되지 못하고 있었다.

4) 배타적 논리합(XOR, exclusive OR) 계산: 두 개의 입력값이 서로 다를 때 결과값을 ‘참(True)’으로 도출하는 계산.
5) 시냅스 가중치(Synapse Weight): 전기 신호를 인접한 뉴런으로 전달하는 신호 전달 능력.

▲ 신경망 회로

그러던 중 2010년 토론토 대학교의 제프리 힌턴(Geoffrey Hinton) 교수가 ‘ReLU(Rectified Linear Unit)’라고 명명한 활성화 함수(Activation Function)를 채택한 것이 신경망 회로에 대한 연구에 또 한 번의 전기를 마련했다. ReLU를 활용해 시냅스 가중치가 멀티 레이어를 뚫을 때, 즉 출력에서 입력 방향으로 정보를 역전파(Back Propagation)할 때 학습의 정확도를 높일 수 있다⁶⁾는 단순하지만 획기적인 방법을 제시한 것.

힌턴 교수의 연구 그룹은 2012년 컴퓨터 비전(Computer Vision)⁷⁾ 분야에서 가장 어려운 문제로 꼽히는 이미지 분류에 심층 신경망(Deep Neural Network, DNN)의 학습 방법을 적용한 ‘알렉스넷(AlexNet)’을 발표했다. 알렉스넷은 고양이의 눈이 망막에 맺힌 이미지를 처리하는 방식을 모사해 합성곱 신경망(Convolutional Neural Net, CNN) 구조를 도입했고, 그 결과 기존 기술의 한계를 크게 뛰어넘어 사람의 이미지 분석 능력에 필적하는 성능을 낼 수 있었다.

심층 신경망은 보통의 신경망이 4-5개 정도의 층(Layer)을 가지는 데 비해 10개 이상의 은닉층(Hidden Layer)을 가진 깊은 수직 구조로 이루어져 있다. 이 과정에 필요한 계산량을 기존의 컴퓨터로 감당하기에는 너무 많은 시간이 소요돼, 실용화가 어려웠다. 그러나 엔비디아(NVIDIA)가 대량 병렬 연산 기능을 가진 GPU를 활용해 기존 방법으로 해결이 어려웠던 문제에 대해 심층 신경망을 구성하고 신경망이 시냅스 가중치를 빠르게 학습하도록 해, 실용 가능성을 크게 높였다.

이제 심층 신경망은 다양한 응용 분야에 적용되고 있고, 많은 연구자들이 심층 신경망의 새로운 구조를 경쟁적으로 연구하고 있다. 이에 따라 AI의 문제 해결 능력도 급속도로 발전하고 있으며, 응용 분야도 확대되고 있다. 이제는 신층 신경망 구조의 AI가 어려운 문제를 해결하는 데 있어 만병통치약처럼 여겨지기 시작했다.

6) 역전파 알고리즘(Back Propagation Algorithm): 다층 구조를 가진 신경망의 머신 러닝(Machine Learning)에 활용되는 통계적 기법 중 하나로, 예측값과 실제값의 차이인 오차를 계산해 이를 다시 반영해 가중치를 다시 설정하는 방식의 학습 방식을 의미함.
7) 컴퓨터 비전(Computer Vision): 컴퓨터를 활용해 인간의 시각적인 인식 능력을 재연하는 기술 분야.

인간의 능력을 넘어서기 위해, 차세대 AI 반도체의 미래

이렇게 심층 신경망이 이론적인 기초를 넘어 응용에 이를 수 있었던 것은 GPU로 대표되는 하드웨어의 데이터 처리 성능이 발전한 덕분이다. 방대한 양의 데이터를 빠르게 처리할 수 있는 GPU가 등장하지 않았다면, AI 기술의 발전은 지금보다 훨씬 늦어졌을 것이다. 궁극적으로 인간의 능력을 뛰어넘는 AI를 만들기 위해서는 당연히 지금보다 훨씬 더 높은 컴퓨팅 성능(Computing Power)이 필요하다. 그리고 이를 구현하기 위해서는 현재의 GPU 성능을 훨씬 능가하는 차세대 AI 반도체가 필요하다.

인간의 신경세포 개수는 약 850억 개 정도로 알려져 있고, 이들 사이를 연결하는 시냅스의 개수는 신경세포 개수의 약 1,000~1만 배에 달한다. 따라서 사람의 두뇌를 모사하기 위해서는 85조에서 850조 개 정도의 시냅스 가중치와 이 값을 저장할 수 있는 대용량 저장장치가 필요하다. 이처럼 방대한 규모의 계산은 현재의 반도체 기술 수준으로는 감당하기 어렵지만, 전문적으로 설계된 AI 반도체가 등장하면 감당할 수 있을 것으로 예상된다.

AI 기술의 응용 분야가 지속적으로 확대되고 있는 만큼, AI 반도체의 성능은 급격히 개선되고 관련 시장도 폭발적으로 성장할 것이다. 기업들의 투자 규모 역시 2024년 약 52조 원 수준에서 2030년까지 약 140조 원으로 크게 확대될 것으로 전망된다.

AI 반도체는 응용 분야에 따라 크게 중앙 서버에서 데이터를 처리하는 클라우드 서비스용 반도체와 네트워크 말단인 기기에서 데이터를 처리하는 엣지 컴퓨팅(Edge Computing)용 반도체로 구분할 수 있다. 각각 요구되는 특성은 매우 다르지만 시장의 크기는 서로 비슷할 것으로 예상된다.

또한 AI 반도체는 기능에 따라 크게 2가지 전문 분야로 구분할 수 있다. 하나는 추론(Inference), 다른 하나는 학습(Training)이다. 이때, 학습 기능은 일반적으로 추론 기능을 포함한다.

추론은 이미 학습된 내용을 바탕으로 입력에 알맞은 출력을 해내는 일방향성 계산으로, 주로 8bit 이하 정밀도를 가진 행렬-벡터(Matrix-Vector) 곱셈 방식이 활용된다. 반면, 학습이 목적이라면 16~32bit 수준의 높은 정밀도가 필요하고, 신속한 학습을 위해 방대한 양의 데이터를 일괄적으로 처리할 수 있어야 한다. 이를 위해 행렬-행렬(Matrix-Matrix) 연산이 주로 사용되는데, 단순한 추론에 비해 많은 계산이 필요한 탓에 소모되는 에너지도 크다. 다행히 학습은 한 번만 수행하면 되고, 시냅스 가중치가 결정되면 그 이후에는 추론만 전문적으로 하는 저전력 AI 반도체를 대량으로 사용하게 된다.

‘더 유용하게, 더 효율적으로’ 구글, TPU로 AI 전용 반도체 시대를 열다

구글은 클라우드 서비스의 최강자인 동시에, 경쟁자들에 비해 AI 서비스를 더 효율적으로 운용할 수 있도록 하는 데 많은 관심을 갖고 있다. 특히 딥 러닝(Deep Learning)⁸⁾을 진행할 때, 데이터를 더 빠르고 경제적으로 처리하는 데 특화된 전용 프로세서(Processor)의 필요성도 인식하고 있다.

가장 현실적인 방법은 엔비디아의 GPU를 사용하는 것이지만, GPU의 본래 용도는 영상 이미지 합성이다. GPU는 광선 추적(Ray Tracing)⁹⁾ 계산을 위해 프로그램 방식의 ‘단일 명령 다중 데이터 처리 구조(Single-instruction Multiple Data Processor)’¹⁰⁾를 채택하고 있다. 하나의 프로그램 안에서 데이터를 처리할 수 있는 ‘Programmable Processor’인 만큼 고속 게임용 그래픽 처리에는 최적화돼 있지만, 딥 러닝과 같은 머신 러닝을 수행할 심층 신경망에 활용하기에는 또한 지원하는 데이터 유형이 그래픽에 맞춰져 있어 연산 방식이 다르고, 기능이 다양한 만큼 에너지 효율도 좋지 않다.

이에 구글은 AI 서비스에 특화된 자체 프로세서를 만들기 위해 지난 2013년 기업 내 ‘Processor Architecture Team’을 구성해 데이터 분석과 딥 러닝을 위한 TPU(Tensor Processing Unit) 개발에 착수했고, 2015년부터 클라우드 서비스에 활용하기 시작했다.
TPU의 자세한 기능과 구성은 베일에 싸여 있다가 2017년 공개됐는데, 이 반도체 칩 내부에는 심층 신경망의 추론 기능을 효율적으로 구현하기 위해 시냅스 가중치를 담고 있는 거대한 행렬과 각 층의 입력에 해당하는 벡터를 곱하는 기능이 장착됐다. 필요한 계산을 병렬 구조로 시간 낭비 없이 겹쳐 계산하는 ‘파이프라인’ 방식의 시스톨릭(Systolic)¹¹⁾ 구조를 채택해, 처리 성능도 크게 개선했다.

1세대 TPU는 28nm(나노미터) 공정으로 만든 주문형 반도체(Application Specific Integrated Circuit, ASIC)¹²⁾다. 인공지능이 인간을 이기기 어렵다고 여겨지던 바둑 분야에서 인간에게 승리를 거둔 AI 바둑 프로그램 ‘알파고(AlphaGo)’에도 TPU가 탑재돼 있다. 알파고는 2016년 3월 개최된 ‘Google Deepmind Challenge’에서 이세돌 9단에게 총 전적 4승 1패로 승리하며, AI의 능력이 인간의 능력을 넘어설 수 있음을 보여줬다.

8) 딥 러닝(Deep Learning): AI에 데이터를 학습시키는 머신 러닝의 한 분야로, 빅데이터를 컴퓨터가 처리할 수 있는 형태인 벡터나 그래프 등으로 표현하고 이를 학습하는 추상화 모델을 구축하는 기술 또는 시스템(알고리즘).
9) 광선 추적(Ray Tracing): 그래픽이 표시하고자 하는 사물과 주변의 광원 상태를 인지해, 광원에서 나오는 광선이 물체에 끼치는 영향(현상)을 연산(시뮬레이션)을 통해 이미지화하는 기법.
10) 단일 명령 다중 데이터 처리 구조(Single-instruction Multiple Data Processor): 하나의 명령어로 여러 데이터를 동시에 처리하는 병렬 구조의 처리장치.
11) 스톨릭(Systolic): 반도체 내부의 셀(Cell)들이 연결망(Network)을 구성해 전체적인 동기 신호에 맞춰 하나의 연산을 수행하는 구조.
12) 주문형 반도체(Application Specific Integrated Circuit): 특정 목적으로 설계된 시스템 반도체.

AI 반도체 성능 향상의 열쇠는 ‘메모리 반도체’…구글, TPU에 HBM 채택해 학습 가속화

TPU에서 Tensor는 2차 이상의 다차원 행렬(Matrix)을 지칭한다. 구글에서 개발한 1세대 TPU는 추론을 위해 제작된 AI 반도체 칩으로, 2차원의 추론 기능만 할 수 있었다. 이후 구글은 2세대 TPU를 2017년 공개했는데, 여기에는 다차원 함수를 계산하는 기능이 탑재돼 추론과 더불어 학습도 가능해졌다.

구글은 이후 2018년 3세대 TPU, 2020년 4세대 TPU를 차례로 선보였는데, 외부 메모리로는 기존의 DDR(Double Data Rate) DRAM이 아닌 2.5차원(2.5D) 시스템 구성이 가능한 차세대 고대역폭 메모리 반도체인 HBM(High-Bandwidth Memory)을 채택했다.

▲ SK하이닉스가 업계 최초로 출시한 HBM3

HBM은 기존 서버에서 주로 사용되던 DDR DRAM에서 크게 발전된 형태를 갖추고 있다. HBM은 4개 또는 8개의 DRAM 칩을 수직으로 적층해 더 많은 저장 용량을 확보했다. 또한 입출력 성능을 획기적으로 개선하기 위해 2,000개 이상의 많은 연결선을 할당했고, 이를 기존에 주로 사용하던 인쇄회로 기판(Printed Circuit Board, PCB) 대신 미세회로 기판인 ‘실리콘 인터포저(Si Interposer)’로 연결했다. 그 결과 HBM은 고성능 시스템 구성을 위한 필수 메모리 반도체로 각광받고 있다.

SK하이닉스는 현재 HBM2E 시장을 선도하고 있으며, 최근 업계 최초로 차세대 표준인 HBM3 개발에 성공하며 관련 시장의 주도권을 놓치지 않고 있다.

AI 반도체에 가장 효율적인 구조를 찾기 위해서는 시스템 운용 관련 데이터가 필요한데, 구글은 자체적으로 대규모 클라우드 서비스 센터를 운용하고 있어 정보 획득도 용이하다. AI 서비스를 효율적으로 운영하기 위한 실사용 데이터는 물론, 서비스 효율화를 가로막는 장애물이 무엇인지 파악할 수 있는 다양한 데이터를 확보할 수 있어, 이를 바탕으로 최적화된 AI Accelerator¹³⁾를 지속적으로 개발할 수 있는 체계를 갖출 수 있다. 구글은 이러한 강점을 활용해 앞으로도 다양한 응용 분야에 대응할 AI 반도체 칩을 지속적으로 선보일 전망이다.

엔비디아의 경우, ‘Programmable Processor’로의 정체성은 유지하면서도 그래픽뿐 아니라 AI Accelerator로 효율적인 새로운 GPU 모델이 계속 개발되고 있다. 구조 역시 다양한 응용 분야에 대응하기 위해 유연하게 설계돼 있다. 그러나 특정 응용 분야에 대해 최적화되어 있는 구글의 TPU에 비해서는 성능과 에너지 효율이 떨어질 수밖에 없다.

엔비디아 입장에서는 계속 경쟁력 있는 GPU를 내놓기 위해 구글을 비롯한 페이스북(Facebook), 아마존(Amazon), 마이크로소프트(Microsoft)와 같은 클라우드 서비스 운영 기업들로부터 다양한 응용 분야에서의 실사용 데이터를 비롯해 더 효율적인 운용을 위한 데이터를 수집하는 것이 중요하다. 또한 계속 변화하는 응용 분야에 대응해 경쟁력을 유지하려면 반드시 AI 반도체 칩 개발을 지속해야 한다.

13) AI Accelerator: AI를 위한 데이터 처리와 연산에 특화된 하드웨어 또는 프로세서.

맞춤형 AI 반도체 칩 제작 트렌드는 앞으로도 지속될 전망

최근 프로세서 설계와 제작은 더 이상 인텔(Intel)이나 AMD, 삼성전자 등 시스템 반도체 제조 기업만의 전유물이 아니다. 누구든 고도로 발달한 설계 자동화 도구(Design Automation Tool)를 이용해 효율적인 설계가 가능하고, 최첨단 공정을 제공하는 파운드리(Foundry, 반도체 위탁생산 업체)를 통해 자체 응용 분야에 최적화된 기능을 가진 프로세서를 맞춤형으로 제작할 수 있다.

실제로 애플(Apple)은 아이폰(iPhone)에 사용되는 모바일용 프로세서(Application Processor, AP)에 자사가 설계한 반도체 칩을 사용하는 것에서 한 걸음 더 나아갔다. PC의 CPU를 자체 설계해 인텔 칩을 사용하던 맥(Mac PC)의 성능과 에너지 효율을 크게 향상시킨 것. 애플이 설계한 ‘M1’칩의 최상위 모델인 M1Max 프로세서는 3.2GHz에서 570억 개의 트랜지스터, 10개의 코어를 갖추고 동작하며, 인텔의 최신 프로세서인 11세대 i9에 비해 성능과 에너지 효율 면에서 크게 앞선 성능을 자랑한다.

반면, 인텔의 경우 기존 프로세서와의 명령어 호환성 때문에 최적의 프로세서 구조를 채택하기 어려운 것이 단점으로 작용하고 있다. 특정 응용 분야에 최적화된 고유의 프로세서를 개발하는 추세는 앞으로도 계속될 것이며, 특히 클라우드 서비스를 운영하는 기업은 심층 신경망에 일반 프로세서를 사용하는지, 특화된 프로세서를 사용하는지에 따라 서비스의 질에서 큰 차별성이 나타날 것으로 보인다. 다만 반도체 칩을 자체적으로 설계하기에는 많은 자본과 인력이 소요되기 때문에, 그 이득이 비용을 상쇄할 수 있는 소수의 대형 클라우드 서비스 운영 기업만이 AI 반도체 칩 제작에 뛰어들 수 있을 것이다.

이러한 추세와 더불어 현재 많은 반도체 설계 전문 회사들이 GPU를 능가하는 클라우드 서비스용 범용 AI 반도체 칩을 목표로 개발을 진행하고 있다. 하지만 다양한 응용 분야에서의 실사용 데이터를 확보해야만 경쟁력 있는 AI 반도체 칩 개발이 가능한 만큼, AI 반도체 전문 팹리스(Fabless, 반도체 설계 전문 업체)들은 클라우드 서비스 운영 기업과의 공동 개발이 반드시 필요할 것이다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.