생성형AI – SK hynix Newsroom 'SK하이닉스 뉴스룸'은 SK하이닉스의 다양한 소식과 반도체 시장의 변화하는 트렌드를 전달합니다 Mon, 17 Feb 2025 08:33:13 +0000 ko-KR hourly 1 https://wordpress.org/?v=6.7.1 https://skhynix-prd-data.s3.ap-northeast-2.amazonaws.com/wp-content/uploads/2024/12/ico_favi-150x150.png 생성형AI – SK hynix Newsroom 32 32 [All Around AI 6편] 생성형 AI의 개념과 모델 /all-around-ai-6/ /all-around-ai-6/#respond Thu, 17 Oct 2024 15:00:00 +0000 http://localhost:8080/all-around-ai-6/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서는 스마트폰과 온디바이스(On-device) AI의 미래에 대해 알아보았습니다. 이번 회차에서는 AI 기술 혁신의 중심에 있는 생성형 AI의 개념과 모델에 관해 살펴보겠습니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

생성형 AI의 개념

생성형 AI는 기존 데이터의 분포를 학습하여 새로운 데이터를 생성하는 기술이다. 여기서 ‘새로운 데이터’란 학습한 데이터와 유사한 속성을 가지면서도 독창적인 결과물을 말한다. 예를 들면, 생성형 AI는 ‘한 마디의 서정적 멜로디’를 학습 데이터 삼아 ‘서정적인 곡’을 만들 수 있고, 배우의 음성을 학습하여 다른 언어로 재현할 수 있다. 이처럼 생성형 AI는 이미지, 음성, 텍스트 등 다양한 분야에서 인간의 창의성을 반영한 콘텐츠를 생성할 수 있다는 점에서 큰 잠재력을 지닌다.

생성형 모델의 학습 방식

[All Around AI 6편] 생성형 AI의 개념과 모델_그래픽_2024_01

▲ 판별 모델과 생성 모델의 학습 방식 차이. 왼쪽은 판별 모델이 조건부 확률을 통해 분류하는 방식을, 오른쪽은 생성 모델이 데이터 자체의 확률 분포를 학습하는 방식을 보여준다.

생성형 AI 모델(Generative Model)의 특징은 판별 AI 모델(Discriminative Model)과의 차이를 통해 더 명확히 이해할 수 있다. 기존 AI 모델(판별 AI 모델)은 학습 데이터를 기반으로 새로운 데이터에 대한 결과를 예측한다. 즉 조건부 분포 ?(?∣?)* 를 학습해 입력한 X가 클래스 Y에 속할 가능성을 계산하는 것이다.

* ?(?∣?): 주어진 X가 있을 때 Y가 발생할 확률

예를 들어, 고양이와 강아지 두 클래스를 분류하는 모델이 있다고 가정해 보자. 이 모델은 학습된 데이터와 라벨(Label) 간의 경계를 학습하여, 입력된 이미지 X가 고양이인지 강아지인지를 확률적으로 출력한다. 그러나 여기서 문제가 발생할 수 있다. 만약 새로운 이미지가 학습 데이터에 없던 원숭이 이미지라면, 이 모델은 여전히 그 이미지를 고양이나 강아지로 분류하려고 할 것이다. 즉 판별 AI 모델은 학습 데이터와 다른 새로운 유형의 데이터에 대해 적절한 출력물을 내지 못할 가능성을 보여준다.

반면, 생성형 AI 모델은 학습 데이터를 바탕으로 데이터 자체의 확률 분포 ?(?)*를 학습하는 데 중점을 둔다. 가령 고양이 이미지를 학습하는 생성형 AI 모델은 고양이 이미지가 가질 수 있는 다양한 특징들(예: 고양이의 생김새, 색상, 자세, 배경 등)에 대한 확률 분포를 학습하는 식이다. 특히 라벨 사용이 필수인 판별 AI 모델과 달리, 생성형 AI 모델은 라벨 없이 데이터 학습이 가능하다. 예를 들어 이미지 데이터를 학습할 때는 이미지 자체만을 사용하고, 언어 모델의 경우 텍스트만으로 학습할 수 있다. 그래서 생성형 AI 모델은 대규모 데이터를 활용한 학습이 가능하다.

* ?(?): 조건 없이 특정 데이터 X가 발생할 확률

생성형 모델은 모든 데이터가 경쟁하며 그 확률을 예측한다. 이 과정에서 학습 데이터와 크게 다르거나 새로운 유형의 데이터를 낮은 확률로 예측하게 되며, 이를 통해 이상치(Outlier) 등을 예측하는 데 사용할 수 있다.

생성형 AI의 원리

생성형 AI는 새로운 데이터를 생성하기 위해, 기존 데이터를 학습하여 데이터의 분포를 파악하는 ‘학습 단계’와 이를 기반으로 새로운 데이터를 생성하는 ‘샘플링 및 생성 단계’를 거친다. 아래에서는 몇 가지 예시를 통해 대표적인 방법을 살펴보고자 한다.

(1) 잠재 변수 모델 (Latent Variable Models)

생성형 AI 모델은 데이터를 생성할 때, ‘잠재 변수’라는 개념을 사용한다. 잠재 변수는 데이터로부터 직접적으로 관찰되지 않지만, 생성형 모델을 통해 학습할 수 있으며, 이 정보를 활용하여 새로운 데이터를 생성할 수 있다. 예를 들어 사진 속 사람의 얼굴을 생성할 때, 그 사람의 눈, 코, 입의 위치와 얼굴 모양을 결정하는 것이 바로 잠재 변수다. 즉, 잠재 변수는 복잡한 데이터 분포를 단순화하고 데이터의 구조를 이해하여 맥락과 스타일을 갖춘 새로운 데이터를 생성하는 데 중요한 역할을 한다. 다음은 잠재 변수를 활용하여 데이터를 생성하는 대표적인 모델이다.

[All Around AI 6편] 생성형 AI의 개념과 모델_그래픽_2024_02

▲ 잠재 변수를 활용하는 대표적인 모델들. x는 입력, z는 잠재 변수를 뜻한다(출처: towardsai.net)

1) Generative Adversarial Networks (GANs)

GANs는 생성기(Generator)와 판별기(Discriminator)가 경쟁적으로 학습하여 기존의 데이터와 유사한 새로운 데이터를 생성하는 모델이다. 먼저 생성기는 무작위로 선택된 잠재 변수(z)를 사용해 가짜 데이터를 생성하고, 판별기는 생성기가 만든 가짜 데이터와 실제 데이터를 구별하도록 훈련한다. 이 두 네트워크는 상호 경쟁하며 학습을 진행하고, 그 결과 생성기는 점점 더 실제 데이터와 유사한 데이터를 생성하게 된다.

 

2) Variational Autoencoders (VAEs)

VAEs는 인코더(Encoder)와 디코더(Decoder)로 구성된 모델이다. 인코더는 고차원의 입력 데이터를 저차원의 잠재 변수(z)로 변환하고, 디코더는 이 잠재 변수를 다시 원래의 고차원 데이터로 복원하여 새로운 데이터를 생성한다. 인코더는 잠재 변수의 평균과 표준 편차를 예측하며, 이를 바탕으로 잠재 변수를 정규 분포에서 샘플링하여 출력한다. 이 과정을 통해 VAEs는 데이터의 저차원 표현을 학습하게 된다.

 

3) 확산 모델 (Diffusion Model)

확산 모델은 데이터에 노이즈를 추가하고 다시 복원하는 방식으로 새로운 데이터를 생성한다. 이 과정은 순방향 확산(Forward Diffusion)과 역방향 확산(Reverse Diffusion)을 통해 이루어진다. 순방향 확산에서는 데이터를 점진적으로 노이즈화하여, 원래의 입력 데이터(x0)를 완전히 노이즈화된 상태(xT)로 변환한다. 이후 역방향 확산에서 이 노이즈화된 상태를 단계적으로 원래의 입력 데이터와 유사한 새로운 데이터로 복원한다. 이 과정은 여러 번 반복되며 특히 이미지 생성에 유리하다. 최근에는 Latent Diffusion Model(LDM)span style=”color: red;”>*처럼 확산 모델과 VAE를 결합해 고품질의 이미지를 생성하기도 한다.

* Latent Diffusion Model(LDM): 인코더를 통해 실제 픽셀 공간이 아닌 잠재 공간에서 확산 작업을 수행하여, 빠르게 학습 및 이미지를 생성하는 모델

▲ LDM을 기반으로 개발한 Stable Diffusion (출처: stability.ai )

(2) 자기회귀 모델(Autoregressive Model)

자기회귀 모델은 과거에 입력한 데이터를 기반으로 미래의 값을 예측하는 모델이다. 이 모델은 시간 이나 순서에 따라 나열된 시퀀스 데이터 간의 확률적 상관관계를 분석하여 예측을 수행한다. 현재 값이 과거 값에 의존한다고 가정하기 때문에, 날씨나 주가 예측 뿐만 아니라 텍스트 데이터 예측에도 활용될 수 있다. 예를 들어, 여러 영어 문장을 학습한 자기회귀 모델이 ‘I’ 다음에 ‘am’이 자주 오는 패턴을 발견하면, ‘I am’이라는 새로운 시퀀스를 생성할 수 있다.

자기회귀 모델은 고품질의 생성물을 출력하지만, 이전 시퀀스에 의존해 한 단계씩 순차적으로 생성하기 때문에 병렬로 출력물을 생성할 수 없다는 단점이 있다. 그리고 이로 인해 생성 속도가 느릴 수 있다.

▲ Masked Self-Attention을 이용한 자기회귀 모델 예시. 현재까지 나온 단어 ‘I am a’를 기반으로 다음에 올 단어 ‘student’를 예측한다.

1) 언어 생성을 위한 자기회귀 모델

초기 언어 생성 모델(Language Recurrent Model)은 순환 신경망(Recurrent Neural Network, RNN)을 기반으로 했다. RNN은 텍스트나 음성 같은 시퀀스 데이터를 처리하는 데 적합하며, 이전 단계의 정보를 고려해 현재 단계의 출력을 생성함으로써 데이터 간의 관계를 파악한다. 그러나 RNN 모델은 시퀀스가 길어질수록 성능이 저하되는 장기 의존성(Long-Term Dependency) 문제*를 겪는다. 이를 해결하기 위해 최근에는 트랜스포머(Transformer)*와 같은 Self-Attention* 기법이 사용되고 있다.

* 장기 의존성(Long-Term Dependency) 문제: 시퀀스가 길어질수록 과거의 정보를 점점 잊어버리는 현상. 이로 인해 모델은 긴 시퀀스에서 예측 성능이 저하되는 문제를 겪는다.
* 트랜스포머(Transformer): 자연어 처리 분야에서 처음 제안되어 챗GPT(ChatGPT)를 비롯한 거대 언어 모델(Large Language Model, LLM) 등 최신 AI 모델의 근간이 되는 딥러닝 모델이다.
* Self-Attention: 데이터의 각 요소가 다른 요소들과 얼마나 관련이 있는지를 계산하여, 문맥을 더 잘 이해하고 출력을 생성할 수 있다. 예를 들어 ‘The cat sat on the mat’에서 ‘cat’이 ‘sat’과 얼마나 관련 있는지를 계산해, 문장의 의미를 더 잘 이해하도록 돕는 식이다.

 

특히, ‘Masked Self-Attention’ 기법을 통해 미래의 시퀀스를 보지 않도록 마스킹을 적용하여, 이전 시퀀스와의 관계만을 파악해 중요한 정보에 가중치를 부여한다. 이를 통해 모델은 과거 정보만을 바탕으로 다음 출력을 생성하게 되며, 긴 시퀀스에서도 중요한 정보를 잃지 않고 처리할 수 있어 정확한 예측이 가능하다. 이 방식은 RNN이 긴 시퀀스를 처리할 때 겪는 장기 의존성 문제를 해결하는 데 효과적이다.

 

2) 이미지 생성을 위한 자기회귀 모델

이미지 생성 모델인 PixelCNN은 이미지를 순차적으로 한 픽셀씩 생성하며, 각 픽셀은 이전에 생성된 픽셀들에 따라 결정된다. PixelCNN은 합성곱 신경망(Convolutional Neural Network)을 사용하며, Masked Convolution 기법을 통해 현재 생성 중인 픽셀이 이후에 생성될 픽셀에 영향을 주지 않도록 한다. 이는 언어 모델에 사용되는 Masked Self-Attention 기법과 비슷한 원리이다. PixelCNN은 픽셀 간의 복잡한 관계를 잘 포착해 고해상도의 이미지를 생성하는 데 뛰어난 성능을 발휘한다.

 

최근에는 LlamaGen과 같은 모델이 언어 모델에서 이용되는 트랜스포머를 이용해 이미지 생성 모델을 구현했다. 텍스트의 토크나이저(Tokenizer)* 대신 새로운 이미지 토크나이저를 제시하여 디퓨전(Diffusion) 모델*에 사용되는 VAE 등의 토크나이저보다 더 좋은 품질과 효율적으로 이미지를 생성할 수 있다.

* 토크나이저(Tokenizer): 텍스트를 문장, 단어, 혹은 토큰 단위로 나누는 과정 또는 도구로 자연어 처리(NLP)에서 문맥을 이해하기 위해 필수적으로 사용한다.
* 디퓨전(Diffusion) 모델: 데이터를 점진적으로 노이즈화하고 이를 역과정으로 복원하며 학습하는 생성 모델로 이미지 생성, 복원 등에서 높은 성능을 보인다.

생성형 AI의 데이터

생성형 AI에서 사용하는 데이터는 생성 결과물의 품질을 결정하는 핵심 요소다. 생성형 모델은 웹에서 수집한 대용량 데이터를 사용해 성능을 높일 수 있다. 하지만 웹에서 얻은 데이터는 노이즈나 저작권 등의 위험 요소도 있다. 따라서 데이터의 수집, 정제, 준비 과정에서 신중한 접근이 필요하다.

(1) 데이터의 종류

1) 텍스트 데이터

위키피디아, 뉴스 기사, 문학 작품, 블로그 포스트 등 다양한 형식의 텍스트가 포함된다. GPT 같은 언어 모델은 대규모 텍스트 말뭉치(Corpus)를 학습하여 문법, 어휘, 문장 구조 등 언어의 패턴을 이해하고 학습한다.

 

2) 이미지 데이터

웹에서 수집된 사진, 그림 등 시각적 데이터를 말한다. 이미지 생성 모델은 대규모 이미지 데이터 세트를 학습하여 이미지의 패턴, 스타일, 구성을 학습한다. 이 외에도 유튜브(YouTube) 등의 플랫폼에서 비디오 데이터를 대량으로 수집하여 비디오 생성 모델을 만드는 데에 사용하기도 한다.

 

3) 멀티모달(Multi Modal) 데이터

이미지-텍스트 멀티모달 모델을 학습하기 위해서는 이미지와 해당 이미지에 대한 텍스트 데이터를 쌍으로 필요로 한다. 이러한 데이터는 웹에서 수집될 수 있지만, 노이즈가 많을 수 있다. 실제로 웹에서 수집된 데이터의 노이즈를 제거하는 것을 목표로 하는 DataComp Challenge가 NeurIPS*에서 개최된 적이 있다. 이 외에도, 비디오-텍스트 멀티모달 데이터는 유튜브 등의 영상에서 얻어진 내레이션 등이 활용되기도 한다.

* NeurIPS: 인공지능(AI), 기계 학습(ML), 신경 과학 분야의 최신 연구를 다루는 세계적인 학술 대회. 학회에서는 연구 논문 발표 외에도 다양한 워크숍과 챌린지 대회가 열리는데, DataComp Challenge와 같은 대회도 개최되어 실질적인 문제 해결을 위한 연구와 실험이 이루어진다.

(2) 데이터 수집과 정제

생성형 AI 모델의 성능은 데이터 세트의 크기가 커질수록 향상되기 때문에, 데이터를 수집하고 정제하는 방법이 매우 중요하다. 일반적으로 생성형 모델은 웹 크롤링을 통해 초기 데이터를 수집한 후, 필터링과 정제 과정을 거쳐 학습에 적합한 데이터를 확보한다. 이를 통해 고품질의 데이터 세트가 완성되며, 대표적으로 Pile, LAION 등이 있다.

1) Pile 데이터 세트

대규모 언어 모델 학습을 위해 설계된 고품질의 대규모 텍스트 데이터 세트다. Pile 데이터 세트는 최소 825GB(기가바이트)의 텍스트 데이터로 구성되어 있으며, 중복 제거, 에러를 포함한 텍스트 제거, 텍스트 길이를 이용한 필터링 등 전처리 과정을 거친다.

 

2) LAION 데이터 세트

LAION 데이터 세트는 이미지-텍스트 쌍으로 구성된 공개 데이터 세트로, 생성형 AI와 컴퓨터 비전 분야에서 널리 사용된다. LAION 데이터 세트는 이미지와 텍스트의 유사도, 이미지 해상도, 불안전한 콘텐츠 등을 필터링하여 정제된 데이터를 제공한다.

 

3) DataComp-1B 데이터 세트

DataComp-1B 데이터 세트는 1억 개의 데이터로 구성된 세트로, LAION 데이터의 노이즈를 제거하기 위해 개발되었다. ImageNet과 유사한 고품질의 이미지를 포함하며, CLIP 모델이라는 기술을 사용해 이미지-텍스트 쌍의 유사도를 평가하는 방식으로 필터링한다. DataComp는 판별 AI 모델에서 성능이 검증되었으며, 생성형 모델에도 긍정적인 영향을 줄 수 있다.

 

4) Recap-DataComp1B 데이터 세트

기존의 데이터 정제 방식은 주로 노이즈를 제거하는 것에 중점을 두어 고품질의 데이터를 확보하는 데는 한계가 있었다. 최근 제안된 Recap-DataComp1B는 Llama3 모델을 사용해 이미지를 설명하는 새로운 텍스트를 자동으로 생성한다. 즉, AI가 더 정확하게 이미지를 설명하는 고품질의 텍스트를 만들어 기존 데이터를 대체하는 방식이다.

▲ Recap-DataComp1B 데이터 예시. 웹에서 얻은 텍스트(Original) 보다 고품질의 텍스트를 생성하여 좋은 학습 데이터를 만들어 낼 수 있다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

]]>
/all-around-ai-6/feed/ 0
[All Around AI 5편] 스마트폰과 온디바이스(on-device) AI의 미래 /all-around-ai-5/ /all-around-ai-5/#respond Tue, 24 Sep 2024 15:00:00 +0000 http://localhost:8080/all-around-ai-5/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 <AAA – All Around AI>에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 두 회차에서는 머신 러닝(Machine Learning, 기계 학습)과 딥러닝(Deep Learning, 심층 학습)의 개념 및 주요 특징에 대해 알아보았습니다. 이번 회차에서는 AI 시대에 스마트폰과 온디바이스 AI의 결합이 가져올 미래의 변화에 대해 자세히 살펴보겠습니다.

 

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

휴대전화가 처음 등장했을 때는 단순히 ‘통화 기기’에 불과했다. 그러나 시간이 지나면서 다양한 기능을 탑재한 스마트폰으로 발전했고, 이제는 삶의 모든 영역을 관리하는 개인 비서로 진화하고 있다. 이 변화의 중심에는 AI 기술이 자리하고 있다. 특히 최근에 주목받고 있는 온디바이스 AI는 스마트폰의 기능을 한층 더 향상할 것으로 예상된다. 온디바이스 AI는 기존에 주로 사용되던 클라우드 서버가 아닌 스마트폰 자체에서 정보를 처리할 수 있는 기술을 말한다. 이 기술이 상용화된다면 실시간에 가까운 처리 속도, 높은 수준의 개인 정보 보호, 에너지 효율성 극대화 같은 다양한 이점을 누릴 수 있을 것으로 기대된다.

온디바이스 AI란 무엇일까?

온디바이스 AI를 이해하려면, 먼저 그 반대 개념인 클라우드 기반 AI를 알아야 한다. 대다수 일반적인 AI는 클라우드 기반으로 작동한다. 예를 들어, GPT-4, 클로드(Claude) 3.5, 코파일럿(Copilot) 같은 AI 서비스는 모두 대규모 데이터 센터에서 운영된다. 이러한 이유로 인터넷 연결이 끊기거나 클라우드 자체가 마비되면 AI를 사용할 수 없다는 큰 단점이 존재한다. 또한, 클라우드 AI는 사용자의 질문과 데이터가 모두 클라우드로 전송되기 때문에 보안 문제가 발생할 가능성이 있으며, 데이터 전송에 비용과 시간이 필요하다. 반면, 온디바이스 AI는 규모가 작아 기능이 다소 제한적일 수 있지만, 클라우드에 연결하지 않고도 바로 서비스를 이용할 수 있다. 이로 인해 앞서 언급한 불편함을 겪지 않아도 된다는 장점이 있다.

[All Around AI 5편] 스마트폰과 온디바이스(on-device) AI의 미래_이미지_AI_기타_2024_01

▲ 그림 1. 온디바이스 AI의 구성요소

온디바이스 AI는 크게 세 가지 구성 요소로 이뤄진다[그림 1 참고]. 첫 번째 구성 요소는 디바이스로, 이는 가장 기본적인 요소다. 디바이스는 스마트폰, PC/노트북, 자동차, 공장 자동화 기기 안의 IoT 디바이스, 그리고 신호등이나 주차장에 설치된 센서 등 다양한 시스템이다.

두 번째 구성 요소는 디바이스 내장 AI다. AI는 크게 전통적인 AI와 생성형 AI로 구분된다. 전통적인 AI는 주로 이미지나 영상 인식 같은 간단한 분류 작업을 수행하며, 한 가지 일만 처리하는 특성을 갖고 있다. 반면, 생성형 AI는 하나의 AI가 번역, 통역, 이미지 인식, 음성 대화 등 다양한 작업을 수행할 수 있다는 점에서 차별화된다. 최근 주목받고 있는 생성형 AI 기술 중 하나인 거대 언어 모델(LLM, Large Language Model)은 기존 AI에 비해 월등한 성능을 보여 많은 관심을 끌었다. 생성형 AI는 점점 소형화되어 이제는 스마트폰에도 탑재될 수 있게 되었으며, 이에 따라 온디바이스 AI에 대한 관심도 더욱 높아질 것으로 예상된다.

세 번째 구성 요소는 온디바이스 AI의 용도다. 모든 AI는 크게 두 가지 작업 단계를 가진다. 대량의 데이터를 학습하는 단계인 ‘학습(training)’과 학습이 완료된 모델에 실데이터를 입력해 결과를 도출하는 ‘추론(inference)’이다. 그런데 온디바이스 AI는 추론과 학습 가능성에 따라 두 가지 용도로 나뉜다. 현재까지 온디바이스 AI는 하드웨어 제약 때문에 추론만 가능했다. 그러나 앞으로 하드웨어가 발전하면, 학습이 가능한 온디바이스 AI가 등장할 것으로 예상된다. 현재 스마트폰용 생성형 AI의 크기는 작지만, 거대한 클라우드 컴퓨터에서 학습한 결과물을 활용할 수 있다. 만약 디바이스 내 반도체에서 직접 학습이 이루어진다면, 온디바이스 AI는 사용자의 데이터를 학습하고, 한 단계 더 높은 혁신적 차원에 도달할 수 있을 것이다.

위와 같은 온디바이스 AI의 세 가지 구성 요소는 서로 결합하면서 각각 독립적인 온디바이스 AI 영역을 형성한다. 이러한 조합의 경우의 수를 모두 고려했을 때, 5가지 디바이스, 2가지 AI, 2가지 용도로 총 20가지 시장이 형성될 수 있음을 알 수 있다[그림 1 참고]. 예를 들어, ‘스마트폰 – 생성형 AI – 추론형’이라는 프로세스를 구성했다면, 다음으로는 ‘스마트폰 – 생성형 AI – 학습형’과 같은 방식으로 다양한 프로세스를 만들 수 있다. 이러한 선택지의 다양성은 실제 비즈니스에 큰 파급효과를 가져올 수 있으며, 앞으로도 반도체를 포함한 AI 기술이 다양한 분야의 발전에 지대한 영향을 미칠 것으로 예상된다.

온디바이스 AI 기능의 다변화

온디바이스 AI의 등장으로, 기존 스마트폰과 전통적인 AI의 기능에 국한되었던 사용 범위가 크게 확장되고 있다. 전통적인 AI가 주로 이미지 및 영상 인식과 편집 기능을 수행했다면, 온디바이스 AI는 한 걸음 더 나아가 실시간 통역, 다양한 언어 번역, 문장 요약, 음성을 글로 변환하는 STT(Speech to Text), 글을 음성으로 변환하는 TTS(Text to Speech), 음성 및 영상 대화 등 수많은 기능을 수행할 수 있다.

온디바이스 AI의 확장 가능성은 매우 크다. 기본적으로 스마트폰은 통화, 메시지 전송, 인터넷 검색, 파일 탐색, 위치 확인 등 다양한 기능을 수행한다. 이와 함께, 스마트폰에는 사진, SNS 메시지, 문서, 이메일, 위치 정보 등 수많은 사용자 정보가 축적되어 있다. AI는 이러한 스마트폰의 기본 기능과 내부 정보를 결합해 무수히 많은 새로운 서비스를 창출할 수 있다. 예를 들어, 기존에는 이메일 전송, 카메라 사진 촬영, 번역 기능이 각각 별도로 존재했다면, 이제는 그런 기본 기능과 스마트폰의 내부 정보(수신 이메일, 갤러리 내 사진)를 이용하여 이메일을 자동으로 번역하고, 스마트폰 갤러리 사진을 선택 및 편집해 특정인에게 전송하는 서비스가 가능해졌다.

놀랍게도, 스마트폰의 기능이 점점 다양해지면서 사용자가 일일이 새로운 기능을 익히지 않아도, 질문만으로 필요한 기능을 사용하고 정보를 제공받을 수 있게 되었다. 이러한 변화는 2011년 무렵 음성 AI 비서의 등장과 함께 대중에게 인식되기 시작했다. 애플의 시리, 아마존의 알렉사, 구글의 어시스턴트, 삼성전자의 빅스비가 대표적이다. 그리고 불과 몇 년 후, 간단한 명령어를 실행하는 AI 비서를 넘어, 더욱 복잡한 질문에도 고차원적인 답변을 제공할 수 있는 Chat GPT 등의 AI 챗봇이 빠르게 상용화되기 시작했다.

그렇다면 현재 시점에는 또 어떤 변화가 일어나고 있을까? 최근에는 생성형 AI의 고유한 기능으로 주목받고 있는 AI 에이전트가 등장했다. 사용자가 질문하면, AI 에이전트가 이를 분석하고 필요한 정보를 도출해 보여준다. 예를 들어, “부산 가는 KTX 시간표를 알아봐 줘”라고 요청하면, AI가 KTX 웹 페이지와 연동하여 부산행 KTX 시간표를 보여준다. 물론 정확한 답변을 얻기 위해서는 KTX 웹페이지와 연동하여 요청된 열차 시간표 정보를 가져오는 프로그램이 미리 구축되어 있어야 하는데, 이러한 연결 프로그램을 API*라고 한다.

* API(Application Programming Interface): 애플리케이션 프로그램 인터페이스’의 줄임말. 이때 애플리케이션이란 고유한 기능을 가진 모든 소프트웨어를 뜻하며 인터페이스는 두 애플리케이션 간의 서비스 계약이라 할 수 있다.

스마트폰에는 수백 개의 앱이 설치되어 있지만, 대부분의 사용자는 필요할 때마다 사용법을 익혀가며 활용한다. 그러나 AI 에이전트가 이 수백 개의 앱과 모두 연동된다면, 사용법을 따로 배울 필요가 없어진다. 전자상거래, 중고품 판매, 주식 시황, 부동산 현황, 카카오 택시 등 자주 사용하는 앱이 없어도, AI 에이전트가 필요한 기능을 대신 수행해 줄 수 있기 때문이다. 예를 들어, 주식 거래 앱이 없어도 스마트폰에 “지금 삼성전자 주가가 얼마야?”라고 물어보면 주가를 알려주는 식이다. 실제로 이러한 개념을 스마트폰에 적용한 사례가 이미 등장했다.

[All Around AI 5편] 스마트폰과 온디바이스(on-device) AI의 미래_이미지_AI_기타_2024_02

▲ 그림 2. 래빗 R1 스마트폰

2024년 CES에서 출시되어 큰 화제를 모은 스마트폰 ‘래빗(Rabbit) R1’은 혁신적인 기능과 저렴한 가격(199달러)으로 주목받았다. 별도의 구독료가 없고, 사용법도 간단하여 오른쪽에 있는 스위치를 누르고 음성으로 명령만 하면 되는 방식이었다. 출시 당시 우버 기사를 부르는 시연을 통해 많은 이에게 혁신성을 인정받았고, 초기 반응도 매우 긍정적이어서 10만 대가 판매되었다. 그러나 큰 관심에도 ‘래빗(Rabbit) R1’은 결국 실패로 끝나고 말았다. ‘스마트폰을 대체한다’는 대대적인 마케팅과는 달리, 실제로는 제한된 기능(우버, 스포티파이, 미드저니, 도어대시 앱 기능만 지원), 빈번한 버그 발생, 복잡한 요구를 처리하지 못하는 등 문제점이 드러났기 때문이다.

‘래빗(Rabbit) R1’은 실패했어도, 그에 적용된 아이디어는 여전히 유효하다. 아무리 뛰어난 기능을 갖추고 있어도, 복잡한 메뉴를 배우고 일일이 클릭해 사용하는 데 부담을 느끼는 스마트폰 사용자들에게 편리함을 제공할 수 있다면, 매우 긍정적인 반응을 얻을 수 있다는 점을 시사한 것이다. 사용자들은 이제 스마트폰이 자신의 행동과 사용 패턴, 축적된 데이터를 분석해 제공하는 “똑똑한” 어드바이스를 기대하고 있다.

현재 ‘도이치 텔레콤’은 ‘래빗(Rabbit) R1’ 스마트폰과 유사한 ‘콘셉트 스마트폰’을 개발 중이다. 이 스마트폰은 앱을 설치할 필요 없이 AI 에이전트에 음성 명령을 내리는 것만으로 작동하는 것이 특징이다. 그러나 통신 회사에서 개발하는 제품인 만큼, 온디바이스 AI 개념보다는 철저히 클라우드 기반 AI 단말기로 설계되고 있다.

[All Around AI 5편] 스마트폰과 온디바이스(on-device) AI의 미래_이미지_AI_기타_2024_03

▲ 그림 3. MWC2024에서 선보인 도이치 텔레콤의 콘셉트 스마트폰(출처: 유튜브 @counterpointresearch)[관련영상]

온디바이스 AI 모델의 트렌드: 경량화와 하이브리드화

온디바이스 AI의 성공을 위해 가장 중요한 요소는 첫째, 성능이며, 둘째로는 AI 모델의 크기다. AI 모델의 크기가 작아질수록 연산 속도가 향상되고, 메모리 사용량이 줄어들며, 에너지 효율성도 높아지기 때문이다. 따라서 경량화는 온디바이스 AI 개발에 필수적인 요소라 할 수 있다. 그렇다면, 얼마나 경량화해야 할까?

AI 모델의 크기는 ‘모델 파라미터(Parameter)*’ 라는 단위로 구분된다. 이는 AI 모델이 보유한 지식을 저장하는 단위를 말하며, GPT-4, 클로드, 코파일럿 등의 모델은 보통 2,000억 개 이상의 파라미터를 가지고 있다. 그러나 AI 모델을 스마트폰에 탑재하려면, 모델 파라미터의 크기를 40억 개 이하로 줄여야 한다. 스마트폰에서 원활히 구동되려면 필요한 메모리의 크기가 4GB를 넘지 않아야 하기 때문이다. 현재 많은 개발사는 성능은 유지하면서도 사이즈를 줄이는 방법에 초점을 맞춰 개발을 진행하고 있다.

* 파라미터(Parameter): AI 모델이 데이터를 학습하면서 조정되는 변수로, 학습 과정에서 입력값이 결괏값으로 변환될 수 있도록 조정한다. 파라미터의 개수는 AI 모델의 성능을 좌우하며, GPT-3의 파라미터 개수는 1,750억 개로 알려졌다.

GPT-4, 클로드, 코파일럿 등과 같은 클라우드 기반 AI로부터 완전히 독립된 온디바이스 AI를 구현하는 방법은 아직 개발이 더 필요해 보인다. 현재로서는 온디바이스 AI가 하드웨어 제약을 극복하기 어렵고, 스마트폰에서 생성형 AI를 완전히 구동하는 것도 역부족이다. 예를 들어, ‘실시간 통역’ 기능조차도 실제 사용할 때 약간의 시간차가 발생한다. 이러한 문제를 해결하기 위해, 스마트폰 온디바이스 AI로 처리 불가능한 기능을 클라우드 AI에 맡기는 하이브리드 방식도 모색되고 있다. 대표적인 사례가 온디바이스 AI와 클라우드 AI의 결합을 목표로 하는 ‘애플 인텔리전스(Apple Intelligence)’다.

[All Around AI 5편] 스마트폰과 온디바이스(on-device) AI의 미래_이미지_AI_기타_2024_04

▲ 그림 4. 애플 인텔리전스

그림 4에서 왼쪽은 디바이스(스마트폰, 노트북, PC)를, 오른쪽은 애플 전용 클라우드를 나타낸다.

왼쪽은 기존 앱에 AI 기능을 추가하기 위해서 필요한 시스템 구조를 나타낸다. 애플 인텔리전스의 디바이스 부분은 의미 인덱스*와 애플 인텐트 툴박스*, 그리고 앱 사용자의 AI 요구 사항을 디바이스에서 처리해야 하는지, 클라우드 서버로 보내야 하는지 처리 방식을 결정하는 라우팅 모듈*로 구성되어 있다. 의미 인덱스는 새로운 메시지를 받거나 사진을 촬영할 때 데이터를 벡터 DB에 수집하여 사용자 활동과 행동에 대해서 검색하고 의미를 분석한다. “내가 작년에 제주도에서 OO과 찍은 사진을 골라줘”라는 질문을 던지면 이를 의미 인덱스를 통해서 검색해서 보내줄 수 있다. 인텐트 툴박스는 AI 에이전트의 인터페이스로, 앱 개발자가 앱의 핵심 기능을 알리고, 생성형 AI가 AI 에이전트를 통해서 쉽게 호출할 수 있도록 연결해 준다. 예를 들면 “아까 찾은 사진들을 OO에게 이메일로 보내줘”라고 하면, 이메일 앱을 통해서 자동으로 보내준다. 이를 통해 사용자 자연어 명령을 기존 앱과 쉽게 연동할 수 있다.

* 의미 인덱스(Semantic Index): 각 앱의 요구를 개인 컨텍스트에 연결해 준다.
* 애플 인텐트 툴박스(Apple Intents Toolbox): 인텐트를 처리하는 과정에서 시리를 비롯한 애플 인텔리전스의 기능을 활용하게 해준다.
* 라우팅 모듈: 어떤 네트워크 안에서 통신 데이터를 보낼 때 최적의 경로를 관리하고 결정한다.

반면, 오른쪽의 애플 전용 클라우드는 보안을 강화한 서버 모델로 구성되어 있으며, 사용자가 자연어로 명령을 내리면, 그 명령을 스마트폰 자체적으로 처리할지, 서버의 클라우드 AI에서 처리할지를 결정한다. 만약 스마트폰 내에서 수행하기로 결정되면, 온디바이스 AI 모델이 해당 작업을 처리하며, 필요에 따라 인텐트 툴박스를 통해 앱을 실행하는 구조로 되어 있다.

온디바이스 AI와 하드웨어의 발전 방향

온디바이스 AI는 현재 포화 상태에 이른 스마트폰과 PC 하드웨어 시장에 새로운 수요를 창출하고 있다. 온디바이스에서 생성형 AI를 실행하려면, 지금보다 훨씬 더 많은 컴퓨팅 파워가 필요하기 때문이다. 이는 단순히 메모리, CPU, GPU 성능을 향상하는 것만을 의미하지 않는다. 생성형 AI를 스마트폰과 PC에서 효과적으로 실행하려면, 물리적인 용량과 성능을 뛰어넘어 아래와 같은 온디바이스 AI의 특수한 실행 조건을 충족해야 한다.

전통적인 AI 언어 모델은 주로 RNN*과 LSTM* 알고리즘을 사용했다. 이 알고리즘들은 문장의 단어를 순차적으로 입력받아 연산하기 때문에 병렬화가 어려웠다. 그러나 Chat-GPT와 같은 LLM의 등장으로 상황이 달라졌다. LLM은 트랜스포머(Transformer) 기반으로, 거대한 벡터(Vector)를 반복해서 연산하며 높은 수준의 병렬화를 가능하게 했다. 이러한 연산 방식은 수천 개의 코어를 가진 GPU에 매우 적합하다. 하지만 벡터 연산은 메모리 사용이 빈번해지므로, GPU와 RAM 간 초고속 데이터 전송 기능이 필수적이다. 따라서 트랜스포머 기반 LLM을 효과적으로 학습하기 위해서는 HBM*과 PIM* 기술이 요구될 수밖에 없다.

* RNN(Recurrent Neural Network): 순차적으로 입력되는 데이터를 한 번에 하나씩 처리하는 방식의 순환신경망. 이전 단계의 출력을 현재 단계의 입력으로 사용해 시퀀스 정보를 기억해 과거 정보가 현재 연산에 영향을 주지만, 병렬 처리가 어려운 단점이 있다.
* LSTM(Long Short-Term Memory): RNN의 한 종류로, 긴 시퀀스 데이터를 다룰 때 발생하는 문제를 해결하기 위해 개발됐다. 중요한 정보를 오랫동안 기억하고 불필요한 정보는 버릴 수 있어 긴 문맥을 더 잘 처리할 수 있다.
* HBM(High Bandwidth Memory): 고성능 컴퓨팅에 필요한 매우 빠른 데이터 처리 속도를 제공하는 메모리 기술. 주로 GPU와 같은 고성능 프로세서에 사용되며 대규모 데이터 처리 작업 시 성능을 높여준다.
* PIM(Processor in Memory): 데이터를 저장하는 메모리 자체에서 일부 연산을 수행해, 데이터 전송 속도를 높이고 데이터 전송의 병목 현상을 줄여준다.

현재 온디바이스 AI는 주로 추론에 초점을 맞추고 있다. 추론은 병렬적인 벡터 계산으로 이루어지지만, 학습 과정에서처럼 엄청난 계산 능력이 필요하지는 않다. 또한, 추론 서비스를 항상 사용하는 것도 아니기 때문에, 필요할 때만 추론을 활용하면서 전력 소모를 최소화할 수 있는 새로운 아키텍처가 필요하다. 이 역할을 하는 것이 바로 NPU(Neural Processing Unit)다. 기존 스마트폰 AP(Application Processor)에는 이미 NPU가 SoC* 형태로 구현되어 있다. 하지만 앞으로는 계산 속도가 훨씬 더 빠르면서 전력 소모가 적은 더 강력한 NPU 기능을 가진 AP가 필요하며, 이 NPU와 연결된 좀 더 빠른 램(RAM)도 요구될 것이다.

* SoC(System on Chip): 여러 가지 기능을 하나의 칩에 통합한 기술을 의미한다. 스마트폰에서 SoC는 CPU, GPU, 메모리, NPU 등 다양한 구성 요소를 하나의 칩에 포함해, 디바이스 성능을 높이고 전력 소비를 줄이는 데 도움을 준다.

앞으로 AI 에이전트가 발전함에 따라, 사용자별 맞춤 온디바이스 AI 에이전트가 등장할 것이다. 이러한 AI 에이전트는 사용자의 행동과 관련한 정보를 지속적으로 참고하여, 개인 어드바이저(Personal Advisor)로서 점점 더 발전해 나갈 것으로 예상된다. 이와 함께 스마트폰 역시 AP가 발전하면서, 학습된 데이터를 바탕으로 개인 어드바이저 역할이 강화된 스마트폰으로 변모할 것이다. 이러한 변화는 곧 시장의 엄청난 확장을 예고하며, 이에 따라 더 큰 용량, 더 빠른 속도, 더 적은 전력 소모를 자랑하는 메모리 반도체, NPU, GPU, HBM, PIM과 같은 맞춤형 기술들이 생성형 AI 모델의 구조와 연산에 밀접하게 연관되며 더욱 발전할 것이다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

]]>
/all-around-ai-5/feed/ 0
[All Around AI 4편] 딥러닝의 이해 /all-around-ai-4/ /all-around-ai-4/#respond Tue, 27 Aug 2024 15:00:00 +0000 http://localhost:8080/all-around-ai-4/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 <AAA – All Around AI>에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서 머신러닝(Machine Learning, 기계 학습)이 기존의 규칙 기반 인공지능에 비해 가지는 강점과 차이점을 알아보았습니다. 이번에는 딥러닝(Deep Learning, 심층 학습)의 개념과 대표적인 신경망 구조 등에 대해 살펴봅니다.

 

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

딥러닝의 개념

딥러닝의_이해_머신러닝과_딥러닝의_차이

▲ 머신 러닝과 딥러닝의 차이

딥러닝은 머신 러닝의 한 분야지만, 전통적인 머신 러닝 기법들과는 접근법에서 큰 차이를 보인다. 전통적인 머신 러닝은 도메인 지식*을 활용해 데이터의 특징(Feature)을 추출하고 이를 디자인한다. 이 과정은 사람의 시행착오와 노력이 필요했다. 다만, 훈련 과정은 비교적 쉬운 작업으로 디자인한 특징들에 적용할 가중치(Weight)만 학습하면 훈련이 완료되었다.

* 도메인 지식(Domain Knowledge): 특정 분야나 문제에 대한 전문적인 지식과 이해를 의미한다. 머신 러닝에서 도메인 지식은 해당 데이터의 특징(Feature)을 이해하고, 설계하는 과정에서 중요한 역할을 한다.

이와 달리 딥러닝은 심층 신경망(Deep Neural Network, DNN)을 사용해 복잡한 데이터 특성을 스스로 학습하고 추출한다. 여러 층(Layer)으로 이루어진 심층 신경망은 이전 층의 출력을 입력으로 받아 특정한 변환을 수행한 후 이를 그 다음 층으로 전달한다. 이 변환 과정은 뉴런* 간의 연결선에 할당되는 학습 가능한 파라미터*들과 활성화 함수*로 이뤄지며, 이 파라미터 값을 적절히 설정하는 것이 학습의 핵심이다.

* 뉴런(Neuron): 입력 신호를 받아 처리하고 출력을 생성하는 기본 단위. 노드(node)라고도 한다.
* 학습 가능한 파라미터(Learnable Parameter): 뉴런 간의 연결 강도를 나타내는 값으로, 주로 가중치(weight)와 편향(Bias)이 포함된다. 이 파라미터들은 학습 과정에서 최적화 알고리즘에 의해 조정되어 모델이 주어진 데이터에 대해 최적의 예측을 할 수 있도록 한다.
* 활성화 함수(Activation Function): 입력 신호의 총합을 비선형적으로 변환하여 뉴런의 최종 출력을 결정하는 함수

물론, 딥러닝에도 단점은 있다. 첫째, 많은 파라미터와 데이터가 필요해 상당한 연산량과 시간이 소요된다. 둘째, 심층 신경망을 잘 훈련시키기 위해 필요한 하이퍼파라미터(Hyperparameter)*를 찾기 위해서는 여전히 많은 시행착오가 필요하다. 마지막으로 딥러닝 모델은 그 작동 방식이 복잡해 어떤 요소가 예측에 중요한 역할을 하는지 파악하기 어렵다. 이는 딥러닝에 대한 신뢰성 문제로 이어져 실생활에 AI 모델을 적용하는 데 여러 법적, 제도적 걸림돌을 초래하고 있다.

* 하이퍼파라미터(Hyperparameter): 학습 가능한 파라미터와는 달리 학습 과정에서 자동으로 조정되지 않고 사전에 정의되는 값

그럼에도 딥러닝은 스스로 특징을 추출하는 성능 때문에 기존의 머신 러닝 방법론에 비해 월등히 우수한 성능을 보이며, 오늘날 인공지능 방법론의 대표 주자로 자리매김했다.

심층 신경망의 구조

딥러닝에서 사용되는 심층 신경망은 크게 세 가지 주요 층으로 구성되며, 각 층의 역할과 기능은 다음과 같다.

딥러닝의_이해_심층_신경망의_구조

입력층(Input Layer)
입력층은 신경망에 데이터를 제공하는 첫 번째 층이다. 이 층은 외부로부터 데이터를 받아 신경망의 내부로 전달하는 역할을 한다. 예를 들어 이미지 처리에서는 각 픽셀의 값이 입력층으로 들어가며, 자연어 처리에서는 단어 또는 문자의 숫자화된 형태가 입력층으로 입력된다.

은닉층 (Hidden Layer)
은닉층은 데이터의 패턴이나 특징을 학습하는 층이다. 각 은닉층은 이전 층으로부터의 입력값을 받아 처리하고 다음 층으로 결과를 전달한다. 이 과정에서 각 입력값에 특정 가중치를 곱하여 중요한 특징을 더 잘 인식할 수 있게 한다. 은닉층의 수는 문제의 복잡성, 데이터의 양, 그리고 모델의 성능 요구 사항에 따라 다르게 설정된다.

출력층 (Output Layer)
출력층은 신경망의 마지막 층으로 결과나 예측을 나타낸다. 출력층에서는 가능한 답들의 확률을 계산해, 가장 높은 확률을 가진 답을 최종적으로 선택한다.
심층 신경망은 이 구조를 기본으로 다양한 모델을 개발하고 개선하며 발전해 왔다. 대표적으로 ▲모든 뉴런이 서로 연결된 기본 신경망 구조인 ‘완전 연결 신경망(Fully-Connected Network)’ ▲이미지 처리에 최적화된  ‘합성곱 신경망(Convolutional Neural Network)’ ▲문장 번역이나 음성 인식 같은 연속된 데이터 처리에 적합한 ‘순환 신경망(Recurrent Neural Network)’ ▲복잡한 이미지 분류 작업에 사용되는 ‘잔차 신경망(Residual Network)’ ▲자연어 처리 분야에서 처음 제안되어 챗GPT(ChatGPT)를 비롯한 거대 언어 모델(Large Language Model, LLM) 등 최신 AI 모델의 근간이 되는 ‘트랜스포머(Transformer)’ 등이 있다.

이와 같은 신경망 구조들은 각각의 특성에 맞춰 다양한 분야에서 활용되며, 딥러닝의 예측 성능을 높이는 데 기여하고 있다.

심층 신경망의 학습 과정

심층 신경망의 학습 과정은 크게 순전파와 역전파 과정으로 구성된다. 순전파는 입력 데이터를 신경망에 정방향으로 통과시켜 예측값을 얻는 과정이다. 즉, 입력 데이터가 신경망에 주어지면, 각 층의 뉴런이 이를 처리하여 다음 층으로 전달하고, 이 과정을 반복하여 출력층에서 최종 예측값을 생성한다.

예를 들어, 손으로 쓴 숫자를 인식하는 신경망을 구성했다고 가정해 보자. 입력층에 숫자 이미지가 제공되면, 첫 번째 은닉층은 이미지의 간단한 특징들(예: 선의 방향, 모서리)을 추출하여, 이를 다음 층으로 전달한다. 마지막 은닉층은 훨씬 더 복잡한 특징들을 결합하여 숫자를 판별하는 데 필요한 정보를 형성한다. 이렇게 순전파를 통해 최종적으로 예측 결과를 얻게 되는 것이다.

이후 이 예측값과 실제값(라벨)을 비교하여 손실 함수로 예측의 정확도를 평가한다. 손실이 크다는 것은 예측이 실제값과 많이 다르다는 뜻이다. 손실이 계산되면 역전파 과정이 시작된다. 역전파는 손실값을 최소화하기 위해 신경망의 파라미터 값을 조정하는 과정이다. 이 과정은 순전파와는 반대로, 출력층에서 입력층 방향으로 진행된다.

출력층에서 손실 함수의 변화에 따른 기울기(Gradient)를 계산하고, 이 기울기와 각 뉴런의 활성화 함수 기울기를 바탕으로 각 파라미터가 손실 함수에 미치는 영향을 평가한다. 이렇게 파라미터에 대한 손실 함수의 기울기가 계산되면, 경사 하강법* 등의 최적화 알고리즘을 사용해 파라미터 값을 손실 함수가 작아지는 방향으로 업데이트한다. 신경망은 이 과정을 여러 번 반복해 점점 더 정확한 예측을 하는 모델로 발전하게 된다.

* 경사 하강법(Gradient Descent: 비용 함수를 최소화하기 위해 기울기를 따라 매개변수를 업데이트하는 최적화 알고리즘

한편, 일반적으로 신경망의 출력 층은 마지막 은닉층 뉴런들의 출력값에 가중치(Weight)를 곱한 후 이들을 더해 예측값을 출력한다. 때문에 맨 마지막 은닉층 뉴런의 출력값은 신경망이 데이터로부터 학습하고 추출해 낸 특징으로 간주할 수 있다.

딥러닝의 역사를 바꾼 대표 사례

최근 10여 년간 딥러닝은 수많은 성공 사례를 보여주면서 인공지능의 양적/질적 성장을 주도해 왔다. 대표 사례를 몇 가지 꼽자면 아래와 같다.

1)합성곱 신경망과 이미지넷(ImageNet)

이미지 인식 분야는 딥러닝이 크게 발전시킨 분야 중 하나로, 여기에는 합성곱 신경망의 역할이 컸다. 합성곱 신경망은 이미지의 지엽적인 부분에서 패턴을 추출하는 데 특화된 구조로, 여러 합성곱 층을 쌓아 이미지의 계층적 구조를 효과적으로 파악하고 특성을 추출하는 모델을 만들 수 있다.

이러한 딥러닝 방법론의 우수성을 널리 알린 대표적인 사례는 2012년의 이미지넷 대규모 시각 인식 챌린지(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)이다. 이 대회에서 토론토 대학의 제프리 힌튼(Geoffrey E. Hinton) 교수의 연구팀이 개발한 AlexNet이라는 딥러닝 모델은 기존의 전통적인 기계 학습 방법론들을 크게 능가하는 성능을 보이며 우승을 차지했다. 당시 AlexNet의 에러율은 15.3%로, 2등을 차지한 모델인 26.2%에 비교하면 매우 낮은 수치다. 이러한 성과는 컴퓨터 비전 분야에 큰 충격을 안겨주었고, 이후 딥러닝은 컴퓨터 비전의 다양한 분야에서 뛰어난 성능을 보여주고 있다.

2) 알파고, 바둑을 마스터하다

바둑은 경우의 수가 워낙 많아 AI가 정복하기 불가능한 게임이라 여겨왔다. 그러나 구글 딥마인드에서 개발한 알파고는 이런 믿음을 완전히 깨부수며 AI의 능력에 대한 대중의 관심을 불러일으켰다.

2016년, 알파고는 프로바둑기사 이세돌 선수와 대결을 펼쳤다. 실제 대국이 이뤄지기 전까지는 인공지능이 정상의 프로기사를 넘어서기에는 아직 부족하다는 예상이 지배적이었으나, 실제 이뤄진 대국에서는 4:1로 알파고가 이세돌 선수를 압도하며 세계를 놀라게 했다. 이처럼 놀라운 성능의 바둑 AI를 만들기 위한 딥마인드의 접근법은 딥러닝, 강화 학습 그리고 확률적 탐색 알고리즘을 접목시키는 것이었다. 인간의 기보를 통해 바둑판의 돌의 배열 상태와 수에 대한 ‘점수’를 심층 신경망으로 학습하고, 강화 학습을 사용해 스스로 대국을 반복하며 전략을 정교하게 다듬어 뛰어난 실력을 연마할 수 있었다.

3) 또 다른 딥마인드의 혁신, 알파폴드

▲ 알파폴드는 오랫동안 난제로 여겨져온 ‘단백질 접힘 문제’를 AI라는 새로운 접근법을 통해 효율적으로 풀어가고 있다.

알파고 이후 구글 딥마인드가 2018년에 처음 발표한 알파폴드(AlphaFold)는 단백질의 3차원 구조를 높은 정확도로 예측할 수 있는 딥러닝 모델이다. 단백질의 접힘 구조는 신약 개발 등 의학, 생명과학 연구에서 중요한 역할을 하지만, 구조를 파악하는 데는 비용과 시간이 많이 소모된다. 알파폴드는 이 문제를 아미노산의 배열에서 3차원 구조를 예측할 수 있는 신경망을 훈련시키는 방법으로 접근했고, 단백질 구조 예측(Critical Assessment of Protein Structure Prediction, CASP) 대회에서 기존에 방법을 능가하는 성능으로 1등을 차지했다. 이후 딥마인드는 현재까지도 꾸준히 알파폴드를 업데이트하며 신약 개발에 더욱 효과적으로 활용될 수 있도록 개선하고 있다.

4) 점점 다가오는 완전자율주행시대

▲ 웨이모 드라이버가 소개하는 완전 자율주행 기술

딥러닝은 꿈으로만 여겨져 왔던 완전 자율주행을 현실로 만드는 데 핵심적인 역할을 하고 있다. 신경망을 사용해 카메라, 라이다(LiDAR), 레이더, GPS 등 다양한 센서로부터의 입력을 처리하고, 강화 학습 알고리즘을 사용해 차량의 조작 방법을 결정하는 것이다. 알파벳이 소유한 웨이모는 이미 미국 일부 지역에서 운전기사 없이 완전히 자동으로 운영되는 택시를 운행하고 있다.

또 테슬라는 오토파일럿 시스템을 중심으로 한 첨단 운전자 보조 시스템(Advanced Driver Assistance System, ADAS)을 제공하며 궁극적으로 운전자 없는 완전 자율 주행을 목표로 하고 있다. 테슬라는 라이다와 레이더 센서에 대한 의존도를 최소화하고, 차량에 장착된 다수의 카메라로 주변을 인식해 판단한다. 테슬라는 방대한 실제 주행 데이터를 활용하여 지속적으로 모델을 개선하고 있다. 이러한 기술적 진보는 완전 자율주행 시대에 대한 기대감을 불러왔지만, 기술의 안정성에 대한 법적·제도적 승인 등 여전히 극복해야 할 장애물은 남아 있다.

5) GPT 시리즈의 등장

오픈AI(OpenAI)가 개발한 GPT(Generative Pre-trained Transformer) 시리즈는 트랜스포머 구조를 기반으로 한 대형 언어 모델(Large Language Model, LLM)의 일종이다. 이 대형 언어 모델이 하는 일은 생각 외로 간단한데, 주어진 맥락을 바탕으로 다음에 올 자연스러운 단어를 예측하는 것이다. 모델의 크기가 커지고 데이터가 많아질수록, 처리할 수 있는 맥락의 길이도 길어지고, 번역, 질의응답, 작문까지도 수행할 수 있다.

2022년, GPT-3.5를 기반으로 한 챗봇인 챗GPT가 발표되었고 곧 GPT-4로 업데이트 되었는데, 자연스러운 대화 기능과 작문 능력으로 사회 전반에 엄청난 충격을 주었다. 교육, 사무, 작문, 개발 등 실생활 전반에서 생산성을 비약적으로 향상시켜줄 수 있는 대형 언어 모델의 잠재성을 증명했기 때문에, 챗GPT의 성공은 인공지능 업계에 큰 변화를 불러일으켰다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

]]>
/all-around-ai-4/feed/ 0
생성형 AI기술의 확장 ‘영화와 광고 시장의 미래’ /ai-and-movie/ /ai-and-movie/#respond Tue, 06 Aug 2024 15:00:00 +0000 http://localhost:8080/ai-and-movie/ 생성형 인공지능(AI) 열풍이 영상 엔터테인먼트 산업으로 빠르게 번지고 있다. 2022년 등장한 생성형 AI는 글자와 이미지로 전 세계에 큰 반향을 일으켰다. 최근에는 광고 시장부터 막대한 자본이 들어가는 영화 시장까지 흘러 산업의 지각변동을 예고하고 있다.

미국 할리우드에서는 예전부터 영화 제작에 AI 프로그램을 적극 활용해 오고 있다. 영화 <인디아나 존스: 운명의 다이얼>에서 80세의 해리슨 포드는 35세로 완벽하게 회춘했다. 올해 11월 개봉 예정인 <히어>에서 67세의 톰 행크스는 무려 19세로 돌아간다. 과거에 다른 배역을 쓰거나 분장으로 해결했던 장면들이 AI를 활용한 디에이징(De-aging)* 기술로 구현되고 있다.

* 디에이징(De-aging): 인공지능을 기반으로 한 딥러닝 알고리즘을 활용해 과거의 사람이나 물건의 모습을 현대적으로 재현하는 데 사용

AI 활용은 광고계에서도 활발하게 적용되고 있다. 기존 타겟팅, 개인화, 최적화, 효과 측정 분야에서부터 최근 창작 분야로까지 쓰임이 확대되고 있다.

지난해 ‘KB라이프생명’은 국내 광고에서 최초로 딥러닝과 디에이징 기술을 도입해 배우 윤여정의 20대 모습을 구현했다. 마찬가지로 ‘서울우유’ 광고 속 배우 박은빈을 쏙 빼닮은 아역 모델 3명도 AI가 학습해 만들어낸 딥페이크의 결과물이다.

시장조사 업체 ‘그랜드뷰리서치’는 전 세계 미디어∙엔터테인먼트의 생성형 AI 시장 규모가 2023년 197억 5,000만 달러에서 2030년 994억 8,000만 달러로 성장할 것으로 내다봤다. 연평균 26% 이상의 성장률이다. 이에 국내외 영상 산업 전문가들은 AI가 향후 업계의 판도를 바꿀 것이라고 입을 모은다.

영화계의 뜨거운 감자 ‘AI 영화’

스튜디오 프리윌루전에서 AI로 생성한 컨셉아트 및 디자인 이미지

▲ 스튜디오 프리윌루전에서 AI로 생성한 컨셉아트 및 디자인 이미지

영화계에서도 ‘AI 영화’ 장르가 화두다. 국내외 여러 영화제에서 AI 영화를 주목하기 시작했다. 지난해, 베니스 국제영화제는 AI 기술을 활용해 만든 영화 <아그로 드리프트(AGGRO DR1FT)>를 초청해 이슈의 중심이 됐다. 올해 5월 진행된 칸 국제영화제의 필름마켓 전반을 이끈 주제 역시 AI였다. 이외에도 LA, 뉴욕, 두바이, 암스테르담 등에서 AI 영화제가 열리고 있다.

국내에서도 이같은 영화계의 새로운 흐름에 발 빠르게 움직이는 분위기다. 지난 7월에 개최한 ‘제28회 부천국제판타스틱영화제(BIFAN)’는 한국 영화제 가운데 최초로 ‘AI 영화 경쟁 부문’을 도입했다. 오는 12월에는 국내 첫 AI 영화제인 ‘부산국제인공지능영화제’가 열릴 예정이다. 생성형 AI를 잠재적 위협으로 받아들였던 문화예술계가 이를 창작 도구로 받아들이고 있는 것은 시사하는 바가 크다.

‘AI 영화’는 생성형 비디오 AI 기술 발달과 함께 급속도로 주목 받았다. 특히, 오픈AI의 ‘소라(Sora)’는 TTV(Text to Video) 모델의 게임 체인저로 등장했다. 이전 모델들이 3~4초 길이의 저화질 클립을 생성했다면, 소라는 1분 길이의 실사와 같은 고화질 비디오를 제작할 수 있다. 복잡한 장면, 다수의 캐릭터, 동적인 카메라 앵글, 사실적인 얼굴 감정 및 움직임 등의 연출도 가능하다.

TTV 업계의 선두 업체인 런웨이는 기존 ‘젠(Gen)-2’보다 성능이 향상된 ‘젠(Gen)-3’의 서비스를 시작했다.  또 다른 업체인 루마(Luma) 또한 ‘드림 머신(Dream Machine)’이라는 새로운 비디오 생성 AI 서비스를 선보이며 TTV 시장의 경쟁을 가속화하고 있다.

스토리와 메시지 갖춘 세계 최초의 AI 영화 <원 모어 펌킨> 제작 이야기

생성형 인공지능(AI)으로 만든 영화 ‘원 모어 펌킨’의 스틸컷

▲ 생성형 AI로 만든 영화 <원 모어 펌킨>의 스틸컷

스튜디오 프리윌루전은 지난 2월 아랍에미리트에서 개최된 ‘제1회 두바이 국제 AI 영화제(AIFF)’에서 영화 <원 모어 펌킨>으로 대상과 관객상을 받으며 2관왕에 올랐다. <원 모어 펌킨>은 200살이 넘도록 호박 농사를 하는 한국 노부부의 비밀에 대한 이야기를 담은 공포 영화다.

3분짜리 이 단편영화는 작년 9월, 순수 생성형 AI로만 제작됐다. 제작에 들어간 비용은 전기요금을 제외하고는 ‘0원’. 오직 AI 프로그램 툴을 사용해 3~4명이 붙어 5일 만에 완성했다. 당시 무료 오픈 소스였던 TTI(Text to Image) 모델인 ‘스테이블 디퓨전 XL(Stable Diffusion XL)’을 활용해 초기 이미지를 생성한 뒤, ITV(Image to Video) 모델인 ‘피카(Pika)’의 베타버전으로 영상을 제작했다.

<원 모어 펌킨>에는 ‘탐욕은 또 다른 탐욕을 부르고, 결국 파멸을 부른다’는 메시지가 담겨 있다. AIFF에 출품된 약 500편의 AI 영화 다수가 기술적 측면에만 매몰됐던 것에 반해, <원 모어 펌킨>은 영화 예술의 중요한 요소인 주제 의식을 놓치지 않아 높은 평가를 받았다. 그로테스크한 공포 장르를 선택한 것도 신의 한 수였다. 어딘가 불쾌하고 기괴하게 표현됐던 AI의 기술적 한계를 연출로 승화해 독특한 예술적 장점으로 풀어냈다.

AI 영화, 어떻게 만들어질까?

AI 영화는 생성형 AI 프롬프트에 감독의 생각을 입력하면 AI가 무한으로 시안을 제시한다. 감독은 그것들을 선별 및 취합해 편집 과정을 거쳐 최종 결과물을 산출한다. 마이크로소프트의 AI 플랫폼인 코파일럿(Copilot)에 간단한 줄거리를 담은 PDF 파일을 업로드하면 시놉시스, 시나리오 구조 분석은 물론 촬영 장소와 배우 캐스팅까지 추천해준다. 작가, 카메라 감독, 로케이션 디렉터, 캐스팅 디렉터의 역할을 대체한다. 간단한 줄거리까지 AI에게 맡길 수 있다.

감독이 머릿속 장면을 카메라에 완벽히 담을 때까지 반복 촬영하는 전통적인 영화 제작 방식과는 완벽히 대조된다. 이제 촬영 감독은 카메라 대신 생성형 AI로 연출을 위한 프롬프트를 입력하고, CG 작업자는 기존 CG 툴 대신 AI 툴을 활용한다. 바쁜 일정이나 건강상의 이유로 직접 출연을 할 수 없는 배우는 라이선스 된 자신의 AI 초상권을 제작사에 제공해 공백을 메울 수 있다.

AI 영화는 실사 영화와 경쟁하지 않는다. 하나의 새로운 예술 장르로 자리 잡고 있다. AI의 빠른 발전 속도를 감안하면 향후 1~2년 안에는 60분이 넘는 장편 영화 제작도 가능할 것으로 보인다. 물론 실사 영화보다 퀄리티는 떨어질 수 있다. 하지만 AI만이 보여줄 수 있는 독창적인 비주얼로 대중에게 신선한 경험을 선사할 것이다.

AI 수혜를 가장 많이 받을 시장 ‘광고’

지금 당장 AI 영화가 대중적인 콘텐츠가 되기에는 시기상조다. 일관성 유지의 어려움, 길이 제한, 세밀한 조작 불가 등 상업적인 영역에서 활용하기엔 분명 한계가 있다. 대신, 빠른 결과물의 생성, 다양한 시안 제작, 저렴한 제작비와 같은 장점도 있다. 장점을 극대화하면서 단점을 최소화할 수 있는 영역이 바로 ‘AI 광고’ 시장이다.

광고 업계에서는 기획력과 크리에이티브가 중요하다. AI의 빠른 속도와 다양한 결과물들은 선택의 폭과 구현의 가능성을 넓힌다. 광고주와 광고에 대한 기획 및 소통을 하는 PPM(Pre Production Meeting)에서 AI를 활용한다면 기획안과 콘티 이미지를 제공하는 것을 넘어, 결과물 자체를 보여줄 수 있다. 실사 촬영과 비교해 비용은 크게 아끼고, AI로 제작한 광고라는 마케팅 효과도 누릴 수 있다.

스튜디오 프리윌루전과 이노션이 제작한 현대자동차 AI숏필름 광고 스틸컷

▲ 스튜디오 프리윌루전과 이노션이 제작한 현대자동차 AI 숏 필름 광고 스틸컷

최근 스튜디오 프리윌루전과 이노션은 ‘현대자동차’ 광고를 숏 필름 형식으로 제작했다. 기존 방식으로는 1편 정도 만들 수 있는 비용으로 3편의 에피소드가 탄생했다. 영상 속 캐릭터부터 배경 음악 작사∙작곡까지 100% 생성형 AI로 만들었기에 가능했다. 특히, AI 특유의 그림체에 유머러스한 스토리가 더해져 B급 감성의 광고로 시청자들의 눈길을 끌었다.

결국, 생성형 AI의 도입은 광고 업계에 혁신적인 변화를 불러올 것이다. 저렴한 제작비와 빠른 결과물은 미래의 광고 시장을 더욱 다채롭고 풍성하게 만들 전망이다.

AI가 바꾸는 영상 콘텐츠 트렌드, 매스(Mass)에서 니치(Niche)로

생성형 AI 활용은 아직 도입 단계다. 주로 업무 효율성을 높이기 위한 도구로 사용되고 있다. 예를 들어 ‘ChatGPT’나 ‘클로드(Claude)’와 같은 대화형 AI는 기획 및 아이디어 발굴 분야에서, ‘미드저니(Midjourney)’나 ‘달리(DELL-E)’와 같은 생성형 이미지 AI는 컨셉아트나 디자인 등 시각화 작업에 사용된다.

생성형 AI가 적극적으로 도입되어 제작 효율성이 향상되면 콘텐츠 생산량은 자연스럽게 증가한다. 대규모 자본이 투입되는 상업 콘텐츠와 더불어, 실험적이고 개성 강한 소재의 다양한 서브컬처 콘텐츠가 늘어날 전망이다. 개별 취향에 최적화된 니치(Niche) 콘텐츠가 새로운 트렌드로 자리 잡게 되는 것이다.

결과적으로 소비자는 개인적인 공간에서 각자 취향에 맞는 맞춤 콘텐츠를 소비할 수 있게 되고, 영상 엔터테인먼트 업계 역시 소비자 선호도에 따라 보다 유연하게 대응할 수 있도록 발전하게 된다.

AI는 거스를 수 없는 흐름, 중요한 것은 콘텐츠 본질 잃지 않는 것

물론 생성형 AI의 발전에 대한 사회적인 우려도 존재한다. 많은 사람이 AI가 인간을 대체하고 일자리를 없앨 거라는 두려움을 갖고 있다. 여기서 강조하고 싶은 것은 ‘AI는 스스로 콘텐츠를 생산하지 않는다’는 것이다. 생성형 AI는 도구일 뿐, 창작의 주체가 되고 콘텐츠 생산을 결정하는 것은 인간이라는 점에 주목해야 한다.

AI 기술이 전 영역으로 확대되면, 새로운 일자리 창출도 가능하다. 글로벌 HR서비스 기업 딜(Deel)이 공개한 고용동향 분석 자료에 따르면 지난 2년간 전 세계 AI 관련 일자리는 60% 증가했고, AI 덕에 구직자들의 활동 범위 역시 넓어진 것으로 나타났다.

핵심은 AI라는 기술에 매몰되지 않고 콘텐츠의 본질인 ‘사람의 마음을 움직여야 한다’는 데 있다. 처음 CG 기술이 영화계에 등장했을 때, 컴퓨터 그래픽으로 만든 장면이 대중들의 마음을 움직일 수 있겠냐는 의문이 있었다. 하지만 우리는 3시간 가까이 되는 상영 시간 동안 영화 ‘아바타’의 경이로운 CG를 보며 감명받은 바 있다. 결국 기술과 본질, 둘 다 챙기는 자가 AI 시대에 경쟁력을 갖게 될 것이다.

K-POP, <오징어게임> 등으로 K-엔터테인먼트 시장의 잠재력과 경쟁력은 이미 검증됐다. 이제 우리는 글로벌 시장에서 도태되지 않기 위해 AI를 적극적으로 활용하는 방안을 찾아야 한다. 고민은 시간만 늦춘다. 빠르게 받아들일 준비만 필요할 뿐이다.

]]>
/ai-and-movie/feed/ 0
‘AI 자아에 관하여’ 뇌과학자와 AI 전문가의 대중문화 속 AI 이야기 /ai-in-media-3/ /ai-in-media-3/#respond Mon, 22 Jul 2024 15:00:00 +0000 http://localhost:8080/ai-in-media-3/ 영화, 드라마, 소설 등 다양한 대중문화 콘텐츠 속 AI(인공지능)는 저마다의 자아를 가지며, 사람처럼 다양한 감정을 느끼기도 한다. 또, 예상치 못한 창의성을 발휘해 사람들을 놀라게 하기도 한다. 이런 AI를 현실에서도 구현할 수 있을까? 이에 대해 뇌과학자 우충완 교수(성균관대학교 글로벌바이오메디컬공학과)와 AI 전문가 김덕진 소장(IT커뮤니케이션 연구소)이 대담을 나눴다.

‘AI 자아에 관하여’ 뇌과학자와 AI 전문가의 대중문화 속 AI 이야기_2024_1_기타

자유와 사랑을 원해요’ AI, 욕망을 가질 수 있을까?

김덕진 소장 1999년 개봉한 영화 ‘바이센테니얼 맨’은 자유와 사랑에 대한 욕망을 가지고, 사람이 되고자 하는 AI 안드로이드(인간을 닮은 로봇) ‘앤드류 마틴(이하 앤드류)’의 이야기를 그렸습니다. ‘사람이 되고 싶은 AI의 욕망’이라는 주제가 매우 흥미로운데요. 욕망이라는 감정에 대해 이야기를 해보면 좋을 것 같습니다. 사람과 AI가 갖는 욕망에는 어떤 차이가 있을까요?

영화 ‘바이센테니얼 맨’의 앤드류의 모습(출처: 콜럼비아 픽처스)

▲영화 ‘바이센테니얼 맨’의 앤드류의 모습(출처: 콜럼비아 픽처스)

우충완 교수 먼저 욕망이라는 개념을 정의해야 할 것 같아요. 사람의 경우, 신체적인 항상성을 유지하려는 본능적인 욕구가 가장 근본적이거든요. 예를 들어, 배가 고프다는 식욕은 우리의 몸이 에너지의 항상성을 유지하기 위해 영양분을 원하는 거예요.

그렇다면 신체가 없는 AI에게 욕망이 없을까요? 저는 AI도 다른 의미의 욕망은 있을 수 있다고 생각합니다. 바로 강화학습(RL, Reinforcement Learning)을 통해 알 수 있는데요. 이는 동물에게 먹이를 주듯 보상(Reward)을 제공함으로써 학습시키는 과정이에요. 동물들에게도 식욕이라는 욕망이 있듯 AI도 보상을 얻고자 하는 욕망이 있을 수 있는 것이죠.

김덕진 소장 저는 그 욕망을 ‘학습된 욕망’이라고 부르고 싶은데요. 특히 인간의 피드백에서 배우는 강화학습 방식을 통해 AI는 초기에 기본 규칙을 배우고, 경험을 통해 학습하며, 필요할 때 추가적인 피드백을 받아 행동을 조정합니다. 결국 인간이 정해놓은 보상 체계에서 이뤄지는 것이죠. 따라서 AI가 보상을 추구하는 욕망 또한 학습된 결과라고 볼 수 있죠.

‘AI 자아에 관하여’ 뇌과학자와 AI 전문가의 대중문화 속 AI 이야기_2024_3_기타

김덕진 소장 영화 속 앤드류의 자유를 향한 욕망도 비슷하게 보입니다. 앤드류의 주인인 리처드 마틴(이하 리처드)은 줄곧 앤드류에게 ‘자유를 갈망하고, 욕망을 가져야 한다’고 말하거든요. 게다가 자유와 욕망에 관한 책을 읽히기도 하고요. 결국 앤드류가 자유를 추구하는 것은 스스로의 선택이 아닌 리처드가 학습시킨 결과인 거죠.

우충완 교수 맞습니다. 그래서 저는 AI와 사람의 욕망에는 어느 정도 차이가 있다고 생각합니다. 물론, 사람의 욕망 중에서도 학습된 욕망이 있을 순 있지만, 순전히 학습에 의한 AI의 욕망과 똑같을 순 없는 것이죠.

김덕진 소장 저도 동의합니다. AI는 결국 인간을 흉내 내는 기술이며, 분명 한계가 있다고 생각해요. 앞서 말했듯, 앤드류 역시 인간이 제공한 데이터와 지침을 바탕으로 욕망을 모방한 것이고, 사랑을 나누고 싶어 하는 것 역시 학습된 결과라고 생각합니다.

무(無)에서 유(有)를 창조할 수 있나? AI의 창의성

우충완 교수 AI의 욕망뿐 아니라, 최근 특히 주목받는 것 중 하나가 바로 AI의 ‘창의성’입니다. 음악이나 미술과 같은 예술 창작의 영역에서도 AI가 화두이고요. ‘바이센테니얼 맨’의 앤드류 역시 이와 같은 분야에서 창의성이 돋보이는 캐릭터인데, AI가 정말로 창의성을 가질 수 있을까요?

김덕진 소장 창의성을 발휘하는 AI에 대한 관심이 높지만, 현재 AI가 보여주는 창의성은 스스로 만들어낸 것이 아닌, 사람이 프로그래밍한 결과물입니다. 최근 AI가 생성하는 그림이나 음악은 대부분 어디선가 접해본 형태거든요.

‘AI 자아에 관하여’ 뇌과학자와 AI 전문가의 대중문화 속 AI 이야기_2024_4_기타

김덕진 소장 그렇다면, 왜 AI의 창의성 발현은 어려운 것일까요? 저는 전이학습(Transfer Learning) 능력을 이야기하고 싶어요. 현재도 AI 강화학습에서 많이 사용되고 있는 방법인 전이학습은 새로운 정보와 지식을 학습할 때 처음부터 하나씩 배우는 것이 아니라, 사전에 훈련된 유사 모델을 적용해 학습 효율을 높여주는 방법입니다. 이 능력이 뛰어나다면, 다른 영역의 지식을 활용해 새로운 정보로 만들어 내는 유연한 사고를 할 수 있습니다. 하지만 현재 AI의 전이학습 능력은 사람과 비교하면 그 효율이 매우 떨어집니다.

우충완 교수 사실, 사람뿐만 아니라 대부분의 생명체는 전이학습 전문가라고도 할 수 있습니다. 생명체는 극심한 추위나 더위, 자연재해나 천적 등 자신의 생명을 위협하는 외부 환경에 맞춰 내부 환경(신체)을 조율하며 적응해 왔는데요. 이 과정에서 뇌가 발달하며, 전이학습 능력을 강화했고 다양한 위협 상황에서 생존 전략을 개발해 왔죠.

즉, 생명체의 전이학습 능력은 안정적인 내부 환경을 만들어 내는 능력과 깊이 연관돼 있다고 생각합니다. 진화를 통해 ‘몸’이라는 안정되고 고도화된 내부 환경을 구축해 왔고, 특히 인류는 ‘집’과 같이 인공적인 내부 환경까지 만들어서 안정성과 적응성을 높여 왔어요. 즉, 생명체와 인류의 적응 능력은 외부의 변화에도 안정적인 내부 환경을 얼마나 잘 만들고, 또 잘 다룰 수 있는가와 직결된다고 봅니다.

‘AI 자아에 관하여’ 뇌과학자와 AI 전문가의 대중문화 속 AI 이야기_2024_5_기타

우충완 교수 창의성도 이 내부 환경과 연결되어 있다고 생각하는데요. 창의성을 보통 안에서 우러나오는 개인 고유의 어떤 것이라고 말하잖아요? 저는 자기만의 고유 내부 환경이 외부 환경과 만나서 창발하는 무언가가 창의성의 핵심이라고 보는데요, 그런 의미에서 자신만의 내부 환경이 없는 AI는 인간 수준의 전이학습 능력과 창의성을 갖기 어렵습니다. 하지만, 만약 생명체와 유사한 내부 환경을 갖춘 AI를 개발한다면, 언젠가는 의미 있는 창의성을 발현할 수도 있다고 생각합니다.

김덕진 소장 말씀을 듣고 보니, AI와 사람의 차이가 정말 재미있네요. AI는 고도의 연산력과 데이터 저장 능력에서는 사람을 월등히 앞서지만, 창의적인 문제 해결 능력은 아직 부족하군요. 사람의 경우 신체 발달이 먼저 일어나고 이후에 뇌가 발달했는데, 반대로 AI는 뇌의 역할을 하는 지능부터 개발되고 있으니 어쩌면 당연한 결과인지도 모르겠네요. 영화나 드라마 속 AI를 구현하기 위해선 우 교수님 말씀대로 내부 환경을 갖춘 AI 개발을 통해 이러한 격차를 줄여나가는 방법도 의미가 있겠네요.

‘AI 자아에 관하여’ 뇌과학자와 AI 전문가의 대중문화 속 AI 이야기_2024_6_기타

우충완 교수 아직 그러한 수준에 도달하지는 못했지만, 최근 AI 기술이 사람의 뇌와 유사한 형태로 개발되고 있다는 점이 흥미롭습니다. 예를 들어, 트랜스포머 모델의 경우, 뇌에서 기억을 담당하는 해마(Hippocampus)의 역할과 닮았고, 순환신경망(Recurrent Neural Network, RNN)은 계획 수립과 시뮬레이션 수행 등에 중요한 시간과 순서 문제를 처리하는 전두엽과 비슷한 기능을 합니다. 또 강화학습은 기저핵의 동기부여와 학습 기능을 모방하며, 초기 인공신경망인 순방향신경망(FeedForward neural Network, FFN)은 시각피질(후두엽)의 패턴 인식 기능을 닮았습니다.

반도체 분야에서도 시냅틱 메모리인공신경망 소자를 기반으로 한 메모리로, 인간 두뇌와 유사한 고효율 컴퓨팅 구조를 구현해 기존 컴퓨팅 구조(직렬 처리 방식)의 한계인 데이터 병목 현상 등을 해결함등 인간 뇌를 모방한 칩이 개발되고 있는 것으로 아는데요. 지금은 이처럼 뇌의 여러 기능별로 AI 기술이 각각 따로 발전하고 있지만, 추후 이를 종합해 운용할 수 있는 AI가 등장한다면, 지금까지 AI의 성장보다 더욱 비약적인 성공을 이룰 수 있다고 생각합니다.

* 시냅틱 메모리(Synaptic Memory): 인공신경망 소자를 기반으로 한 메모리로, 인간 두뇌와 유사한 고효율 컴퓨팅 구조를 구현해 기존 컴퓨팅 구조(직렬 처리 방식)의 한계인 데이터 병목 현상 등을 해결함

자아와 자유의지를 가진 AI, 현실에선?

김덕진 소장 이외에도, 드라마 ‘휴먼스’를 비롯해, 소설 ‘아이, 로봇’, 게임 ‘오버워치’ 등을 살펴보면 자아와 자유의지를 가진 AI를 볼 수 있습니다. ‘휴먼스’에서는 자아와 감정을 서로에게 이식해주려는 휴머노이드들이 나와요. ‘아이, 로봇’에서는 사람의 감정을 읽고, 그들의 마음이 다치지 않도록 일부러 거짓말을 하는 로봇이 나오죠. ‘오버워치’에서는 종교적 믿음과 깨달음을 통해 스스로를 인간과 영적으로 동일한 존재라고 생각하는 AI가 나옵니다. 이에 대한 이야기도 나눠 볼까요?

‘AI 자아에 관하여’ 뇌과학자와 AI 전문가의 대중문화 속 AI 이야기_2024_7_기타

우충완 교수 AI의 자아를 정의하는 것은 매우 어렵고 복잡합니다. 사람의 자아는 개인이 갖고 있는 생각, 감정, 의지 등이 상호작용하는 하나의 복잡한 ‘시스템’인데요. 자신을 다른 존재와 구별할 수 있는 자서전적 기억과 자기 개념, 개성 등을 포함하죠. 지금의 AI 기술로 이러한 완결성을 갖춘 자아를 구현할 수 있을까요?

김덕진 소장 가능성이 있는 여러 사례 중 하나로 테슬라의 슈퍼컴퓨터 ‘도조(Dojo)’를 얘기해 볼 수 있을 것 같아요. 도조는 테슬라 전기차의 운전 데이터베이스를 활용해 자율주행 AI의 성능을 높이고 있는데요. 사실 테슬라의 CEO인 일론 머스크의 더 큰 그림은 도조를 계속 업그레이드시켜서 ‘우주를 이해하는 범용 인공지능(AGI)을 개발하는 것’으로 알려져 있죠. 이 슈퍼컴퓨터는 여러 디바이스에서 수집된 방대한 양의 데이터를 통합 관리하는 시스템인데, 그 안에서 복잡한 데이터들이 상호작용하고 있어 흔히 말하는 ‘자아’의 시스템과 닮아 있는 것이죠.

우충완 교수 자아를 가진 AI와는 달리 AI가 스스로 결정을 내릴 수 있는 자율성을 지닌 AI는 어느 정도 구현할 수 있지 않을까 생각합니다. 지금도 자신의 목표를 조정하고 하위 목표를 만들 수 있는 AI 기술은 존재하거든요. 그러나 AI에 너무 많은 자유를 부여하면, 문제가 생길 수 있다는 지적도 나오고 있어 주의가 필요하죠. 실제로 AI의 아버지라 불리는 제프리 힌턴(Geoffrey Hinton) 역시 이런 위험성에 대해 심각하게 지적하고, AI의 위험성을 알리기도 했습니다. 그만큼 자율적인 AI의 위험성은 잘 생각해봐야 할 주제라고 생각합니다.

그럼에도 불구하고 저는 충분한 논의와 검토를 거쳐 올바른 방향으로 AI를 발전시켜 나간다면, AI가 인류에게 큰 혁신과 변화를 가져올 것이라고 생각합니다. 사회적인 논의와 검토가 매우 필요한 시점입니다.

김덕진 소장 지금까지 우 교수님과 함께 여러 대중문화 속 AI를 살펴봤는데요. AI 기술과 뇌의 이야기를 함께 나눌 수 있어 정말 뜻깊은 자리였습니다.

우충완 교수 저 역시 매우 즐거웠습니다. 대담을 준비하면서 많은 과학자와 개발자들이 더욱 혁신적인 AI를 개발하기 위해 노력하고 있다는 것을 느꼈는데요. 이들의 노력이 어떻게 결실을 맺을지 미래의 AI 발전이 매우 기대됩니다.

]]>
/ai-in-media-3/feed/ 0
[All Around AI 3편] 머신러닝의 이해 /all-around-ai-3/ /all-around-ai-3/#respond Mon, 24 Jun 2024 15:00:00 +0000 http://localhost:8080/all-around-ai-3/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 <AAA – All Around AI>에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서 인공지능의 발전 역사와 동작 원리를 알아보았습니다. 이번에는 인공지능의 가장 큰 줄기를 이루고 있는 머신 러닝(Machine Learning, 기계 학습)에 대해 조금 더 자세히 살펴봅니다.

 

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

머신 러닝의 개념

[All Around AI 1편]에서 언급했듯 머신 러닝은 데이터의 패턴을 스스로 학습해 예측을 수행하는 알고리즘이다. 이 기술은 데이터의 폭발적인 증가와 함께 대표적인 인공지능 방법론으로 자리매김했다. 기존의 전통적인 인공지능은 인간이 규칙과 논리를 명확히 프로그래밍해야 했다. 이는 간단한 보드게임 같이 명확한 규칙이 있는 문제에는 효과적이었지만, 복잡한 데이터나 규칙을 다루는 경우 한계를 보였다. 예를 들어, 사진에서 고양이를 구별할 수 있는 인공지능을 만든다고 생각해 보자. 사진 속 수많은 픽셀에서 RGB 값이나 고양이의 패턴을 어떻게 처리할지, 어떤 방식으로 규칙을 설정할지 고민해 보면 이를 프로그래밍하는 일이 얼마나 어려운지를 실감하게 된다.

머신러닝의 이해_01_2024_그래픽

머신 러닝은 데이터 안에 숨겨진 복잡한 구조나 패턴을 발견하고, 이를 스스로 학습해 새로운 데이터의 예측을 수행하는 방식이다. 예를 들어 고양이의 유무를 판단하는 인공지능을 머신 러닝으로 만드는 경우, 다양한 사진(데이터)을 모아 알고리즘으로 학습시켜서, 고양이를 판단하는 방법을 스스로 파악하게 한다.

머신 러닝을 구현하는 과정은 크게 데이터 수집, 학습 모델 선택, 목적 함수 정의, 파라미터 학습 단계로 나눌 수 있다. 데이터 수집 단계에서는 학습에 필요한 데이터를 모으고, 학습 모델 선택 단계에서는 수집한 데이터를 가장 잘 표현할 수 있는 학습 모델을 선택한다. 목적 함수 정의 단계에서는 모델의 성능을 측정하기 위한 기준을 설정한다. 주로 모델의 예측이 실제 데이터와 얼마나 잘 일치하는지를 나타내는 손실 함수*로 표현된다. 마지막으로 파라미터 학습 단계에서는 파라미터를 조정하며 손실 함수를 최소화하는 방향으로 학습을 진행한다. [All Around AI 2편]에서 자세히 보기

* 손실 함수(Loss Function): 모델의 예측이 실제 데이터와 얼마나 차이 나는지를 측정하는 지표. 모델 학습을 통해 최소화되어야 할 핵심 값으로, 예측 정확도를 향상시키는 데 중요한 역할을 한다.

머신 러닝 알고리즘의 종류와 특징

머신 러닝 알고리즘은 실세계에 내재한 확률 분포*에서 데이터를 추출하고, 이 데이터를 기반으로 모델을 훈련해 문제를 해결하는 것이 핵심이다. 학습하려는 문제의 유형에 따라 크게 세 가지로 나뉘며, 각각 고유한 특성과 응용 분야를 가지고 있다.

* 확률 분포(Probability Distribution): 데이터를 수학적으로 설명하는 모델로 이를 통해 데이터의 패턴과 구조를 파악한다.

1) 지도 학습(Supervised Learning)

지도 학습은 입력 데이터와 함께 ‘정답(라벨, label)’을 학습하는 방식이다. 모델은 이 데이터-라벨을 쌍으로 학습하여 새로운 데이터에 대한 정답을 예측한다. 예를 들어 사진 속 인물의 성별을 예측하는 인공지능 개발은 지도 학습의 예시로 볼 수 있다. 이때, 사진은 입력 데이터로 성별은 ‘정답’으로 제공된다. 이를 통해 모델은 남성과 여성을 구별하는 패턴을 학습하고, 추후 새로운 사진의 성별을 예측한다. 지도 학습은 라벨의 속성에 따라 다시 두 가지 유형으로 나뉜다.

• 분류(Classification): 라벨이 이산적(Discrete)으로 주어지는 경우다. 예를 들어 사진 속 강아지의 유무를 판단하는 문제, 손으로 쓴 글씨를 보고 알파벳을 구분하는 문제 등이 여기에 해당한다. 이 경우 데이터는 특정 카테고리에 속하며, 소속 카테고리가 라벨로 지정된다.

• 회귀(Regression): 라벨이 연속적인 숫자로 주어지는 경우다. 예를 들어 집의 평수와 위치 등을 바탕으로 집값을 예측하는 문제, 기상 데이터로부터 다음날의 기온을 예측하는 문제 등 정답이 될 숫자를 가능한 정확하게 예측해야 하는 상황에 해당한다.

2) 비지도 학습(Unsupervised Learning)

명칭에서 알 수 있듯이, 비지도 학습은 지도 학습과 달리 명시적인 ‘지도(Supervision)’, 즉 라벨이 없이 데이터만을 학습한다. 이 방법은 데이터가 나타내는 확률 분포의 특성을 파악해 학습하는 것을 목표로 한다. 비지도 학습의 주요 방법은 다음과 같다.

• 군집화(Clustering): 비슷한 특성을 가진 데이터를 그룹으로 묶어 확률 분포에 숨은 패턴을 파악하는 데 목적이 있다. 실제 반도체 공정에서 불량으로 판정된 웨이퍼 사진을 모아 군집화 알고리즘을 적용한 결과, 불량 원인에 따라 몇 가지 유형으로 분류할 수 있었다.

• 차원 축소(Dimensionality Reduction): 고차원 데이터를 저차원으로 축소해 복잡한 데이터에서 중요한 정보만을 남기고 단순화하는 기술이다. 이는 데이터 분석과 시각화에 도움이 된다. 대표적으로 주성분 분석*이 있다.

* 주성분 분석(Principal Component Analysis): 고차원 데이터를 저차원으로 축소하는 통계적 기법. 데이터의 차원을 축소함으로써, 계산 효율성을 높이고, 불필요한 정보(노이즈 등)를 제거하여 데이터의 핵심 특성을 더욱 명확하게 이해할 수 있게 한다.

최근 주목 받는 생성형 AI 기술도 비지도 학습의 범주에 포함할 수 있다. 이는 데이터로부터 확률 분포를 학습하고, 이를 통해 새로운 데이터를 생성하는 것으로 볼 수 있기 때문이다. 예를 들어 챗GPT는 ‘자연어 확률 분포’를 학습하고, 이를 통해 주어진 텍스트의 다음 단어를 예측한다고 볼 수 있다. 그러나 생성형 AI를 훈련하기 위해 지도 학습 기법이 사용되기도 하므로 완전한 비지도 학습으로 볼 수 있는지는 이견의 여지가 있다.

3) 강화 학습(Reinforcement Learning)

모델이 주변 환경과 상호작용을 하며 최대한 많은 ‘보상’을 받도록 학습하는 것이 목표다. 특히 문제가 순차적 의사결정이 필요한 곳에서 효과적이다. 예컨대 로봇이 주어진 환경에서 장애물을 피하며 목적지까지 이동하는 최적의 경로를 찾는 경우와 같이 로보틱스 분야나 자율 주행, 게임 AI 등에 많이 활용된다. 최근에는 챗GPT 등의 대형 언어 모델을 인간의 선호와 일치시키기 위해 인간 피드백을 통한 강화 학습*도 많은 주목을 받고 있다.

* 인간 피드백을 통한 강화 학습(Reinforcement Learning With Human Feedback): 인간의 피드백을 기반으로 보상받으며 학습하는 방법. 모델이 생성한 결과에 대한 인간의 반응이나 평가를 통해 보상을 조정하고, 이를 통해 모델은 인간에게 맞춰진 반응을 할 수 있게 학습한다.

▲ 인공지능의 벽돌 깨기 게임 영상. 대표적인 강화 학습 사례로 인공지능에게 ‘벽돌을 많이 깨면 더 높은 점수를 올릴 수 있다’는 규칙을 주자 인공지능 스스로 벽돌을 더 많이 깰 수 있는 방법을 터득한다.

머신 러닝의 성능 평가

머신 러닝의 궁극적인 목표는 실제 환경에서 처음 보는 데이터에도 우수한 성능을 보이게 하는 것이다. 즉, 모델이 일반화(Generalization) 능력을 갖추는 것이 중요하다. 이를 위해서는 모델의 성능을 정확하게 평가하고 검증하는 것이 필수다. 그렇다면 모델의 성능은 어떻게 평가해야 할까?

1) 성능 지표 선택

머신 러닝의 성능을 평가하는 데는 문제의 유형에 따라 다양한 지표를 사용한다. 분류 문제의 경우 일반적으로 정확도(Accuracy), 정밀도(Precision), 재현율(Recall)을 성능 지표로 활용한다.

먼저, 정확도는 전체 예측 중 올바르게 예측한 비율을 나타낸다. 가령 의료 진단 테스트에서 100번의 테스트 중 95번을 정확하게 진단했다면 정확도는 95%이다. 그러나 이를 위해서는 균형 잡힌 데이터셋이 필요하다. 만약 100개의 샘플 중 95개가 음성이고 5개만 양성이라고 하자. 이 경우 모델이 모든 샘플을 음성으로 예측해도 정확도는 95%가 된다. 이는 높은 정확도처럼 보이지만, 실제로 모델은 양성 샘플을 전혀 예측하지 못했을 수 있다.

정밀도는 ‘모델이 양성으로 예측한 것’ 중 ‘실제로 양성인 것’의 비율을, 재현율은 ‘실제 양성’ 중 ‘모델이 양성으로 예측한’ 비율이다. 이들은 서로 트레이드 오프 관계, 즉 하나를 높이면 다른 하나는 낮아질 수 있어, 둘 사이의 균형과 목적을 고려해 모델을 최적화한다. 이를 테면, 의료 검사에서는 재현율을 높이는 것이, 이메일 스팸 필터에서는 정밀도를 더 중요하게 생각하는 식이다. 이 문제를 해결하기 위해 정밀도와 재현율의 조화를 평가하는 F1 스코어*를 사용하기도 한다.

* F1 스코어(F1-Score): 정밀도와 재현율의 조화평균으로 데이터 분류 클래스의 불균형이 심할 때 사용한다. 0과 1 사이의 값이며 1에 가까울수록 분류 성능이 좋고 할 수 있다.

회귀 문제의 경우는 평균 제곱 오차*, 제곱근 평균 제곱 오차*, 평균 절대 오차* 등을 사용해서 모델의 성능을 평가한다.

* 평균 제곱 오차(MSE): 예측값과 실제값의 차이를 제곱한 후 평균을 낸 값
* 제곱근 평균 제곱 오차(RMSE): MSE의 제곱근으로, 오차의 크기를 실제 값의 단위와 동일하게 표현
* 평균 절대 오차(MAE): 예측값과 실제값 차이의 절댓값을 평균한 값

2) 성능 평가 방법

머신러닝의 이해_02_2024_그래픽

머신 러닝 모델의 평가는 주로 데이터를 훈련 세트와 테스트 세트로 나누어 진행한다. 이 과정을 통해 모델이 새로운 데이터를 얼마나 잘 일반화할 수 있는지 확인할 수 있다.

• 훈련-테스트 분할법(Train-Test Split): 가장 간단한 방법의 하나는 수집된 데이터를 훈련 세트와 테스트 세트로 나누는 방법이다. 훈련 세트로 모델을 훈련한 후, 테스트 세트로 모델의 예측 성능을 평가해 일반화 성능을 가늠한다. 일반적으로 전체 데이터 중 약 70~80%를 훈련 세트에 활용한다.

• 교차 검증(Cross Validation): 교차 검증은 데이터를 K개의 세트로 나눠서, K개 중 한 세트를 제외한 나머지로 모델을 훈련한 뒤, 제외한 세트로 성능을 평가한다. 이 과정을 K번 반복해 평균 성능을 구한다. 교차 검증법은 전통적인 기계 학습에서 많이 사용하던 방법이지만, 시간이 많이 소요되어 심층 학습에서는 훈련-테스트 분할법을 더 선호한다.

3) 성능 평가 및 해석

위 평가 방법을 통해 얻어진 결과는 모델의 성능 향상을 위한 중요한 피드백을 제공하며, 문제가 있을 때는 주로 두 가지 현상이 나타난다.

• 과소적합(Underfitting): 모델이 너무 단순해서 데이터의 기본적인 패턴을 학습하지 못하는 경우로 훈련 및 테스트 세트 모두에서 성능이 미달일 경우 과소적합이 발생했다고 볼 수 있다. 가령 회귀 문제에서 실제 데이터가 2차 함수인데 예측 모델을 1차 함수로 설정했다면, 데이터의 패턴을 포착하기 위한 표현력(Expressivity)이 부족해서 과소적합으로 이어질 수 있다.

• 과대적합(Overfitting): 모델이 너무 복잡해서 기본적인 패턴뿐 아니라 노이즈 등 불필요한 부분까지 학습해 발생한다. 이에 따라 모델은 학습 데이터에 대해서는 높은 성능을 보이지만, 테스트 데이터나 새로운 데이터에서는 성능이 떨어지는 특성을 보인다. 이를 방지하고 모델의 일반화 성능을 더 정확하게 평가하기 위해 앞서 말한 교차 검증을 사용할 수 있다. 이렇게 다양한 데이터 분할에서 모델의 성능을 평가하면, 과대적합 여부를 더 정확하게 판단하고 모델 복잡도를 선택할 수 있다.

한편, 일반화 성능이 좋은 모델을 구축하기 위해서는 정규화* 등의 방법으로 과소/과대 적합 사이의 균형을 찾는 것이 중요하다고 알려져 왔다. 그러나, 최근 심층 학습에서는 과대적합이 일어난 이후에 모델의 크기를 더욱 더 키우면 과대적합이 더 심해지는 게 아니라 오히려 일반화 성능이 개선된다는 이중 하강 현상*이 발견되어 이에 대한 활발한 연구가 진행되고 있다.

* 정규화(Regularization): 모델의 과대적합을 방지하기 위해 모델의 복잡도를 제한하거나 페널티를 부과하는 학습 방법.
* 정이중 하강(Double Descent) 현상: 모델의 크기가 커질수록 성능이 먼저 저하되다가 일정 크기를 넘어서면 다시 개선되는 현상을 말한다. 이는 전통적인 통계학의 과대적합 개념에 도전하는 현상으로, 딥러닝 분야에서 새롭게 관찰되었다. 하지만 이론적으로는 아직 완전히 이해되지 않은 상태다.

]]>
/all-around-ai-3/feed/ 0
공학 박사 출신 SF 소설가 ‘전윤호 작가’가 말하는 ‘AI와 문학’ /ai-in-media-2/ /ai-in-media-2/#respond Thu, 02 May 2024 20:00:00 +0000 http://localhost:8080/ai-in-media-2/ AI의 발전이 문학(文學) 분야에도 영향을 미치고 있다. SF 소설 속에만 존재했던 AI가 현실이 되고 있는 요즘, AI는 문학을 어떻게 변화시키고 있을까? 뉴스룸은 공학박사 출신의 SF 소설가인 전윤호 작가를 만나 이야기를 나눠봤다.

공학 박사 출신 SF 소설가 ‘전윤호 작가’가 말하는 ‘AI와 문학’_2024_01_인물

전문가가 본 소설 창작 도구로서 AI의 현 수준

전윤호 작가는 서울대 전기컴퓨터공학 박사 출신으로 한국전자통신연구원(ETRI)과 한국과학기술연구원(KIST)에서 AI와 로봇공학을 연구했다. 또 SK플래닛 CTO 및 SK텔레콤 플랫폼 연구원장을 역임하며 관련 분야에서 30년 이상 경력을 쌓았다.

이후 자신의 전문성을 살려 2020년 SF 장편 ‘모두 고양이를 봤다’로 등단한 전 작가는 2023년 여러 소설가가 AI를 활용해 소설을 집필하는 ‘매니페스토’ 프로젝트에 참여해 단편 ‘오로라’를 내놨다. 오로라는 인간보다 뛰어난 AI가 에너지 고갈, 난치병, 환경 파괴 등 인류의 난제를 해결하는 미래를 그린 내용이다. 그는 “공학자이자 소설가로서 AI로 소설을 쓴다는 것에 흥미를 느껴 이 프로젝트에 참여하게 됐다”고 설명했다.

공학 박사 출신 SF 소설가 ‘전윤호 작가’가 말하는 ‘AI와 문학’_2024_05_2_기타

▲ 전윤호 작가가 SF 단편 소설 ‘오로라’를 집필하기 위해 생성형 AI를 활용한 모습 예시

“이미 시와 같은 짧은 문학 장르에서는 작가들이 AI로 생성된 결과를 수정해 작품화하고 있습니다. 여전히 보완해야 할 점은 있지만, 직접 써보니 AI가 소설 창작에 미치는 영향력을 체감할 수 있었고, 앞으로 문학 발전에 AI가 중요한 역할을 할 것임을 확신하게 됐습니다.”

전 작가는 “소설을 쓰기 전 초기 아이디어를 내는 건 여전히 작가의 몫이지만, 이를 구체화하고 검토하는 과정에서는 AI가 상당히 유용하다”며 “AI는 소설 속 등장인물들이 겪을 수 있는 다양한 상황을 제시하고, 특정 상황에서 어떤 사건이나 장면이 적절한지 영감을 주기도 한다”고 말했다.

공학 박사 출신 SF 소설가 ‘전윤호 작가’가 말하는 ‘AI와 문학’_2024_02_1_인포그래픽

▲ 전윤호 작가는 실제로 소설 창작 중 브레인스토밍 과정에서 AI를 활용하고 있다.

실제로, 구글의 딥마인드가 2022년 선보인 ‘드라마트론(Dramatron)’ 같은 생성형 AI는 연극이나 TV, 영화 등 대중 문화 업계의 전문가들로부터 유용성을 인정받았다.

전 작가는 “AI가 아직은 전형적이고 예측 가능한 문장을 뽑아내는 수준이지만, 반복적인 명령을 통해 검토, 수정, 재조합 등을 시도하다 보면 꽤 훌륭한 결과를 얻을 수 있다”며 “AI를 통해 브레인스토밍은 물론, 이야기의 주제를 선정하고 특정 분야에 대해 학습하거나, 표현 안에서 더 적합한 단어와 문장을 찾아내는 등 여러 도움을 받을 수 있다”고 말했다.

AI가 소설 창작의 주체로서 더 완벽해지려면?

전 작가는 “AI를 글쓰기의 조력자로 활용할 수는 있지만, 소설이나 시나리오 같은 장편을 온전히 맡기기에는 여전히 한계가 있다”며 “AI가 독립적인 작가로서 능력을 갖추려면 소프트웨어와 함께 반도체 등의 하드웨어가 더 발전해야 한다”고 설명했다.

“많은 전문가는 AI가 한 번에 볼 수 있는 글의 범위, 즉 ‘컨텍스트 윈도우(Context Window, 문맥 창)’를 더욱 확장해야 한다고 말합니다. 더 넓은 범위의 문맥을 정확히 이해하고 이야기를 생성할 필요가 있다는 것이죠. 이와 더불어, 저는 AI가 자체적으로 결과물을 평가하고 개선할 수 있는 ‘에이전트’ 기능이 필수적이라고 생각합니다. 최근 개발되고 있는 AI에 이러한 기능이 포함되고 있다는 이야기들이 있습니다. AI가 더 높은 수준의 소설을 쓸 수 있는 날이 머지않았다고 생각합니다.” 

공학 박사 출신 SF 소설가 ‘전윤호 작가’가 말하는 ‘AI와 문학’_2024_03_기타

전 작가는 반도체와 같은 하드웨어의 발전도 매우 중요하다고 강조했다.

“에이전트가 포함된 AI가 등장하기 위해서는 반도체의 성능 향상이 필수입니다. 데이터를 학습하고, 학습한 데이터를 기반으로 결과를 생성하는 현재의 AI 구조에 ‘생성된 결과물에 대한 검토 및 조합을 반복’하는 과정이 추가되기 때문인데요. 이러한 추론 성능을 향상시키려면 더 빠르게 연산할 수 있는 반도체가 필요합니다. 이를 위해 최근 GPU(Graphic Processing Unit)를 광케이블에 직접 연결하는 등 패키징 영역에서 다양한 시도가 이뤄지고 있고, 메인 메모리를 호스트(CPU, GPU 등)와 따로 두지 않고 그 안에 탑재해 처리 속도를 높인 인메모리 컴퓨팅(In-Memory Computing) 기술과 함께 사람의 뇌를 모방한 형태인 뉴로모픽(Neuromorphic) 반도체 등에 대한 연구가 진행되고 있습니다.”

“AI, 문학의 역사를 바꿀 핵심 기술될 것”

전 작가는 “AI가 혼자 힘으로 소설을 쓰게 되면 소설가들이 사라지게 될 거라는 우려도 있지만 그것은 기우”라고 말하며 “AI의 발전은 문학계에서 실보다 득이 더 많을 것”이라고 전망했다.

“기술 발전이 사람을 대체하는 일은 인류 역사를 되돌아봤을 때 흔한 일입니다. 하지만, 기술이 있음에도 여전히 사람의 노력과 창의성이 중요한 영역이 훨씬 많아요. 포토샵이 등장했음에도 회화는 여전히 가치 있고, 알파고의 등장 이후에도 사람들은 여전히 바둑을 둡니다. AI의 발전은 소설가를 없애는 것이 아니라 소설의 품질을 더욱 향상시키는 방향으로 전개될 것이라고 생각합니다. 그 누구보다 뛰어난 조력자를 얻게 된 우리 작가들이 더 훌륭한 작품을 창작해 내고, 이는 결국 문학계 전반에 긍정적인 시너지로 작용할 것이라 확신합니다.”

이외에도 전 작가는 AI의 ‘번역 능력’이 문학계에 긍정적인 효과를 더할 수 있을 것이라고 덧붙였다.

“최근 AI가 번역에서 뛰어난 성능을 보여주고 있습니다. 단순한 직역이 아닌 작품 속에 녹아있는 각 나라의 문화를 고려해 번역해 주는 경우가 많아졌죠. 이를 통해 우리 문학의 세계화를 기대해 볼 수도 있고, 우리말로 쉽게 번역하지 못했던 해외 작품들을 더 많이 접하게 될 수도 있습니다.”

공학 박사 출신 SF 소설가 ‘전윤호 작가’가 말하는 ‘AI와 문학’_2024_04_인물

전 작가는 끝으로 AI 기술과 문학에 대해 다음과 같이 평가했다.

“AI는 문학의 역사를 바꿔 놓았던 인쇄술, 타자기, 컴퓨터 등과 같은 핵심 기술이 될 것이라 예상합니다. 문학계에서도 이러한 기술 발전을 어떻게 활용할 수 있을지 깊이 고민해야 할 때가 됐습니다. 저는 공학자이자 SF 소설가로서 AI가 바꿀 미래를 흥미롭게 지켜보고 있습니다. AI로 인해 달라질 우리의 삶이 궁금하기도 하고요. 저는 이런 다양한 이야기를 소설로 풀어보고자 합니다. 우리의 미래를 바꿀 AI의 발전, 그리고 SF 소설에도 많은 관심 가져주시길 바랍니다.”

]]>
/ai-in-media-2/feed/ 0
“저는 늘 95%만 솔직해요. 우리 관계가 너무 불편해지면 안 되니까” 영화 속 AI, 실제로 구현하기 위해선… /ai-in-media-1/ /ai-in-media-1/#respond Thu, 21 Mar 2024 15:00:00 +0000 http://localhost:8080/ai-in-media-1/ 상상이 현실이 되는 세상 가운데 ‘기술’이 있다. 지금의 AI 시대는 수많은 공상과학 영화나 소설 속 상상력이 첨단 기술을 만나면서 열렸다. 뉴스룸은 AI 발전에 동력을 불어넣는 대중문화 속 아이디어를 살펴보고, 반도체와 같은 첨단 기술이 이를 어떻게 실현해 나가는지 알아보고자 한다.

“이 상황을 받아들이기 힘든 거죠? 여긴 내가 있을 곳이 아닌 것 같고, 만약 마법을 써서 원하는 곳으로 간다 해도 여전히 같은 기분일 거에요. 이건 아닌 것 같은 기분… 하지만 중요한 건 다른 곳만 너무 바라보면 지금 주어진 걸 누릴 수가 없어요. 어쩔 수 없는 일로 고민하지 말고 지금을 즐기세요.”

실의에 빠진 이를 위로하면서도 그가 처한 상황에 대해 진심 어린 조언을 건네는 이 사람은 누굴까. 바로 SF영화 ‘패신저스(2016)’에 등장하는 안드로이드(사람과 흡사한 모습의 로봇)이다.

영화 ‘패신저스’ 우주선 ‘아발론호’ 내부 모습 (출처: 유니버설 픽쳐스), HBM, 인공지능, AI, 뉴로모픽, 영화속AI, HBM3E

▲ 영화 ‘패신저스’ 우주선 ‘아발론호’ 내부 모습 (출처: 유니버설 픽쳐스)

영화 ‘패신저스’는 새로운 행성으로 우주 이민을 떠나는 우주선 아발론호가 배경이다. 아발론호는 5,000여 명의 승객을 동면 상태로 태운 채 120년을 비행할 계획이었지만, 주인공 ‘짐 프레스턴(배우 크리스 프랫, 이하 짐)’은 소행성 충돌 사고로 남들보다 일찍 동면에서 깨어나 혼자 남겨진다. ‘패신저스’는 모두가 잠든 우주선 속에서 혼자 깨어난 그의 이야기다.

AI in Media_저는 늘 95만 솔직해요 우리 관계가 너무 불편해지면 안되니까 사람처럼 말하는 영화 속 AI 실제로 구현하기 위해선_2024_02_기타

▲ 영화 ‘패신저스’에서 안드로이드 아서(왼쪽)와 주인공 짐(오른쪽)이 대화를 나누고 있다. (출처: 유니버설 픽쳐스)

짐은 외롭고 낯선 우주선 속에서 조력자이자 친구 역할을 해주는 여러 AI의 도움을 받으며 어려움을 극복해 나간다. 특히, 영화 속 안드로이드들은 짐이 느끼는 외롭고 불안한 감정을 이해하고 그의 고민에 대해 생각할 거리를 던져주기도 한다. 그 밖에도 청소나 요리, 짐의 건강관리 등을 완벽하게 대신해 주며 미래 AI가 수행할 역할과 가능성을 보여준다.

영화 ‘인터스텔라’에 등장하는 AI 로봇인 ‘타스(TARS)’와 ‘케이스(CASE)’ (출처: instagram @tarsofficial), HBM, 인공지능, AI, 뉴로모픽, 영화속AI, HBM3E

▲ 영화 ‘인터스텔라’에 등장하는 AI 로봇인 ‘타스(TARS)’와 ‘케이스(CASE)’ (출처: instagram @tarsofficial)

황폐해진 지구를 벗어나 새로운 터전을 찾으려는 인류의 노력을 그린 영화 ‘인터스텔라(2014)’에도 AI 로봇이 등장한다.

그들은 우주선을 조종할 수 있고, 지구와의 교신 및 행성 탐사와 같은 임무를 수행할 수 있으며, 사람처럼 농담을 주고받기도 한다. 예를 들어, 인간관계에서 너무 솔직하면 불편해지는 법이라며 스스로를 95%만 솔직한 존재라고 사람들에게 소개하는 식이다. 이 밖에도 이들은 험난한 여정을 떠나는 인간들에게 물심양면으로 도움을 주며, AI 시대에 로봇과 인간이 공존할 수 있는 또 다른 미래 모습을 가늠케 한다.

영화 속 AI, 현실에서는?

영화 ‘패신저스’와 ‘인터스텔라’에 등장한 AI들은 저마다의 능력으로 사람에게 도움을 준다. 이러한 AI 기술은 현실에서 얼마나 구현되었을까?

먼저, 영화 속 ‘대화형 AI’ 기술은 현재 가장 활발하게 개발되고 있는 분야 중 하나다. 자연어처리(NLP)* 기술과 생성(Generative) 기술을 기반으로 한 대화형 AI는 지난 2022년 챗GPT의 등장 이후 급속도로 발전하고 있다.

자연어처리(Natural Language Processing): 컴퓨터를 이용해 사람의 자연어를 분석하고 처리하는 기술. 여기에는 자연어 분석, 이해, 생성 등의 기술이 사용된다.

과거 대화형 AI는 온라인 상담 챗봇이나 모바일 음성 비서로 활용되는 것이 일반적이었다. 그러나 최근에는 사람들에게 심리 상담을 해주기도 하고, 고도의 학습 및 추론 능력을 바탕으로 복잡한 문제를 해결하거나 글, 그림, 음악, 영상 등의 창작물을 만들어내기도 한다. 영화에서처럼 사람과 교감하고 다재다능하기까지 한 AI의 등장이 점차 현실화 되고 있다.

영화 ‘패신저스’ 속 안드로이드 또한 상당히 주목받는 분야다. 현재 이 기술은 로봇이 사람과 유사하게 움직이거나 물건을 자유자재로 운반할 수 있는 수준에 이르렀으며, 최근에는 생성형·대화형 AI가 발전하면서 영화에서처럼 일상 대화까지 가능한 안드로이드 개발이 더욱 가속화될 것으로 예상된다.

사람과 비슷한 모습으로 걷는 로봇 ‘테슬라 옵티머스’, HBM, 인공지능, AI, 뉴로모픽, 영화속AI, HBM3E

▲ 사람과 비슷한 모습으로 걷는 로봇 ‘테슬라 옵티머스’

영화 ‘인터스텔라’의 ‘AI 우주 로봇’과 유사한 모델도 현재 개발되고 있다. 미국의 나사(NASA)는 화성 탐사 로봇인 퍼서비어런스 로버(Perseverance Rover, 이하 퍼서비어런스)에 AI 기반의 자율주행 시스템 오토내브(AutoNav)를 적용 중이다.

▲ 화성 탐사 로봇 ‘퍼서비어런스’가 보내온 화성의 모습 (출처: 나사)

퍼서비어런스는 주변 지형지물을 분석해 3D 지도를 생성하고 스스로 이동 경로를 세워 화성을 탐사한다. 지난 2021년 첫 자율주행에 성공한 퍼서비어런스는 2022년에는 하루 최장 주행 기록을 세우는 등 화성 탐사에 큰 공을 세우고 있다.

이외에도 나사에서는 2025년까지 무려 250PB(페타바이트, 250PB는 약 25만TB(테라바이트))에 이를 정도로 방대한 양의 우주과학 데이터에 더 쉽고 빠르게 접근하기 위해 생성형 AI 기반의 검색엔진 ‘SDE(Science Discovery Engine)’를 개발하기도 했다.

미래 AI 구현의 핵심은 반도체, HBM에 특히 주목

AI라는 개념은 1950년대에 처음 등장했지만, 당시에는 AI 학습과 추론을 지원해 줄 소프트웨어나 엄청난 양의 데이터를 빠르게 처리해 줄 반도체가 없었다.

이후 여러 차례의 기술 혁신이 이루어졌고, 지금은 AI 데이터 처리를 지원해 주는 고성능 GPU(Graphics Processing Unit, 그래픽처리장치)를 비롯해 HBM* 같은 초고속 메모리가 등장해 AI 발전을 견인하는 데 큰 역할을 하고 있다. [관련기사]

HBM(High Bandwidth Memory): 여러 개의 D램 칩을 TSV(Through Silicon Via, 수직관통전극)로 연결해 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품. HBM은 1세대(HBM)-2세대(HBM2)-3세대(HBM2E)-4세대(HBM3)를 거쳐 현재 5세대(HBM3E)까지 개발됨. HBM3E는 HBM3의 확장(Extended) 버전

GPU는 본래 그래픽 작업을 수행하기 위해 만들어졌지만, 명령을 순차적으로 처리하지 않고 인간의 뇌처럼 동시다발적으로 수행할 수 있는 특징 덕분에 AI 구현에 필수 요소로 쓰이고 있다. HBM의 경우 현존 최고 속도로 데이터를 처리해 GPU를 지원하는 고성능 AI 메모리로 주목받고 있다.

영화 속 AI 수준에 도달하기까지 아직도 많은 과제가 남아있지만, AI 기술 성장의 핵심인 반도체는 지금 이 순간에도 혁신을 거듭하는 중이다. 앞으로 인간과 같은 수준의 인공지능인 AGI(Artificial General Intelligence, 일반인공지능)를 구현하는 것도 이러한 반도체의 기술 고도화 여부에 달렸다는 평가다.

과거에는 불가능하다고 여겨진 수많은 기술이 반도체를 중심으로 서서히 실현되고 있는 만큼, 영화 속 AI 역시 곧 우리 눈앞에 현실이 될 것으로 기대되고 있다.

]]>
/ai-in-media-1/feed/ 0