미래반도체 – SK hynix Newsroom 'SK하이닉스 뉴스룸'은 SK하이닉스의 다양한 소식과 반도체 시장의 변화하는 트렌드를 전달합니다 Mon, 17 Feb 2025 08:39:21 +0000 ko-KR hourly 1 https://wordpress.org/?v=6.7.1 https://skhynix-prd-data.s3.ap-northeast-2.amazonaws.com/wp-content/uploads/2024/12/ico_favi-150x150.png 미래반도체 – SK hynix Newsroom 32 32 SK하이닉스 최우진 부사장, 동탑산업훈장 수상··· “끊임없는 기술 혁신으로 글로벌 AI 메모리 시장 선도” /bronze-tower-interview-2024/ /bronze-tower-interview-2024/#respond Tue, 19 Nov 2024 00:00:00 +0000 http://localhost:8080/bronze-tower-interview-2024/

SK하이닉스 P&T(Package & Test)담당 최우진 부사장은 반도체 패키징 분야 기술 혁신을 통해 HBM 경쟁력 향상을 이루어낸 공로로 동탑산업훈장을 수상했다. 시상식은 지난 7일 서울 여의도 FKI 타워에서 열린 ‘제48회 국가생산성대회’에서 진행됐다.

산업통상자원부가 주최하고 한국생산성본부가 주관하는 국가생산성대상은 탁월한 생산성 혁신을 달성한 기업 및 유공자에게 수여된다. 최 부사장은 ▲HBM 기술 혁신을 바탕으로 AI 메모리 시장 선도 지위 확보 ▲소부장 글로벌 공급망 불안 해소 ▲제조/기술 혁신을 통한 생산성 향상 및 위기 극복 등의 공로를 인정받아 수훈의 영예를 안았다.

최 부사장은 “지난 다운턴을 이겨내고, 세계 최고 수준의 HBM 제품을 위해 함께 헌신하고 노력해 온 회사의 모든 구성원들께 먼저 감사의 인사를 전하고 싶다”며 “많은 도전과 변화 속에서도 우리 모두가 멈추지 않고 혁신과 성장을 추구해 온 덕분에, 제가 이런 큰 상을 받을 수 있었다고 생각한다”고 소감을 밝혔다.

뉴스룸은 최 부사장을 만나 그간의 공적을 돌아보고, 앞으로의 목표에 관해 이야기를 나누었다.

패키징 기술 혁신 통해 HBM 성공 견인

SK하이닉스 최우진 부사장, 동탑산업훈장 수상··· “끊임없는 기술 혁신으로 글로벌 AI 메모리 시장 선도”_03_인물_2024

최 부사장이 이끄는 P&T 조직은 반도체 생산공정 중 후(後)공정에 해당하는 패키징(Packaging)과 테스트(Test)를 담당한다. 이는 팹(Fab)에서 전(前)공정을 마친 웨이퍼를 고객이 사용할 수 있는 제품 형태로 패키징하고, 고객이 요구하는 수준에 적합한 품질인지 테스트하여 신뢰성까지 확보하는 역할이다.

특히, TSV*, MR-MUF* 등 압도적인 패키징 기술력은 SK하이닉스 HBM 경쟁력의 핵심이라 해도 과언이 아니다. 최 부사장은 HBM 패키징 기술 개발 및 양산을 책임지며, 회사가 HBM 1등 위상을 얻는 데 중요한 역할을 수행했다.

* TSV(Through Silicon Via,수직관통전극): D램에 미세 구멍을 뚫어 칩들을 수직관통전극으로 연결하는 기술
* MR-MUF(Mass Reflow-Molded UnderFill): 매스 리플로우(MR)는 적층된 칩 사이의 범프를 녹여 칩끼리 연결하는 기술. 몰디드 언더필(MUF)은 적층된 칩 사이에 보호재를 채워 내구성과 열 방출 효과를 높이는 기술

SK하이닉스 최우진 부사장, 동탑산업훈장 수상··· “끊임없는 기술 혁신으로 글로벌 AI 메모리 시장 선도”_04_기타_2024

▲ SK하이닉스 최우진 부사장이 수상한 국가생산성대상 동탄산업훈장

최 부사장은 지난 2019년 HBM 3세대 제품인 HBM2E 패키지에 최초로 MR-MUF 기술을 도입해 열과 압력으로 인한 품질 문제를 개선했으며, 수율을 개선하고 생산량을 끌어올림으로써 시장의 판도를 바꿨다. 또, 그는 MR-MUF 기술을 고도화한 ‘어드밴스드(Advanced) MR-MUF’* 기술을 개발하여 4세대 HBM3 12단과 5세대 HBM3E 개발 및 양산까지 성공으로 이끌었다.

* 어드밴스드(Advanced) MR-MUF: 기존 칩 두께 대비 40% 얇은 칩을 휘어짐 없이 적층할 수 있는 칩 제어 기술(Warpage Control)이 적용되었으며, 신규 보호재를 통해 방열 특성까지 향상된 차세대 MR-MUF 기술

이러한 성공 스토리의 바탕에는 시장 변화에 촉각을 곤두세우며 선제적으로 대응해 온 그의 노력이 있었다. 최 부사장은 역대 HBM 개발 및 양산 과정에서 가장 중요한 것으로 ‘타임 투 마켓(TTM, Time to Market)’을 꼽으며, 시장 상황에 기민하게 대처할 수 있는 기술을 준비해야 한다고 강조했다.

“AI 시대의 반도체 산업은 급속히 변하고 있습니다. 시장 상황과 고객의 요구를 빠르게 파악하여 대응하는 것은 기본이며, 무엇보다 이를 뒷받침할 수 있는 기술력을 꾸준히 준비하는 것이 중요합니다. SK하이닉스가 HBM을 통해 AI 메모리 시장을 선도할 수 있었던 것은 바로 이러한 준비 덕분입니다.”

위기를 ‘기회’로 만든 생산성 혁신

SK하이닉스 최우진 부사장, 동탑산업훈장 수상··· “끊임없는 기술 혁신으로 글로벌 AI 메모리 시장 선도”_06_인물_2024

최 부사장의 생산성 혁신 성과는 위기 상황에서 빛을 발했다.

지난 2022년 세계 경기 침체와 함께 반도체 시장이 다운턴에 접어들었고, 전사적으로 체계적인 대응이 필요한 시점이었다. 최 부사장은 2023년부터 다운턴 TF(Task Force) 조직에 합류해, 수익성이 높은 프리미엄 제품군의 생산을 확대하고 원가 절감을 위해 운영 방식 전환을 추진, 공정 효율을 개선했다.

그는 또, 단기적인 실적 개선에 집중하기보다는 더 멀리 내다봤다. 체계적인 목표 설정과 회의체 관리를 통해 성과의 지속가능성을 높이고자 했으며, 탑다운 방식을 지양하고 현장 전문가 구성원들과 함께 실무 중심의 논의와 실행을 이어갔다. 그 결과, SK하이닉스는 지난해 4분기 다운턴 이후 메모리 업계 최초로 흑자 전환(Turn Around)에 성공했다.

SK하이닉스 최우진 부사장, 동탑산업훈장 수상··· “끊임없는 기술 혁신으로 글로벌 AI 메모리 시장 선도”_05_인물_2024

다운턴 극복은 시작일 뿐이었다. 지난해부터 AI 메모리 수요가 갑작스럽게 늘어나면서 기존 대비 배 이상의 추가 물량 공급이 필요한 상황이 닥쳤다. 예정된 투자는 모두 완료된 상태로, 회사는 추가 투자 없이 난관을 극복해야만 했다.

이에 최 부사장은 기존에 없던 방법을 새롭게 고안해 냈다. 공정 간 생산을 연계해 조정, 추가 투자 없이 제품을 증산하는 데 성공한 것이다. 이는 회사가 AI 메모리 시장에서 승기를 잡는 데 결정적인 역할을 했다.

최 부사장은 또, 미중 무역 갈등, 일본의 수출 규제 정책 등으로 대외 여건의 불안정성이 높았던 2019년에는 협력사와 함께 패키징 분야 업계 최고 수준의 국산 장비를 개발해냈다. 이와 함께 그는 해외 의존도가 높았던 도금액, 접합 소재 등의 국산화까지 이끌어내며, 소재 국산화율을 높이는 데도 기여했다. 이는 글로벌 공급망 불안을 걱정하는 국내 기업들의 우려를 덜어주는 데도 큰 도움이 됐다.

SK하이닉스 최우진 부사장, 동탑산업훈장 수상··· “끊임없는 기술 혁신으로 글로벌 AI 메모리 시장 선도”_07_인물_2024

최 부사장은 끝으로 구성원들에게 ‘도전 정신’을 강조했다.

“패키징 기술 고도화, 어드밴스드 패키징 기술 개발 등 R&D 역량과 품질 경쟁력, 생산 역량을 높이는 것까지 P&T 조직에 주어진 미션이 많습니다. 하지만 우리 P&T 구성원들이 보여준 능력을 봤을 때, 절대 불가능한 일이 아닐 것이라 확신합니다.

생산성 향상과 기술 혁신 후에 발생하는 변곡점을 항상 염두에 두고 마지막까지 품질 향상에 대해 깊이 고민하기를 바랍니다. ‘기술’과 ‘품질’이라는 기본을 잊지 않고, 도전 정신을 발휘한다면 위기가 다시 닥쳐와도 우리는 그것을 또 다른 ‘기회’로 만들 수 있을 것입니다. HBM을 통해 증명했던 저력, 그 이상을 발휘하면서 말입니다.”

]]>
/bronze-tower-interview-2024/feed/ 0
[All Around AI 6편] 생성형 AI의 개념과 모델 /all-around-ai-6/ /all-around-ai-6/#respond Thu, 17 Oct 2024 15:00:00 +0000 http://localhost:8080/all-around-ai-6/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서는 스마트폰과 온디바이스(On-device) AI의 미래에 대해 알아보았습니다. 이번 회차에서는 AI 기술 혁신의 중심에 있는 생성형 AI의 개념과 모델에 관해 살펴보겠습니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

생성형 AI의 개념

생성형 AI는 기존 데이터의 분포를 학습하여 새로운 데이터를 생성하는 기술이다. 여기서 ‘새로운 데이터’란 학습한 데이터와 유사한 속성을 가지면서도 독창적인 결과물을 말한다. 예를 들면, 생성형 AI는 ‘한 마디의 서정적 멜로디’를 학습 데이터 삼아 ‘서정적인 곡’을 만들 수 있고, 배우의 음성을 학습하여 다른 언어로 재현할 수 있다. 이처럼 생성형 AI는 이미지, 음성, 텍스트 등 다양한 분야에서 인간의 창의성을 반영한 콘텐츠를 생성할 수 있다는 점에서 큰 잠재력을 지닌다.

생성형 모델의 학습 방식

[All Around AI 6편] 생성형 AI의 개념과 모델_그래픽_2024_01

▲ 판별 모델과 생성 모델의 학습 방식 차이. 왼쪽은 판별 모델이 조건부 확률을 통해 분류하는 방식을, 오른쪽은 생성 모델이 데이터 자체의 확률 분포를 학습하는 방식을 보여준다.

생성형 AI 모델(Generative Model)의 특징은 판별 AI 모델(Discriminative Model)과의 차이를 통해 더 명확히 이해할 수 있다. 기존 AI 모델(판별 AI 모델)은 학습 데이터를 기반으로 새로운 데이터에 대한 결과를 예측한다. 즉 조건부 분포 ?(?∣?)* 를 학습해 입력한 X가 클래스 Y에 속할 가능성을 계산하는 것이다.

* ?(?∣?): 주어진 X가 있을 때 Y가 발생할 확률

예를 들어, 고양이와 강아지 두 클래스를 분류하는 모델이 있다고 가정해 보자. 이 모델은 학습된 데이터와 라벨(Label) 간의 경계를 학습하여, 입력된 이미지 X가 고양이인지 강아지인지를 확률적으로 출력한다. 그러나 여기서 문제가 발생할 수 있다. 만약 새로운 이미지가 학습 데이터에 없던 원숭이 이미지라면, 이 모델은 여전히 그 이미지를 고양이나 강아지로 분류하려고 할 것이다. 즉 판별 AI 모델은 학습 데이터와 다른 새로운 유형의 데이터에 대해 적절한 출력물을 내지 못할 가능성을 보여준다.

반면, 생성형 AI 모델은 학습 데이터를 바탕으로 데이터 자체의 확률 분포 ?(?)*를 학습하는 데 중점을 둔다. 가령 고양이 이미지를 학습하는 생성형 AI 모델은 고양이 이미지가 가질 수 있는 다양한 특징들(예: 고양이의 생김새, 색상, 자세, 배경 등)에 대한 확률 분포를 학습하는 식이다. 특히 라벨 사용이 필수인 판별 AI 모델과 달리, 생성형 AI 모델은 라벨 없이 데이터 학습이 가능하다. 예를 들어 이미지 데이터를 학습할 때는 이미지 자체만을 사용하고, 언어 모델의 경우 텍스트만으로 학습할 수 있다. 그래서 생성형 AI 모델은 대규모 데이터를 활용한 학습이 가능하다.

* ?(?): 조건 없이 특정 데이터 X가 발생할 확률

생성형 모델은 모든 데이터가 경쟁하며 그 확률을 예측한다. 이 과정에서 학습 데이터와 크게 다르거나 새로운 유형의 데이터를 낮은 확률로 예측하게 되며, 이를 통해 이상치(Outlier) 등을 예측하는 데 사용할 수 있다.

생성형 AI의 원리

생성형 AI는 새로운 데이터를 생성하기 위해, 기존 데이터를 학습하여 데이터의 분포를 파악하는 ‘학습 단계’와 이를 기반으로 새로운 데이터를 생성하는 ‘샘플링 및 생성 단계’를 거친다. 아래에서는 몇 가지 예시를 통해 대표적인 방법을 살펴보고자 한다.

(1) 잠재 변수 모델 (Latent Variable Models)

생성형 AI 모델은 데이터를 생성할 때, ‘잠재 변수’라는 개념을 사용한다. 잠재 변수는 데이터로부터 직접적으로 관찰되지 않지만, 생성형 모델을 통해 학습할 수 있으며, 이 정보를 활용하여 새로운 데이터를 생성할 수 있다. 예를 들어 사진 속 사람의 얼굴을 생성할 때, 그 사람의 눈, 코, 입의 위치와 얼굴 모양을 결정하는 것이 바로 잠재 변수다. 즉, 잠재 변수는 복잡한 데이터 분포를 단순화하고 데이터의 구조를 이해하여 맥락과 스타일을 갖춘 새로운 데이터를 생성하는 데 중요한 역할을 한다. 다음은 잠재 변수를 활용하여 데이터를 생성하는 대표적인 모델이다.

[All Around AI 6편] 생성형 AI의 개념과 모델_그래픽_2024_02

▲ 잠재 변수를 활용하는 대표적인 모델들. x는 입력, z는 잠재 변수를 뜻한다(출처: towardsai.net)

1) Generative Adversarial Networks (GANs)

GANs는 생성기(Generator)와 판별기(Discriminator)가 경쟁적으로 학습하여 기존의 데이터와 유사한 새로운 데이터를 생성하는 모델이다. 먼저 생성기는 무작위로 선택된 잠재 변수(z)를 사용해 가짜 데이터를 생성하고, 판별기는 생성기가 만든 가짜 데이터와 실제 데이터를 구별하도록 훈련한다. 이 두 네트워크는 상호 경쟁하며 학습을 진행하고, 그 결과 생성기는 점점 더 실제 데이터와 유사한 데이터를 생성하게 된다.

 

2) Variational Autoencoders (VAEs)

VAEs는 인코더(Encoder)와 디코더(Decoder)로 구성된 모델이다. 인코더는 고차원의 입력 데이터를 저차원의 잠재 변수(z)로 변환하고, 디코더는 이 잠재 변수를 다시 원래의 고차원 데이터로 복원하여 새로운 데이터를 생성한다. 인코더는 잠재 변수의 평균과 표준 편차를 예측하며, 이를 바탕으로 잠재 변수를 정규 분포에서 샘플링하여 출력한다. 이 과정을 통해 VAEs는 데이터의 저차원 표현을 학습하게 된다.

 

3) 확산 모델 (Diffusion Model)

확산 모델은 데이터에 노이즈를 추가하고 다시 복원하는 방식으로 새로운 데이터를 생성한다. 이 과정은 순방향 확산(Forward Diffusion)과 역방향 확산(Reverse Diffusion)을 통해 이루어진다. 순방향 확산에서는 데이터를 점진적으로 노이즈화하여, 원래의 입력 데이터(x0)를 완전히 노이즈화된 상태(xT)로 변환한다. 이후 역방향 확산에서 이 노이즈화된 상태를 단계적으로 원래의 입력 데이터와 유사한 새로운 데이터로 복원한다. 이 과정은 여러 번 반복되며 특히 이미지 생성에 유리하다. 최근에는 Latent Diffusion Model(LDM)span style=”color: red;”>*처럼 확산 모델과 VAE를 결합해 고품질의 이미지를 생성하기도 한다.

* Latent Diffusion Model(LDM): 인코더를 통해 실제 픽셀 공간이 아닌 잠재 공간에서 확산 작업을 수행하여, 빠르게 학습 및 이미지를 생성하는 모델

▲ LDM을 기반으로 개발한 Stable Diffusion (출처: stability.ai )

(2) 자기회귀 모델(Autoregressive Model)

자기회귀 모델은 과거에 입력한 데이터를 기반으로 미래의 값을 예측하는 모델이다. 이 모델은 시간 이나 순서에 따라 나열된 시퀀스 데이터 간의 확률적 상관관계를 분석하여 예측을 수행한다. 현재 값이 과거 값에 의존한다고 가정하기 때문에, 날씨나 주가 예측 뿐만 아니라 텍스트 데이터 예측에도 활용될 수 있다. 예를 들어, 여러 영어 문장을 학습한 자기회귀 모델이 ‘I’ 다음에 ‘am’이 자주 오는 패턴을 발견하면, ‘I am’이라는 새로운 시퀀스를 생성할 수 있다.

자기회귀 모델은 고품질의 생성물을 출력하지만, 이전 시퀀스에 의존해 한 단계씩 순차적으로 생성하기 때문에 병렬로 출력물을 생성할 수 없다는 단점이 있다. 그리고 이로 인해 생성 속도가 느릴 수 있다.

▲ Masked Self-Attention을 이용한 자기회귀 모델 예시. 현재까지 나온 단어 ‘I am a’를 기반으로 다음에 올 단어 ‘student’를 예측한다.

1) 언어 생성을 위한 자기회귀 모델

초기 언어 생성 모델(Language Recurrent Model)은 순환 신경망(Recurrent Neural Network, RNN)을 기반으로 했다. RNN은 텍스트나 음성 같은 시퀀스 데이터를 처리하는 데 적합하며, 이전 단계의 정보를 고려해 현재 단계의 출력을 생성함으로써 데이터 간의 관계를 파악한다. 그러나 RNN 모델은 시퀀스가 길어질수록 성능이 저하되는 장기 의존성(Long-Term Dependency) 문제*를 겪는다. 이를 해결하기 위해 최근에는 트랜스포머(Transformer)*와 같은 Self-Attention* 기법이 사용되고 있다.

* 장기 의존성(Long-Term Dependency) 문제: 시퀀스가 길어질수록 과거의 정보를 점점 잊어버리는 현상. 이로 인해 모델은 긴 시퀀스에서 예측 성능이 저하되는 문제를 겪는다.
* 트랜스포머(Transformer): 자연어 처리 분야에서 처음 제안되어 챗GPT(ChatGPT)를 비롯한 거대 언어 모델(Large Language Model, LLM) 등 최신 AI 모델의 근간이 되는 딥러닝 모델이다.
* Self-Attention: 데이터의 각 요소가 다른 요소들과 얼마나 관련이 있는지를 계산하여, 문맥을 더 잘 이해하고 출력을 생성할 수 있다. 예를 들어 ‘The cat sat on the mat’에서 ‘cat’이 ‘sat’과 얼마나 관련 있는지를 계산해, 문장의 의미를 더 잘 이해하도록 돕는 식이다.

 

특히, ‘Masked Self-Attention’ 기법을 통해 미래의 시퀀스를 보지 않도록 마스킹을 적용하여, 이전 시퀀스와의 관계만을 파악해 중요한 정보에 가중치를 부여한다. 이를 통해 모델은 과거 정보만을 바탕으로 다음 출력을 생성하게 되며, 긴 시퀀스에서도 중요한 정보를 잃지 않고 처리할 수 있어 정확한 예측이 가능하다. 이 방식은 RNN이 긴 시퀀스를 처리할 때 겪는 장기 의존성 문제를 해결하는 데 효과적이다.

 

2) 이미지 생성을 위한 자기회귀 모델

이미지 생성 모델인 PixelCNN은 이미지를 순차적으로 한 픽셀씩 생성하며, 각 픽셀은 이전에 생성된 픽셀들에 따라 결정된다. PixelCNN은 합성곱 신경망(Convolutional Neural Network)을 사용하며, Masked Convolution 기법을 통해 현재 생성 중인 픽셀이 이후에 생성될 픽셀에 영향을 주지 않도록 한다. 이는 언어 모델에 사용되는 Masked Self-Attention 기법과 비슷한 원리이다. PixelCNN은 픽셀 간의 복잡한 관계를 잘 포착해 고해상도의 이미지를 생성하는 데 뛰어난 성능을 발휘한다.

 

최근에는 LlamaGen과 같은 모델이 언어 모델에서 이용되는 트랜스포머를 이용해 이미지 생성 모델을 구현했다. 텍스트의 토크나이저(Tokenizer)* 대신 새로운 이미지 토크나이저를 제시하여 디퓨전(Diffusion) 모델*에 사용되는 VAE 등의 토크나이저보다 더 좋은 품질과 효율적으로 이미지를 생성할 수 있다.

* 토크나이저(Tokenizer): 텍스트를 문장, 단어, 혹은 토큰 단위로 나누는 과정 또는 도구로 자연어 처리(NLP)에서 문맥을 이해하기 위해 필수적으로 사용한다.
* 디퓨전(Diffusion) 모델: 데이터를 점진적으로 노이즈화하고 이를 역과정으로 복원하며 학습하는 생성 모델로 이미지 생성, 복원 등에서 높은 성능을 보인다.

생성형 AI의 데이터

생성형 AI에서 사용하는 데이터는 생성 결과물의 품질을 결정하는 핵심 요소다. 생성형 모델은 웹에서 수집한 대용량 데이터를 사용해 성능을 높일 수 있다. 하지만 웹에서 얻은 데이터는 노이즈나 저작권 등의 위험 요소도 있다. 따라서 데이터의 수집, 정제, 준비 과정에서 신중한 접근이 필요하다.

(1) 데이터의 종류

1) 텍스트 데이터

위키피디아, 뉴스 기사, 문학 작품, 블로그 포스트 등 다양한 형식의 텍스트가 포함된다. GPT 같은 언어 모델은 대규모 텍스트 말뭉치(Corpus)를 학습하여 문법, 어휘, 문장 구조 등 언어의 패턴을 이해하고 학습한다.

 

2) 이미지 데이터

웹에서 수집된 사진, 그림 등 시각적 데이터를 말한다. 이미지 생성 모델은 대규모 이미지 데이터 세트를 학습하여 이미지의 패턴, 스타일, 구성을 학습한다. 이 외에도 유튜브(YouTube) 등의 플랫폼에서 비디오 데이터를 대량으로 수집하여 비디오 생성 모델을 만드는 데에 사용하기도 한다.

 

3) 멀티모달(Multi Modal) 데이터

이미지-텍스트 멀티모달 모델을 학습하기 위해서는 이미지와 해당 이미지에 대한 텍스트 데이터를 쌍으로 필요로 한다. 이러한 데이터는 웹에서 수집될 수 있지만, 노이즈가 많을 수 있다. 실제로 웹에서 수집된 데이터의 노이즈를 제거하는 것을 목표로 하는 DataComp Challenge가 NeurIPS*에서 개최된 적이 있다. 이 외에도, 비디오-텍스트 멀티모달 데이터는 유튜브 등의 영상에서 얻어진 내레이션 등이 활용되기도 한다.

* NeurIPS: 인공지능(AI), 기계 학습(ML), 신경 과학 분야의 최신 연구를 다루는 세계적인 학술 대회. 학회에서는 연구 논문 발표 외에도 다양한 워크숍과 챌린지 대회가 열리는데, DataComp Challenge와 같은 대회도 개최되어 실질적인 문제 해결을 위한 연구와 실험이 이루어진다.

(2) 데이터 수집과 정제

생성형 AI 모델의 성능은 데이터 세트의 크기가 커질수록 향상되기 때문에, 데이터를 수집하고 정제하는 방법이 매우 중요하다. 일반적으로 생성형 모델은 웹 크롤링을 통해 초기 데이터를 수집한 후, 필터링과 정제 과정을 거쳐 학습에 적합한 데이터를 확보한다. 이를 통해 고품질의 데이터 세트가 완성되며, 대표적으로 Pile, LAION 등이 있다.

1) Pile 데이터 세트

대규모 언어 모델 학습을 위해 설계된 고품질의 대규모 텍스트 데이터 세트다. Pile 데이터 세트는 최소 825GB(기가바이트)의 텍스트 데이터로 구성되어 있으며, 중복 제거, 에러를 포함한 텍스트 제거, 텍스트 길이를 이용한 필터링 등 전처리 과정을 거친다.

 

2) LAION 데이터 세트

LAION 데이터 세트는 이미지-텍스트 쌍으로 구성된 공개 데이터 세트로, 생성형 AI와 컴퓨터 비전 분야에서 널리 사용된다. LAION 데이터 세트는 이미지와 텍스트의 유사도, 이미지 해상도, 불안전한 콘텐츠 등을 필터링하여 정제된 데이터를 제공한다.

 

3) DataComp-1B 데이터 세트

DataComp-1B 데이터 세트는 1억 개의 데이터로 구성된 세트로, LAION 데이터의 노이즈를 제거하기 위해 개발되었다. ImageNet과 유사한 고품질의 이미지를 포함하며, CLIP 모델이라는 기술을 사용해 이미지-텍스트 쌍의 유사도를 평가하는 방식으로 필터링한다. DataComp는 판별 AI 모델에서 성능이 검증되었으며, 생성형 모델에도 긍정적인 영향을 줄 수 있다.

 

4) Recap-DataComp1B 데이터 세트

기존의 데이터 정제 방식은 주로 노이즈를 제거하는 것에 중점을 두어 고품질의 데이터를 확보하는 데는 한계가 있었다. 최근 제안된 Recap-DataComp1B는 Llama3 모델을 사용해 이미지를 설명하는 새로운 텍스트를 자동으로 생성한다. 즉, AI가 더 정확하게 이미지를 설명하는 고품질의 텍스트를 만들어 기존 데이터를 대체하는 방식이다.

▲ Recap-DataComp1B 데이터 예시. 웹에서 얻은 텍스트(Original) 보다 고품질의 텍스트를 생성하여 좋은 학습 데이터를 만들어 낼 수 있다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

]]>
/all-around-ai-6/feed/ 0
[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다 /1c-ddr5-roundtable-discussion/ /1c-ddr5-roundtable-discussion/#respond Mon, 09 Sep 2024 15:00:00 +0000 http://localhost:8080/1c-ddr5-roundtable-discussion/ SK하이닉스가 극도로 미세화된 D램 공정 기술의 한계를 돌파하며 새로운 이정표를 세웠다. 회사는 지난달 29일 세계 최초로 10나노급 6세대(1c) 미세공정*을 적용한 16Gb(기가비트) DDR5 D램을 개발하는 데 성공했다고 발표했다[관련기사]. SK하이닉스는 “AI용 초고속 D램 HBM에 이어 당사는 10나노 6세대 기술 개발도 가장 먼저 해냄으로써 D램 1등 기술력을 확고히 인정받게 됐다”고 강조했다.

* 10나노급 6세대(1c) 미세공정: 10나노급 D램 공정 기술은 1x-1y-1z-1a-1b 순으로 개발돼 1c는 6세대

뉴스룸은 1c 기술 개발 과정과 함께 SK하이닉스의 혁신 기술 역량과 D램 기술 로드맵에 대해 조명하는 좌담회를 진행했다. 이 자리에는 1c 기술 개발을 주도한 SK하이닉스 오태경 부사장(1c Tech TF), 조주환 부사장(DRAM 설계), 조영만 부사장(DRAM PI), 정창교 부사장(DRAM PE), 손수용 부사장(개발 TEST), 김형수 부사장(DRAM AE)이 참석했다.

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_02_2024

▲ 왼쪽부터 김형수 부사장(DRAM AE), 조영만 부사장(DRAM PI), 오태경 부사장(1c Tech TF), 조주환 부사장(DRAM 설계), 정창교 부사장(DRAM PE), 손수용 부사장(개발 TEST)

10나노급 6세대(1c) 미세공정 개발 성공, 모두가 함께 만든 ‘기술 신화’

1c 기술은 10나노대 초반의 극미세화된 메모리 공정 기술이다. 1c 기술을 적용한 DDR5의 동작 속도는 8Gbps(초당 8기가비트)로 이전 세대인 1b DDR5보다 11% 빨라졌으며, 전력 효율은 9% 이상 개선됐다. 성능뿐만 아니다. SK하이닉스는 EUV 공정에 신소재를 개발해 적용하는 한편, 설계 기술 혁신을 통해 공정 효율을 극대화했으며 원가 절감까지 이루어냈다.

1c 기술은 어떤 기술적 도전과 한계를 뚫고 탄생했으며, 회사 기술진은 어떻게 ‘세계 최초’라는 타이틀을 달성할 수 있었을까? 각 조직의 역할을 중심으로 이야기가 오갔다.

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_04_2024

▲ 왼쪽부터 김형수 부사장(DRAM AE), 오태경 부사장(1c Tech TF), 조영만 부사장(DRAM PI)

오태경(1c Tech TF): 1c 기술 개발을 총괄한 1c Tech TF의 가장 큰 목표는 ‘1등 개발’이었습니다. 이를 위해 우리는 이미 우수성이 증명된 1b 플랫폼을 확장하는 방식으로 개발하는 전략을 선택했습니다. 그리고 기존의 3단계(테스트, 설계, 양산 준비) 개발 방식을 2단계(설계, 양산 준비)로 효율화했으며, 커패시터(Capacitor) 모듈과 같은 고난도의 기술 요소를 양산 공정에서 바로 개발하는 방식을 택했습니다. 덕분에 전세대 제품 대비 2개월이나 단축해 1c 기술 개발에 성공할 수 있었습니다.

조주환(DRAM 설계): 최고 경쟁력이 입증된 1b 기술을 경험한 덕분에 기술적 위험도는 줄었으나, 작아진 셀 크기와 커진 저항으로 인해 여전히 해결해야 하는 문제들이 많았습니다. 이를 위해 회로 밀도와 센싱 성능을 높이는 등 다양한 설계 혁신을 통해, 데이터 처리 속도는 높이고 전력 소비는 줄이는 데 성공했습니다. 또, 공정 조직과 협업해 넷다이(Net-die)*를 극대화하며, 원가 경쟁력까지 확보했습니다.

* 넷다이(Net-die): 반도체 제조 과정에서 웨이퍼 한 장에서 생산할 수 있는 유효한 칩(Die)의 수

조영만(DRAM PI): 1b 플랫폼을 확장하는 방식은 1c 기술의 공정 고도화 과정에서 시행착오를 줄이는 데 주효했습니다. 1b의 경험을 바탕으로 1c 기술에서 발생할 수 있는 문제를 사전에 예측하고 해결할 수 있었는데요. 특히, 트랜지스터 열화*와 신규 소재 적용에 따른 품질 리스크를 조기에 발견하고 개선함으로써, 미세화된 소자의 신뢰성을 확보할 수 있었습니다.

* 열화: 절연체가 내/외부적인 영향에 따라 화학적 및 물리적 성질이 나빠지는 현상

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_03_2024

▲ 왼쪽부터 정창교 부사장(DRAM PE), 손수용 부사장(개발TEST), 조주환 부사장(DRAM 설계)

정창교(DRAM PE): 새로운 기술을 개발할 때는 전에 없던 새로운 문제에 직면하게 마련입니다. 특히, 공정이 미세화되면서 과거와는 다른 특성들이 더 중요해지고, 이로 인해 수율 저하 등 문제가 발생할 수 있는데요. 1c 기술에서 주요 성능의 수준을 높이는 트리밍* 기술을 활용하여 수율과 품질을 확보했습니다.

* 트리밍(Trimming): 반도체 설계 변경 없이 전자식 퓨즈(eFuse)를 활용하여 성능을 상향시키는 기술

손수용(개발TEST): 1c 기술의 적기 목표 달성을 위해 1c DDR5 제품의 테스트 시간 단축이 큰 도전이었습니다. 특히, 다른 주력 제품의 일정과 거의 같은 시기에 개발이 진행되며 더욱 효율적으로 테스트 운영을 해야 했는데요. 이를 위해 테스트 인프라를 추가로 확보했으며, 실장 시스템을 전략적으로 적용해 일정보다 빠르게 테스트 공정을 완료할 수 있었습니다.

김형수(DRAM AE): 가장 큰 기술적 도전은 1c DDR5의 초고속 고성능 특성을 검증하는 것이었습니다. 업계 최고 속도를 달성한 1c DDR5의 성능을 시스템 레벨에서 정상적으로 구현하기 위해서 8Gbps 동작이 가능한 검증 인프라를 최초로 자체 개발했습니다. 이와 함께 검증과 잠재적 불량을 예측할 수 있는 소프트웨어도 직접 개발하여 우리만의 독보적인 경쟁력을 확보했습니다.

독보적인 1등 기술 리더십의 저력, ‘원팀’의 힘

이처럼 SK하이닉스가 D램 시장에서 독보적인 기술 리더십을 발휘할 수 있는 저력은 무엇일까? 좌담회 참여자 모두가 한목소리로 ‘유기적인 협업’과 SK하이닉스의 ‘원팀(One Team)’ 정신을 이야기했다.

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_06_2024

▲ 오태경 부사장(1c Tech TF)

오태경(1c Tech TF): TF 운영을 비롯한 일하는 방식의 변화부터 플랫폼 기반 개발, 조기 양산 팹 운영 전략 등 다방면에 혁신이 더해지며 SK하이닉스의 기술 개발 역량은 점점 더 강해지고 있다고 생각하는데요. 무엇보다 구성원들의 원팀 정신이 모든 성과를 견인했다고 생각합니다. 앞서 이야기한 2단계 개발 방식 도입과 EUV 패터닝 성능 및 원가 개선을 위한 신규 소재 개발 등은 탄탄한 협업 체계가 없었다면 성공할 수 없었을 것입니다.

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_10_2024

▲ 정창교 부사장(DRAM PE)

정창교(DRAM PE): 1c 기술 개발 과정에서 가장 중요한 요소는 원팀 문화였습니다. ‘최초’라는 타이틀에 따라오는 많은 기술적 도전을 극복하기 위해, 각 조직이 긴밀하게 협력하여 문제를 조기 발견했고, 해결했기 때문입니다. 특히, DRAM PE 조직이 스크린 최적화를 진행하는 과정에서 설계 및 공정 조직과의 긴밀한 협업이 핵심적인 역할을 했습니다.

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_07_2024

▲ 김형수 부사장(DRAM AE)

김형수(DRAM AE): 미세 공정의 난이도는 점점 높아지고 그에 따른 다양한 기술적 난제가 존재하고 있습니다. 하지만 이를 해결할 힘은 결국 여러 유관 조직이 같은 목표를 향해 나아가는 원팀 정신이라고 생각합니다.

<내부 협업 체계뿐만 아니라 고객과의 협력도 중요합니다. D램은 고객 시스템에 탑재되어 동작하는 제품입니다. 제품 기획에서부터 설계-공정-테스트-검증까지 모든 개발 과정에서 고객의 관점을 반영해야 합니다. 이를 위해서는 고객과의 끊임없는 소통과 기술 협력이 필수입니다.

1c 기술을 넘어, 차세대 D램 기술에서도 1등 수성할 것

1c 개발의 의의는 무엇보다 이 기술이 HBM, LPDDR, GDDR 등 모든 차세대 D램 제품군에 적용된다는 데 있다. 1c 기술은 앞으로 어떤 기술 혁신을 불러올 것이며, SK하이닉스의 D램은 어떤 방향으로 발전할까?

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_09_2024

▲ 손수용 부사장(개발TEST)

손수용(개발TEST): 1c 개발 성공으로 SK하이닉스는 압도적인 기술 경쟁력을 입증했습니다. 하지만 1c DDR5는 시작일 뿐입니다. 앞으로 1c 기술은 다양한 D램 제품에 적용되어 지속가능한 성장과 혁신을 이끌어갈 것이며, 다양한 고객 니즈에 완벽하게 부응할 것이라 기대합니다.

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_05_2024

▲ 조영만 부사장(DRAM PI)

조영만(DRAM PI): 1c 기술을 넘어 D램 기술은 점점 더 미세화될 것입니다. 특히, 10나노 아래 한 자릿수 기술로 넘어가는 시점이 오면 기존 방식으로는 한계가 있을 것이라 예상되는데요. 이를 극복하기 위해서는 소재 및 장비의 성능을 극대화하는 것뿐만 아니라 2D 셀에서 3D 셀로의 구조 변화, 이종접합 등과 같은 기술 혁신 역시 필요할 것입니다. 이에 효과적으로 대응하기 위해, SK하이닉스의 D램 기술 개발 체계 역시 지속적으로 고도화하고 있습니다.

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_08_2024

▲ 조주환 부사장(DRAM 설계)

조주환(DRAM 설계): 회사가 D램 기술 리더십을 지켜가기 위해서는 장기적인 기술 로드맵을 바탕으로 핵심 기술을 미리 준비해야 합니다. 설계 측면에서는 차세대 미세 공정 도입 시 수반되는 리스크를 정교하게 예측하는 시스템 개발 등 설계 시스템을 더욱 고도화해 구성원의 부담을 줄이고, 더 나아가 회사의 경쟁력을 이어갈 수 있게 노력하겠습니다.

SK하이닉스는 연내 1c DDR5의 양산 준비를 마치고 내년부터 시장에 제품을 본격 공급할 계획이다. 최고의 성능과 원가 경쟁력을 동시에 충족시킨 1c 기술은 앞으로 회사의 1등 리더십을 더욱 공고히 해줄 것으로 기대를 모으고 있다. 끝으로, 좌담회 참여자들은 D램의 새로운 패러다임을 연 주역으로서 소감과 포부를 전했다.

[세계 최초 10나노급 6세대 1c DDR5 개발 주역 좌담회] SK하이닉스, D램 1등 기술 리더십으로 새로운 패러다임 연다_인물_01_2024

▲ 왼쪽부터 조영만 부사장(DRAM PI), 손수용 부사장(개발 TEST), 오태경 부사장(1c Tech TF), 정창교 부사장(DRAM PE), 조주환 부사장(DRAM 설계), 김형수 부사장(DRAM AE)

오태경(1c Tech TF): 1등 개발이 끝이 아닙니다. 남은 기간 동안 부족한 부분을 보완하여 안정적인 양산 수율과 원가 경쟁력을 지속 개선할 계획이며, 이를 통해 SK하이닉스의 1등 리더십을 사수하겠습니다.

조주환(DRAM 설계): SK하이닉스는 이제 DDR5 개발에서 진정한 선두 주자로 자리매김했습니다. 1c 기술의 성공을 기반으로, 1d 및 그 이후 세대에서도 혁신적인 제품을 선보일 수 있도록 지속적으로 경쟁력을 강화하겠습니다.

조영만(DRAM PI): AI 메모리 수요가 폭발적으로 증가하며, 고성능 메모리에 대한 고객들의 기대 역시 커지고 있는 상황입니다. 이러한 시점에 1c DDR5 개발에 성공한 것은 매우 고무적인 성과라 생각합니다. 이를 바탕으로 SK하이닉스의 DDR5가 고성능 AI 메모리 시장을 선점할 수 있도록 계속해서 노력하겠습니다.

정창교(DRAM PE): SK하이닉스의 기술 리더십이 세계 최고임을 증명했으며, 시장에서 필요로 하는 제품을 적기 개발하여 고객의 신뢰까지 높였다는 것이 기쁘고 자랑스럽습니다. 이후에도 수율과 품질 문제를 해결하여 더욱 완성도 있는 제품을 출시할 수 있도록 노력하겠습니다.

손수용(개발TEST): 이번 성과는 오랜 노력의 결실이라 생각합니다. SKMS(SK Management System)를 기반으로 우수한 기업 문화와 원팀 협업을 통해 지속적으로 성장하고 발전할 수 있도록 앞으로도 구성원들과 함께 노력하겠습니다.

김형수(DRAM AE): SK하이닉스의 1c DDR5는 앞으로 고성능 서버 시스템의 기준이 될 것이고, 압도적인 기술력으로 시장을 선도할 것입니다. 개발에 참여한 모든 구성원들의 노력과 헌신의 결과라고 생각합니다. 앞으로도 세계 최고라는 타이틀을 지켜나갈 수 있도록 함께 노력하겠습니다.

]]>
/1c-ddr5-roundtable-discussion/feed/ 0
‘SK하이닉스 미래포럼’ 성료… “차세대 기술·제품 개발에 최선, 글로벌 No.1 지킨다” /future-forum-2024/ /future-forum-2024/#respond Wed, 04 Sep 2024 23:00:00 +0000 http://localhost:8080/future-forum-2024/ SK하이닉스가 5일 경기 이천 본사에서 ‘원팀(One Team)으로 넥스트(Next)를 준비하는 SK하이닉스 미래포럼(이하 미래포럼)’을 열었다고 밝혔다.

이번 행사에는 SK하이닉스 곽노정 대표이사 사장, SKHU* 홍상후 총장을 비롯한 주요 임원진과 국내 주요 대학 교수진이 참석해 차세대 반도체 기술 및 제품에 대해 열띤 토론을 펼치고 인사이트를 공유했다. 또, 온·오프라인으로 행사에 참석한 SK하이닉스 구성원들은 원팀(One Team)으로 회사의 미래와 방향성에 대해 함께 공감하고, 고민하는 등 의미 있는 시간을 가졌다고 회사는 전했다.

* SKHU(SK hynix University): 대학 학제 체계를 갖춘 사내 교육 플랫폼

곽노정 사장 “전문가적 시각에서 치열하게 고민하고 이를 실현시켜 나가는 시퀀스 정립하자”

미래포럼은 ‘HBM 이후에도 회사가 시장 우위를 지키는 한편, 메모리의 가치를 높이고 AI 시대를 이끌어갈 방법을 내외부 전문가와 함께 찾아본다’는 취지로 기획됐다. 이날 포럼에서는 ‘메모리 중심(Memory Centric) 시대의 주인공, SK하이닉스의 미래’를 주제로 2개의 세션이 진행됐다.

김장우(서울대 전기·정보공학부), 김상범(서울대 재료공학부), 노원우(연세대 전기전자공학부), 유민수(카이스트 전기및전자공학부) 교수 등 전문가들이 기술 변화 트렌드를 전했고, SK하이닉스 박경(System Architecture 담당), 손호영(Advanced PKG개발 담당), 임의철(Solution AT 담당), 이세호(미래메모리연구 담당) 부사장 등 내부 전문가들이 ‘트렌드에 발맞춘 SK하이닉스의 메모리 기술과 도전’을 소개했다.

신창환(고려대 전기전자공학부), 권석준(성균관대 화학공학/고분자공학부), 유회준(카이스트 전기및전자공학부) 교수, 이유봉 한국법제연구원 팀장 등 외부 전문가와 SK하이닉스 구성원들이 함께 반도체의 미래에 관해 토론하는 시간도 이어졌다.

곽노정 사장은 “인공지능이 본격적으로 발전하고 가속화하면서 미래가 명확해지고, 예측 가능해질 줄 알았는데 훨씬 모호하고 예측이 어려워졌다”며 “다양한 시나리오에 기반하여 어떻게 미래를 준비할지 폭넓게 고민하고 이야기해야 하는 상황이 됐다”고 포럼의 취지를 밝혔다.

또, 곽 사장은 “전문가적 시각에서 치열하게 고민하고 토론하여 방향을 설정하고 다함께 공감대를 형성하는 과정이 필요하며, 이를 실현시켜 나가는 일련의 시퀀스(Sequence)를 정립해야 한다”며 “많은 구성원이 적극적으로 참여해 이번 포럼을 의미 있게 만들어 주길 기대한다”고 덧붙였다.

내·외부 전문가 모여 열띤 논의… 원팀으로 미래 모색하는 ‘학습의 장’ 펼쳐져

첫 순서로 ‘AI시대, SK하이닉스와 미래 반도체 기술 변화’ 세션에서는 3개의 주제 발표가 진행됐다. 첫 발표에서는 ‘AI향 메모리의 향방’을 주제로 김장우, 노원우 교수가 ‘AI 연산용 서버/데이터센터 아키텍처’, ‘거대언어모델(Large Language Model, LLM) 발전 방향 및 메모리의 역할’에 대해 각각 발표했다. 이어 박경 부사장이 ‘CXL*을 포함, 제2의 HBM으로 거듭날 차세대 메모리, 스토리지 제품에 대해 발표했다.

* CXL(Compute Express Link): 고성능 컴퓨팅 시스템을 효율적으로 구축하기 위한 PCIe 기반 차세대 인터커넥트 프로토콜. 기존 D램 제품과 함께 서버 시스템의 메모리 대역폭을 늘려 성능을 향상하고, 쉽게 메모리 용량을 확대할 수 있는 차세대 메모리 솔루션

두 번째 주제는 ‘메모리 중심 시대’였다. 발표를 맡은 유민수 교수는 메모리와 컴퓨팅의 융합, 이종집적*에 대한 인사이트를 제공했다. 또, 손호영, 임의철 부사장은 거대언어모델(LLM) 발전에 따른 기술적 준비 사항을 이야기하며 데이터 이동 거리를 최소화하는 방향으로 고도화 중인 PIM*, 이를 구현하기 위한 Advanced 패키지 기술인 칩렛/SiP* 등 메모리 중심 시대를 이끌 기술과 제품을 소개했다.

* 이종집적(Heterogeneous Integration, HI): 로직, 메모리, 센서 등 다양한 종류의 칩을 하나의 패키지 내에 만드는 기술
* PIM(Processing-In-Memory): 메모리 반도체에 연산 기능을 더해 인공지능(AI)과 빅데이터 처리 분야에서 데이터 이동 정체 문제를 풀 수 있는 차세대 기술
* SiP(System in Package): 여러 소자를 하나의 패키지로 만들어 시스템을 구현하게 하는 패키지의 일종

‘뉴로모픽* 컴퓨팅 & 반도체’를 주제로 진행된 마지막 발표는 김상범 교수와 이세호 부사장이 맡았다. 두 전문가는 ‘뉴로모픽 컴퓨팅의 현재와 미래’, ‘뉴로모픽 컴퓨팅을 위한 기술’을 각각 발표했다. 이 부사장은 이 자리에서 ACiM*을 언급하며, 새로운 비즈니스 모델을 만들기 위해 노력하고 있다고 전했다.

* 뉴로모픽(Neuromorphic): 인간의 뇌 신경망 구조를 흉내 낸 것으로 뉴로는 신경, 모픽은 형상을 의미
* ACiM(Analog-Compute in Memory): 컴퓨팅과 메모리 사이의 경계를 없앤 차세대 AI 반도체를 위한 기술

SK하이이닉스 미래포럼에서 차선용 부사장(미래기술연구원 담당)이 첫 세션의 내용을 일목요연하게 정리하고 있다.

▲ SK하이닉스 미래포럼에서 차선용 부사장(미래기술연구원 담당)이 첫 세션의 내용을 일목요연하게 정리하고 있다.

세션 마지막에는 차선용 부사장(미래기술연구원 담당)이 무대에 올라 “다양한 기술 혁신으로 새 비즈니스를 창출하고 사업 영역을 확대하기 위해 중장기적 연구 개발 전략을 수립 및 실행해 나갈 것”이라고 말했다.

SK하이닉스_미래포럼_성료_차세대_기술제품_개발에_최선_글로벌_No1_지킨다_15_행사_사진_2024

▲ SK하이닉스 미래포럼에서 내외부 전문가들과 구성원들이 함께 미래 반도체에 관해 이야기하고 있다.

두 번째 순서로 ‘구성원과 그리는 반도체의 미래’ 세션에서는 송창록 부사장(CIS 담당)이 진행하는 토론 프로그램이 열렸다. 여기에는 신창환, 권석준, 유회준 교수와 이유봉 팀장이 참석, ‘반도체의 미래’와 관련된 구성원들의 질문에 답했다. 이 시간에는 ▲반도체 기술 발전 방향과 신기술 ▲글로벌 정세 ▲AI 반도체 시대에 고려해야 할 정책·법률·규제·인프라 등 여러 주제의 이야기가 오갔다.

포럼은 홍상후 총장의 폐회사로 마무리됐다. 홍 총장은 “오늘 논의한 아이디어가 구성원들이 성장하는 데 밑거름이 될 것으로 확신한다”며, “SKHU는 리서치 활동을 확장, 향후 회사의 기술 변화를 선도할 인재 육성에 주력하고, 미래 반도체 혁신을 이끌 수 있도록 노력할 것”이라고 밝혔다.

수개월 준비해 전문성 높인 포럼… 값진 성과 모아 연구·개발에 반영

SK하이닉스는 미래포럼에서 얻은 인사이트를 각 사업에 반영, 미래 시장 선점을 위한 연구·개발에 활용한다는 계획이다.

포럼의 수준을 높이기 위해 회사는 앞서 4개월 전부터 행사를 준비하며 공을 들였다. 회사는 여러 사내 조직들을 인터뷰하며 ‘메모리 중심의 솔루션 프로바이더(Memory Centric Solution Provider)’로 체질을 바꾸고 이종집적 및 뉴로모픽칩, 커스텀 및 데이터센터향 제품으로 포스트 폰 노이만 시대*를 준비해야 한다는 결론을 도출했다. 외부 기관 연구를 분석해 로직·메모리 융복합과 이종집적이 대세로 떠오르고 있는 트렌드도 확인했다. 이에 따라 발표 주제를 선정하고 관련 전문가를 섭외하며 포럼의 밀도를 높였다.

* 포스트 폰 노이만(Post Von Neumann): 데이터의 저장과 연산을 분리했던 기존 폰 노이만을 뛰어넘어 저장과 연산의 경계를 허무는 차세대 컴퓨팅 방식

SK하이닉스는 포럼을 통해 얻은 성과를 연구·개발에 활용하기에 앞서 전 구성원에게 공유하고 SKHU 커리큘럼에도 적극 반영할 예정이다. 이를 통해 회사는 구성원 역량을 강화하고 연구·개발을 지속해 미래 반도체 시장 리더십을 이어가겠다는 계획이다.

]]>
/future-forum-2024/feed/ 0
[All Around AI 4편] 딥러닝의 이해 /all-around-ai-4/ /all-around-ai-4/#respond Tue, 27 Aug 2024 15:00:00 +0000 http://localhost:8080/all-around-ai-4/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 <AAA – All Around AI>에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서 머신러닝(Machine Learning, 기계 학습)이 기존의 규칙 기반 인공지능에 비해 가지는 강점과 차이점을 알아보았습니다. 이번에는 딥러닝(Deep Learning, 심층 학습)의 개념과 대표적인 신경망 구조 등에 대해 살펴봅니다.

 

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

딥러닝의 개념

딥러닝의_이해_머신러닝과_딥러닝의_차이

▲ 머신 러닝과 딥러닝의 차이

딥러닝은 머신 러닝의 한 분야지만, 전통적인 머신 러닝 기법들과는 접근법에서 큰 차이를 보인다. 전통적인 머신 러닝은 도메인 지식*을 활용해 데이터의 특징(Feature)을 추출하고 이를 디자인한다. 이 과정은 사람의 시행착오와 노력이 필요했다. 다만, 훈련 과정은 비교적 쉬운 작업으로 디자인한 특징들에 적용할 가중치(Weight)만 학습하면 훈련이 완료되었다.

* 도메인 지식(Domain Knowledge): 특정 분야나 문제에 대한 전문적인 지식과 이해를 의미한다. 머신 러닝에서 도메인 지식은 해당 데이터의 특징(Feature)을 이해하고, 설계하는 과정에서 중요한 역할을 한다.

이와 달리 딥러닝은 심층 신경망(Deep Neural Network, DNN)을 사용해 복잡한 데이터 특성을 스스로 학습하고 추출한다. 여러 층(Layer)으로 이루어진 심층 신경망은 이전 층의 출력을 입력으로 받아 특정한 변환을 수행한 후 이를 그 다음 층으로 전달한다. 이 변환 과정은 뉴런* 간의 연결선에 할당되는 학습 가능한 파라미터*들과 활성화 함수*로 이뤄지며, 이 파라미터 값을 적절히 설정하는 것이 학습의 핵심이다.

* 뉴런(Neuron): 입력 신호를 받아 처리하고 출력을 생성하는 기본 단위. 노드(node)라고도 한다.
* 학습 가능한 파라미터(Learnable Parameter): 뉴런 간의 연결 강도를 나타내는 값으로, 주로 가중치(weight)와 편향(Bias)이 포함된다. 이 파라미터들은 학습 과정에서 최적화 알고리즘에 의해 조정되어 모델이 주어진 데이터에 대해 최적의 예측을 할 수 있도록 한다.
* 활성화 함수(Activation Function): 입력 신호의 총합을 비선형적으로 변환하여 뉴런의 최종 출력을 결정하는 함수

물론, 딥러닝에도 단점은 있다. 첫째, 많은 파라미터와 데이터가 필요해 상당한 연산량과 시간이 소요된다. 둘째, 심층 신경망을 잘 훈련시키기 위해 필요한 하이퍼파라미터(Hyperparameter)*를 찾기 위해서는 여전히 많은 시행착오가 필요하다. 마지막으로 딥러닝 모델은 그 작동 방식이 복잡해 어떤 요소가 예측에 중요한 역할을 하는지 파악하기 어렵다. 이는 딥러닝에 대한 신뢰성 문제로 이어져 실생활에 AI 모델을 적용하는 데 여러 법적, 제도적 걸림돌을 초래하고 있다.

* 하이퍼파라미터(Hyperparameter): 학습 가능한 파라미터와는 달리 학습 과정에서 자동으로 조정되지 않고 사전에 정의되는 값

그럼에도 딥러닝은 스스로 특징을 추출하는 성능 때문에 기존의 머신 러닝 방법론에 비해 월등히 우수한 성능을 보이며, 오늘날 인공지능 방법론의 대표 주자로 자리매김했다.

심층 신경망의 구조

딥러닝에서 사용되는 심층 신경망은 크게 세 가지 주요 층으로 구성되며, 각 층의 역할과 기능은 다음과 같다.

딥러닝의_이해_심층_신경망의_구조

입력층(Input Layer)
입력층은 신경망에 데이터를 제공하는 첫 번째 층이다. 이 층은 외부로부터 데이터를 받아 신경망의 내부로 전달하는 역할을 한다. 예를 들어 이미지 처리에서는 각 픽셀의 값이 입력층으로 들어가며, 자연어 처리에서는 단어 또는 문자의 숫자화된 형태가 입력층으로 입력된다.

은닉층 (Hidden Layer)
은닉층은 데이터의 패턴이나 특징을 학습하는 층이다. 각 은닉층은 이전 층으로부터의 입력값을 받아 처리하고 다음 층으로 결과를 전달한다. 이 과정에서 각 입력값에 특정 가중치를 곱하여 중요한 특징을 더 잘 인식할 수 있게 한다. 은닉층의 수는 문제의 복잡성, 데이터의 양, 그리고 모델의 성능 요구 사항에 따라 다르게 설정된다.

출력층 (Output Layer)
출력층은 신경망의 마지막 층으로 결과나 예측을 나타낸다. 출력층에서는 가능한 답들의 확률을 계산해, 가장 높은 확률을 가진 답을 최종적으로 선택한다.
심층 신경망은 이 구조를 기본으로 다양한 모델을 개발하고 개선하며 발전해 왔다. 대표적으로 ▲모든 뉴런이 서로 연결된 기본 신경망 구조인 ‘완전 연결 신경망(Fully-Connected Network)’ ▲이미지 처리에 최적화된  ‘합성곱 신경망(Convolutional Neural Network)’ ▲문장 번역이나 음성 인식 같은 연속된 데이터 처리에 적합한 ‘순환 신경망(Recurrent Neural Network)’ ▲복잡한 이미지 분류 작업에 사용되는 ‘잔차 신경망(Residual Network)’ ▲자연어 처리 분야에서 처음 제안되어 챗GPT(ChatGPT)를 비롯한 거대 언어 모델(Large Language Model, LLM) 등 최신 AI 모델의 근간이 되는 ‘트랜스포머(Transformer)’ 등이 있다.

이와 같은 신경망 구조들은 각각의 특성에 맞춰 다양한 분야에서 활용되며, 딥러닝의 예측 성능을 높이는 데 기여하고 있다.

심층 신경망의 학습 과정

심층 신경망의 학습 과정은 크게 순전파와 역전파 과정으로 구성된다. 순전파는 입력 데이터를 신경망에 정방향으로 통과시켜 예측값을 얻는 과정이다. 즉, 입력 데이터가 신경망에 주어지면, 각 층의 뉴런이 이를 처리하여 다음 층으로 전달하고, 이 과정을 반복하여 출력층에서 최종 예측값을 생성한다.

예를 들어, 손으로 쓴 숫자를 인식하는 신경망을 구성했다고 가정해 보자. 입력층에 숫자 이미지가 제공되면, 첫 번째 은닉층은 이미지의 간단한 특징들(예: 선의 방향, 모서리)을 추출하여, 이를 다음 층으로 전달한다. 마지막 은닉층은 훨씬 더 복잡한 특징들을 결합하여 숫자를 판별하는 데 필요한 정보를 형성한다. 이렇게 순전파를 통해 최종적으로 예측 결과를 얻게 되는 것이다.

이후 이 예측값과 실제값(라벨)을 비교하여 손실 함수로 예측의 정확도를 평가한다. 손실이 크다는 것은 예측이 실제값과 많이 다르다는 뜻이다. 손실이 계산되면 역전파 과정이 시작된다. 역전파는 손실값을 최소화하기 위해 신경망의 파라미터 값을 조정하는 과정이다. 이 과정은 순전파와는 반대로, 출력층에서 입력층 방향으로 진행된다.

출력층에서 손실 함수의 변화에 따른 기울기(Gradient)를 계산하고, 이 기울기와 각 뉴런의 활성화 함수 기울기를 바탕으로 각 파라미터가 손실 함수에 미치는 영향을 평가한다. 이렇게 파라미터에 대한 손실 함수의 기울기가 계산되면, 경사 하강법* 등의 최적화 알고리즘을 사용해 파라미터 값을 손실 함수가 작아지는 방향으로 업데이트한다. 신경망은 이 과정을 여러 번 반복해 점점 더 정확한 예측을 하는 모델로 발전하게 된다.

* 경사 하강법(Gradient Descent: 비용 함수를 최소화하기 위해 기울기를 따라 매개변수를 업데이트하는 최적화 알고리즘

한편, 일반적으로 신경망의 출력 층은 마지막 은닉층 뉴런들의 출력값에 가중치(Weight)를 곱한 후 이들을 더해 예측값을 출력한다. 때문에 맨 마지막 은닉층 뉴런의 출력값은 신경망이 데이터로부터 학습하고 추출해 낸 특징으로 간주할 수 있다.

딥러닝의 역사를 바꾼 대표 사례

최근 10여 년간 딥러닝은 수많은 성공 사례를 보여주면서 인공지능의 양적/질적 성장을 주도해 왔다. 대표 사례를 몇 가지 꼽자면 아래와 같다.

1)합성곱 신경망과 이미지넷(ImageNet)

이미지 인식 분야는 딥러닝이 크게 발전시킨 분야 중 하나로, 여기에는 합성곱 신경망의 역할이 컸다. 합성곱 신경망은 이미지의 지엽적인 부분에서 패턴을 추출하는 데 특화된 구조로, 여러 합성곱 층을 쌓아 이미지의 계층적 구조를 효과적으로 파악하고 특성을 추출하는 모델을 만들 수 있다.

이러한 딥러닝 방법론의 우수성을 널리 알린 대표적인 사례는 2012년의 이미지넷 대규모 시각 인식 챌린지(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)이다. 이 대회에서 토론토 대학의 제프리 힌튼(Geoffrey E. Hinton) 교수의 연구팀이 개발한 AlexNet이라는 딥러닝 모델은 기존의 전통적인 기계 학습 방법론들을 크게 능가하는 성능을 보이며 우승을 차지했다. 당시 AlexNet의 에러율은 15.3%로, 2등을 차지한 모델인 26.2%에 비교하면 매우 낮은 수치다. 이러한 성과는 컴퓨터 비전 분야에 큰 충격을 안겨주었고, 이후 딥러닝은 컴퓨터 비전의 다양한 분야에서 뛰어난 성능을 보여주고 있다.

2) 알파고, 바둑을 마스터하다

바둑은 경우의 수가 워낙 많아 AI가 정복하기 불가능한 게임이라 여겨왔다. 그러나 구글 딥마인드에서 개발한 알파고는 이런 믿음을 완전히 깨부수며 AI의 능력에 대한 대중의 관심을 불러일으켰다.

2016년, 알파고는 프로바둑기사 이세돌 선수와 대결을 펼쳤다. 실제 대국이 이뤄지기 전까지는 인공지능이 정상의 프로기사를 넘어서기에는 아직 부족하다는 예상이 지배적이었으나, 실제 이뤄진 대국에서는 4:1로 알파고가 이세돌 선수를 압도하며 세계를 놀라게 했다. 이처럼 놀라운 성능의 바둑 AI를 만들기 위한 딥마인드의 접근법은 딥러닝, 강화 학습 그리고 확률적 탐색 알고리즘을 접목시키는 것이었다. 인간의 기보를 통해 바둑판의 돌의 배열 상태와 수에 대한 ‘점수’를 심층 신경망으로 학습하고, 강화 학습을 사용해 스스로 대국을 반복하며 전략을 정교하게 다듬어 뛰어난 실력을 연마할 수 있었다.

3) 또 다른 딥마인드의 혁신, 알파폴드

▲ 알파폴드는 오랫동안 난제로 여겨져온 ‘단백질 접힘 문제’를 AI라는 새로운 접근법을 통해 효율적으로 풀어가고 있다.

알파고 이후 구글 딥마인드가 2018년에 처음 발표한 알파폴드(AlphaFold)는 단백질의 3차원 구조를 높은 정확도로 예측할 수 있는 딥러닝 모델이다. 단백질의 접힘 구조는 신약 개발 등 의학, 생명과학 연구에서 중요한 역할을 하지만, 구조를 파악하는 데는 비용과 시간이 많이 소모된다. 알파폴드는 이 문제를 아미노산의 배열에서 3차원 구조를 예측할 수 있는 신경망을 훈련시키는 방법으로 접근했고, 단백질 구조 예측(Critical Assessment of Protein Structure Prediction, CASP) 대회에서 기존에 방법을 능가하는 성능으로 1등을 차지했다. 이후 딥마인드는 현재까지도 꾸준히 알파폴드를 업데이트하며 신약 개발에 더욱 효과적으로 활용될 수 있도록 개선하고 있다.

4) 점점 다가오는 완전자율주행시대

▲ 웨이모 드라이버가 소개하는 완전 자율주행 기술

딥러닝은 꿈으로만 여겨져 왔던 완전 자율주행을 현실로 만드는 데 핵심적인 역할을 하고 있다. 신경망을 사용해 카메라, 라이다(LiDAR), 레이더, GPS 등 다양한 센서로부터의 입력을 처리하고, 강화 학습 알고리즘을 사용해 차량의 조작 방법을 결정하는 것이다. 알파벳이 소유한 웨이모는 이미 미국 일부 지역에서 운전기사 없이 완전히 자동으로 운영되는 택시를 운행하고 있다.

또 테슬라는 오토파일럿 시스템을 중심으로 한 첨단 운전자 보조 시스템(Advanced Driver Assistance System, ADAS)을 제공하며 궁극적으로 운전자 없는 완전 자율 주행을 목표로 하고 있다. 테슬라는 라이다와 레이더 센서에 대한 의존도를 최소화하고, 차량에 장착된 다수의 카메라로 주변을 인식해 판단한다. 테슬라는 방대한 실제 주행 데이터를 활용하여 지속적으로 모델을 개선하고 있다. 이러한 기술적 진보는 완전 자율주행 시대에 대한 기대감을 불러왔지만, 기술의 안정성에 대한 법적·제도적 승인 등 여전히 극복해야 할 장애물은 남아 있다.

5) GPT 시리즈의 등장

오픈AI(OpenAI)가 개발한 GPT(Generative Pre-trained Transformer) 시리즈는 트랜스포머 구조를 기반으로 한 대형 언어 모델(Large Language Model, LLM)의 일종이다. 이 대형 언어 모델이 하는 일은 생각 외로 간단한데, 주어진 맥락을 바탕으로 다음에 올 자연스러운 단어를 예측하는 것이다. 모델의 크기가 커지고 데이터가 많아질수록, 처리할 수 있는 맥락의 길이도 길어지고, 번역, 질의응답, 작문까지도 수행할 수 있다.

2022년, GPT-3.5를 기반으로 한 챗봇인 챗GPT가 발표되었고 곧 GPT-4로 업데이트 되었는데, 자연스러운 대화 기능과 작문 능력으로 사회 전반에 엄청난 충격을 주었다. 교육, 사무, 작문, 개발 등 실생활 전반에서 생산성을 비약적으로 향상시켜줄 수 있는 대형 언어 모델의 잠재성을 증명했기 때문에, 챗GPT의 성공은 인공지능 업계에 큰 변화를 불러일으켰다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

]]>
/all-around-ai-4/feed/ 0
[All Around AI 3편] 머신러닝의 이해 /all-around-ai-3/ /all-around-ai-3/#respond Mon, 24 Jun 2024 15:00:00 +0000 http://localhost:8080/all-around-ai-3/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 <AAA – All Around AI>에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서 인공지능의 발전 역사와 동작 원리를 알아보았습니다. 이번에는 인공지능의 가장 큰 줄기를 이루고 있는 머신 러닝(Machine Learning, 기계 학습)에 대해 조금 더 자세히 살펴봅니다.

 

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

머신 러닝의 개념

[All Around AI 1편]에서 언급했듯 머신 러닝은 데이터의 패턴을 스스로 학습해 예측을 수행하는 알고리즘이다. 이 기술은 데이터의 폭발적인 증가와 함께 대표적인 인공지능 방법론으로 자리매김했다. 기존의 전통적인 인공지능은 인간이 규칙과 논리를 명확히 프로그래밍해야 했다. 이는 간단한 보드게임 같이 명확한 규칙이 있는 문제에는 효과적이었지만, 복잡한 데이터나 규칙을 다루는 경우 한계를 보였다. 예를 들어, 사진에서 고양이를 구별할 수 있는 인공지능을 만든다고 생각해 보자. 사진 속 수많은 픽셀에서 RGB 값이나 고양이의 패턴을 어떻게 처리할지, 어떤 방식으로 규칙을 설정할지 고민해 보면 이를 프로그래밍하는 일이 얼마나 어려운지를 실감하게 된다.

머신러닝의 이해_01_2024_그래픽

머신 러닝은 데이터 안에 숨겨진 복잡한 구조나 패턴을 발견하고, 이를 스스로 학습해 새로운 데이터의 예측을 수행하는 방식이다. 예를 들어 고양이의 유무를 판단하는 인공지능을 머신 러닝으로 만드는 경우, 다양한 사진(데이터)을 모아 알고리즘으로 학습시켜서, 고양이를 판단하는 방법을 스스로 파악하게 한다.

머신 러닝을 구현하는 과정은 크게 데이터 수집, 학습 모델 선택, 목적 함수 정의, 파라미터 학습 단계로 나눌 수 있다. 데이터 수집 단계에서는 학습에 필요한 데이터를 모으고, 학습 모델 선택 단계에서는 수집한 데이터를 가장 잘 표현할 수 있는 학습 모델을 선택한다. 목적 함수 정의 단계에서는 모델의 성능을 측정하기 위한 기준을 설정한다. 주로 모델의 예측이 실제 데이터와 얼마나 잘 일치하는지를 나타내는 손실 함수*로 표현된다. 마지막으로 파라미터 학습 단계에서는 파라미터를 조정하며 손실 함수를 최소화하는 방향으로 학습을 진행한다. [All Around AI 2편]에서 자세히 보기

* 손실 함수(Loss Function): 모델의 예측이 실제 데이터와 얼마나 차이 나는지를 측정하는 지표. 모델 학습을 통해 최소화되어야 할 핵심 값으로, 예측 정확도를 향상시키는 데 중요한 역할을 한다.

머신 러닝 알고리즘의 종류와 특징

머신 러닝 알고리즘은 실세계에 내재한 확률 분포*에서 데이터를 추출하고, 이 데이터를 기반으로 모델을 훈련해 문제를 해결하는 것이 핵심이다. 학습하려는 문제의 유형에 따라 크게 세 가지로 나뉘며, 각각 고유한 특성과 응용 분야를 가지고 있다.

* 확률 분포(Probability Distribution): 데이터를 수학적으로 설명하는 모델로 이를 통해 데이터의 패턴과 구조를 파악한다.

1) 지도 학습(Supervised Learning)

지도 학습은 입력 데이터와 함께 ‘정답(라벨, label)’을 학습하는 방식이다. 모델은 이 데이터-라벨을 쌍으로 학습하여 새로운 데이터에 대한 정답을 예측한다. 예를 들어 사진 속 인물의 성별을 예측하는 인공지능 개발은 지도 학습의 예시로 볼 수 있다. 이때, 사진은 입력 데이터로 성별은 ‘정답’으로 제공된다. 이를 통해 모델은 남성과 여성을 구별하는 패턴을 학습하고, 추후 새로운 사진의 성별을 예측한다. 지도 학습은 라벨의 속성에 따라 다시 두 가지 유형으로 나뉜다.

• 분류(Classification): 라벨이 이산적(Discrete)으로 주어지는 경우다. 예를 들어 사진 속 강아지의 유무를 판단하는 문제, 손으로 쓴 글씨를 보고 알파벳을 구분하는 문제 등이 여기에 해당한다. 이 경우 데이터는 특정 카테고리에 속하며, 소속 카테고리가 라벨로 지정된다.

• 회귀(Regression): 라벨이 연속적인 숫자로 주어지는 경우다. 예를 들어 집의 평수와 위치 등을 바탕으로 집값을 예측하는 문제, 기상 데이터로부터 다음날의 기온을 예측하는 문제 등 정답이 될 숫자를 가능한 정확하게 예측해야 하는 상황에 해당한다.

2) 비지도 학습(Unsupervised Learning)

명칭에서 알 수 있듯이, 비지도 학습은 지도 학습과 달리 명시적인 ‘지도(Supervision)’, 즉 라벨이 없이 데이터만을 학습한다. 이 방법은 데이터가 나타내는 확률 분포의 특성을 파악해 학습하는 것을 목표로 한다. 비지도 학습의 주요 방법은 다음과 같다.

• 군집화(Clustering): 비슷한 특성을 가진 데이터를 그룹으로 묶어 확률 분포에 숨은 패턴을 파악하는 데 목적이 있다. 실제 반도체 공정에서 불량으로 판정된 웨이퍼 사진을 모아 군집화 알고리즘을 적용한 결과, 불량 원인에 따라 몇 가지 유형으로 분류할 수 있었다.

• 차원 축소(Dimensionality Reduction): 고차원 데이터를 저차원으로 축소해 복잡한 데이터에서 중요한 정보만을 남기고 단순화하는 기술이다. 이는 데이터 분석과 시각화에 도움이 된다. 대표적으로 주성분 분석*이 있다.

* 주성분 분석(Principal Component Analysis): 고차원 데이터를 저차원으로 축소하는 통계적 기법. 데이터의 차원을 축소함으로써, 계산 효율성을 높이고, 불필요한 정보(노이즈 등)를 제거하여 데이터의 핵심 특성을 더욱 명확하게 이해할 수 있게 한다.

최근 주목 받는 생성형 AI 기술도 비지도 학습의 범주에 포함할 수 있다. 이는 데이터로부터 확률 분포를 학습하고, 이를 통해 새로운 데이터를 생성하는 것으로 볼 수 있기 때문이다. 예를 들어 챗GPT는 ‘자연어 확률 분포’를 학습하고, 이를 통해 주어진 텍스트의 다음 단어를 예측한다고 볼 수 있다. 그러나 생성형 AI를 훈련하기 위해 지도 학습 기법이 사용되기도 하므로 완전한 비지도 학습으로 볼 수 있는지는 이견의 여지가 있다.

3) 강화 학습(Reinforcement Learning)

모델이 주변 환경과 상호작용을 하며 최대한 많은 ‘보상’을 받도록 학습하는 것이 목표다. 특히 문제가 순차적 의사결정이 필요한 곳에서 효과적이다. 예컨대 로봇이 주어진 환경에서 장애물을 피하며 목적지까지 이동하는 최적의 경로를 찾는 경우와 같이 로보틱스 분야나 자율 주행, 게임 AI 등에 많이 활용된다. 최근에는 챗GPT 등의 대형 언어 모델을 인간의 선호와 일치시키기 위해 인간 피드백을 통한 강화 학습*도 많은 주목을 받고 있다.

* 인간 피드백을 통한 강화 학습(Reinforcement Learning With Human Feedback): 인간의 피드백을 기반으로 보상받으며 학습하는 방법. 모델이 생성한 결과에 대한 인간의 반응이나 평가를 통해 보상을 조정하고, 이를 통해 모델은 인간에게 맞춰진 반응을 할 수 있게 학습한다.

▲ 인공지능의 벽돌 깨기 게임 영상. 대표적인 강화 학습 사례로 인공지능에게 ‘벽돌을 많이 깨면 더 높은 점수를 올릴 수 있다’는 규칙을 주자 인공지능 스스로 벽돌을 더 많이 깰 수 있는 방법을 터득한다.

머신 러닝의 성능 평가

머신 러닝의 궁극적인 목표는 실제 환경에서 처음 보는 데이터에도 우수한 성능을 보이게 하는 것이다. 즉, 모델이 일반화(Generalization) 능력을 갖추는 것이 중요하다. 이를 위해서는 모델의 성능을 정확하게 평가하고 검증하는 것이 필수다. 그렇다면 모델의 성능은 어떻게 평가해야 할까?

1) 성능 지표 선택

머신 러닝의 성능을 평가하는 데는 문제의 유형에 따라 다양한 지표를 사용한다. 분류 문제의 경우 일반적으로 정확도(Accuracy), 정밀도(Precision), 재현율(Recall)을 성능 지표로 활용한다.

먼저, 정확도는 전체 예측 중 올바르게 예측한 비율을 나타낸다. 가령 의료 진단 테스트에서 100번의 테스트 중 95번을 정확하게 진단했다면 정확도는 95%이다. 그러나 이를 위해서는 균형 잡힌 데이터셋이 필요하다. 만약 100개의 샘플 중 95개가 음성이고 5개만 양성이라고 하자. 이 경우 모델이 모든 샘플을 음성으로 예측해도 정확도는 95%가 된다. 이는 높은 정확도처럼 보이지만, 실제로 모델은 양성 샘플을 전혀 예측하지 못했을 수 있다.

정밀도는 ‘모델이 양성으로 예측한 것’ 중 ‘실제로 양성인 것’의 비율을, 재현율은 ‘실제 양성’ 중 ‘모델이 양성으로 예측한’ 비율이다. 이들은 서로 트레이드 오프 관계, 즉 하나를 높이면 다른 하나는 낮아질 수 있어, 둘 사이의 균형과 목적을 고려해 모델을 최적화한다. 이를 테면, 의료 검사에서는 재현율을 높이는 것이, 이메일 스팸 필터에서는 정밀도를 더 중요하게 생각하는 식이다. 이 문제를 해결하기 위해 정밀도와 재현율의 조화를 평가하는 F1 스코어*를 사용하기도 한다.

* F1 스코어(F1-Score): 정밀도와 재현율의 조화평균으로 데이터 분류 클래스의 불균형이 심할 때 사용한다. 0과 1 사이의 값이며 1에 가까울수록 분류 성능이 좋고 할 수 있다.

회귀 문제의 경우는 평균 제곱 오차*, 제곱근 평균 제곱 오차*, 평균 절대 오차* 등을 사용해서 모델의 성능을 평가한다.

* 평균 제곱 오차(MSE): 예측값과 실제값의 차이를 제곱한 후 평균을 낸 값
* 제곱근 평균 제곱 오차(RMSE): MSE의 제곱근으로, 오차의 크기를 실제 값의 단위와 동일하게 표현
* 평균 절대 오차(MAE): 예측값과 실제값 차이의 절댓값을 평균한 값

2) 성능 평가 방법

머신러닝의 이해_02_2024_그래픽

머신 러닝 모델의 평가는 주로 데이터를 훈련 세트와 테스트 세트로 나누어 진행한다. 이 과정을 통해 모델이 새로운 데이터를 얼마나 잘 일반화할 수 있는지 확인할 수 있다.

• 훈련-테스트 분할법(Train-Test Split): 가장 간단한 방법의 하나는 수집된 데이터를 훈련 세트와 테스트 세트로 나누는 방법이다. 훈련 세트로 모델을 훈련한 후, 테스트 세트로 모델의 예측 성능을 평가해 일반화 성능을 가늠한다. 일반적으로 전체 데이터 중 약 70~80%를 훈련 세트에 활용한다.

• 교차 검증(Cross Validation): 교차 검증은 데이터를 K개의 세트로 나눠서, K개 중 한 세트를 제외한 나머지로 모델을 훈련한 뒤, 제외한 세트로 성능을 평가한다. 이 과정을 K번 반복해 평균 성능을 구한다. 교차 검증법은 전통적인 기계 학습에서 많이 사용하던 방법이지만, 시간이 많이 소요되어 심층 학습에서는 훈련-테스트 분할법을 더 선호한다.

3) 성능 평가 및 해석

위 평가 방법을 통해 얻어진 결과는 모델의 성능 향상을 위한 중요한 피드백을 제공하며, 문제가 있을 때는 주로 두 가지 현상이 나타난다.

• 과소적합(Underfitting): 모델이 너무 단순해서 데이터의 기본적인 패턴을 학습하지 못하는 경우로 훈련 및 테스트 세트 모두에서 성능이 미달일 경우 과소적합이 발생했다고 볼 수 있다. 가령 회귀 문제에서 실제 데이터가 2차 함수인데 예측 모델을 1차 함수로 설정했다면, 데이터의 패턴을 포착하기 위한 표현력(Expressivity)이 부족해서 과소적합으로 이어질 수 있다.

• 과대적합(Overfitting): 모델이 너무 복잡해서 기본적인 패턴뿐 아니라 노이즈 등 불필요한 부분까지 학습해 발생한다. 이에 따라 모델은 학습 데이터에 대해서는 높은 성능을 보이지만, 테스트 데이터나 새로운 데이터에서는 성능이 떨어지는 특성을 보인다. 이를 방지하고 모델의 일반화 성능을 더 정확하게 평가하기 위해 앞서 말한 교차 검증을 사용할 수 있다. 이렇게 다양한 데이터 분할에서 모델의 성능을 평가하면, 과대적합 여부를 더 정확하게 판단하고 모델 복잡도를 선택할 수 있다.

한편, 일반화 성능이 좋은 모델을 구축하기 위해서는 정규화* 등의 방법으로 과소/과대 적합 사이의 균형을 찾는 것이 중요하다고 알려져 왔다. 그러나, 최근 심층 학습에서는 과대적합이 일어난 이후에 모델의 크기를 더욱 더 키우면 과대적합이 더 심해지는 게 아니라 오히려 일반화 성능이 개선된다는 이중 하강 현상*이 발견되어 이에 대한 활발한 연구가 진행되고 있다.

* 정규화(Regularization): 모델의 과대적합을 방지하기 위해 모델의 복잡도를 제한하거나 페널티를 부과하는 학습 방법.
* 정이중 하강(Double Descent) 현상: 모델의 크기가 커질수록 성능이 먼저 저하되다가 일정 크기를 넘어서면 다시 개선되는 현상을 말한다. 이는 전통적인 통계학의 과대적합 개념에 도전하는 현상으로, 딥러닝 분야에서 새롭게 관찰되었다. 하지만 이론적으로는 아직 완전히 이해되지 않은 상태다.

]]>
/all-around-ai-3/feed/ 0
[All Around AI 2편] AI 알고리즘의 기본 개념과 작동 원리 /all-around-ai-2/ /all-around-ai-2/#respond Sun, 28 Apr 2024 15:00:00 +0000 http://localhost:8080/all-around-ai-2/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 <AAA – All Around AI>에서 AI 기술에 대한 모든 것을 알려드립니다. 2화부터는 한국인공지능학회와 함께 더욱 깊이 있고 기술적인 인사이트를 제공하고자 합니다. 이번 회차에서는 AI 알고리즘이란 무엇인지, AI 알고리즘은 어떤 과정을 거쳐 작동하는지 기본 개념을 살펴봅니다.

 

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

인공지능 알고리즘이란 무엇인가?

인공지능이란 특정 목적을 위해 설계된 컴퓨터 알고리즘*으로, 주어진 입력에 기반해 자동으로 과업을 처리한다. 이는 개발자가 직접 컴퓨터에 알고리즘을 입력하는 기존의 방법과 달리, 데이터를 기반으로 컴퓨터가 스스로 알고리즘을 학습한다는 점에서 큰 차이가 있다. 그래서 인공지능 알고리즘을 ‘알고리즘을 위한 알고리즘’이라고도 부른다.

* 알고리즘(Algorithm): 컴퓨터를 활용한 문제 해결 과정에서, 어떤 문제를 해결하기 위해 정의된 절차, 방법, 명령어 등의 집합

학습 알고리즘에서 ‘학습(Learning)’은 주어진 데이터를 분석해 특정 작업을 수행할 수 있는 규칙이나 패턴을 발견하는 과정을 뜻한다. 학습 알고리즘의 역할은 데이터로부터 주어진 과업을 수행할 알고리즘을 찾아내는 것이다. 예측 알고리즘에서 ‘예측(Prediction)’은 학습된 모형*을 사용하여 새로운 데이터에 대한 결과를 추론하는 과정을 말한다. 즉, 예측 알고리즘은 학습 알고리즘을 통해 학습되며, 특정 과업을 수행하는 역할을 한다. 이 두 알고리즘의 역할과 작동 원리를 이해하는 것은 인공지능의 기본 원리를 이해하는 데 매우 중요하다.

* 모형(Model): 학습된 규칙이나 패턴을 표현하는 수학적 또는 계산적인 구조

AI 알고리즘의 기본 개념과 작동 원리_01_인포그래픽_2024

▲ 그림 1. 인공지능 시스템 구성도

주어진 숫자 데이터를 내림차순으로 정렬하는 알고리즘을 생각해보자. 기존 방식에서는 개발자가 수학적 지식을 바탕으로 정렬 알고리즘을 설계하고, 이를 컴퓨터 프로그램으로 구현한다. 이를 인공지능의 관점에서 ‘학습’이라 할 수 있다. 이후, 개발자가 만든 정렬 알고리즘에 숫자 데이터를 입력하면, 큰 숫자부터 작은 숫자 순으로 정렬된 새로운 데이터가 출력된다. 이것은 ‘예측’에 해당하며, 개발자가 구현한 것은 예측 알고리즘으로 이해할 수 있다.

위에서 살펴본 정렬 알고리즘 개발 프로세스에서, 컴퓨터가 ‘스스로’ 개발자 역할을 수행하도록 하는 것이 인공지능의 핵심이다. 그럼 컴퓨터는 어떻게 수학적 지식 없이 정렬 알고리즘을 만들 수 있을까? 여기에 필요한 것이 학습 데이터와 학습 알고리즘이다. 정렬되기 전과 후의 다양한 데이터를 컴퓨터에 입력하면, 인공지능 학습 알고리즘이 이 데이터들을 분석하고 스스로 정렬 알고리즘을 찾아낸다. [그림 2]는 기존의 정렬 알고리즘과 인공지능이 학습한 정렬 알고리즘을 비교해서 보여준다.

AI 알고리즘의 기본 개념과 작동 원리_02_인포그래픽_2024

▲ 그림 2. 기존 알고리즘과 인공지능 알고리즘의 비교

인공지능의 놀라운 점은 알고리즘을 스스로 찾아낸다는 것이다. 예를 들어, 과거에는 언어 번역 알고리즘을 만들기 위해 컴퓨터 전문가와 언어학자들이 다양한 규칙을 개발하고 적용해 왔다. 하지만 인간의 논리로는 이해하기 어려운 언어의 복잡성 때문에 성능은 그리 좋지 않았다. 그러나 수십 만 개의 문서에서 스스로 문법을 찾아내는 인공지능 학습 알고리즘의 등장으로 자동 언어 번역의 성능은 인간과 유사한 수준까지 도달했다. 최근 화제를 모았던 챗GPT도 이렇게 학습된 언어이해 알고리즘이다.

인공지능 작동 과정의 이해

인공지능 프로세스는 주어진 학습 데이터에서 학습 알고리즘을 이용해 예측 알고리즘을 만드는 일련의 과정으로 이해할 수 있다([그림 1] 참조). 이를 다음과 같이 간략하게 정리할 수 있다.

1) 문제 정의

인공지능은 인간이 수행하기 힘든 특정 업무를 학습 데이터 기반으로 컴퓨터를 학습 시켜 자동화하는 것이 목적이다. 따라서 인공지능 프로세스는 문제를 정확히 정의하는 것으로 시작한다. 이 단계는 매우 중요하다. 문제 정의가 제대로 되지 않는다면, 이후의 과정이 잘 진행되더라도 원하는 결과를 얻지 못할 수 있기 때문이다.

예를 들어, 주차장에 자동화 시스템을 구축하기 위해 번호판을 인식하는 인공지능 알고리즘을 개발한다고 가정해 보자. 번호판은 숫자와 문자로 이루어져 있기 때문에, 이를 수집하고 인식하는 알고리즘으로 시스템을 구축할 수 있다. 하지만 이 알고리즘은 번호판 이외의 이미지에서도 숫자와 문자를 인식할 수 있어, 불필요한 정보가 입력될 수 있다. 때문에 문제 정의는 ‘숫자와 문자의 인식’이 아니라 ‘자동차 번호판의 숫자와 문자의 인식’이 되어야 한다. 따라서 숫자와 문자 뿐만 아니라 번호판의 모양을 인식하는 예측 모형도 필요하다.

2) 데이터 수집

AI 알고리즘의 기본 개념과 작동 원리_03_모션_2024

▲ 그림 3. 학습을 위한 데이터 수집 과정

문제가 잘 정의되었다면, 컴퓨터가 학습할 수 있게 데이터를 수집해야 한다. 데이터는 문제 정의에 따라 계획적으로 수집돼야 한다. 예를 들어, 이미지에서 남성과 여성을 구분하는 인공지능 모형을 학습시키기 위해서는 라벨(남성, 여성)*이 분류된 이미지를 수집해야 한다. 데이터 수집에서 중요한 점은 데이터가 모집단 전체를 대표할 수 있어야 한다는 것이다. 만약 청소년 등 특정 연령층의 이미지만 학습한다면, 다른 연령층에서는 인식률이 떨어질 수 있다. 따라서 컴퓨터가 학습할 수 있는 양질의 대규모 데이터를 구축하는 것이 인공지능 알고리즘 성패의 핵심이 된다.

* 라벨(Label): 학습 데이터에서 원하는 출력 또는 목표 값을 나타내는 정보

3) 학습 알고리즘

다음은 수집한 데이터를 이용하여 학습시키는 과정이다. 이때 학습 알고리즘은 목적과 방식에 따라 다양하게 선택할 수 있다. 예를 들어, 인물 이미지의 성별을 분류하는 것과 같이 주어진 상황에서 자동으로 판단해야 하는 경우는 분류 모형에 특화된 학습 알고리즘을 사용한다. 반면에 새로운 사진이나 문서를 생성하는 경우는 챗GPT와 같은 생성형 인공지능 알고리즘을 사용한다. 또한, 게임이나 바둑과 같이 상호작용이 필요한 상황에서는 강화 학습 알고리즘*을 사용한다.

* 강화 학습 알고리즘: 에이전트가 환경과 상호작용하며, 행동의 결과로 얻은 보상을 통해 최적의 결정 방법을 배우는 알고리즘

기본적으로 학습 알고리즘은 학습 데이터를 입력으로 받아서 예측 알고리즘을 출력으로 제공한다. 따라서 학습 알고리즘이 어떤 방식으로 학습 데이터를 처리하여 예측 알고리즘으로 바꾸는지 이해하는 것이 중요하다. 이를 위해서는 먼저 예측 알고리즘이 무엇인지 알아야 한다.

AI 알고리즘의 기본 개념과 작동 원리_04_모션_2024

▲ 그림 4. 인물 이미지의 성별 예측 알고리즘 출력 과정

예측 알고리즘은 새로운 정보를 입력으로 받아 최적의 의사결정을 출력한다. 예를 들어, 인물 이미지의 성별을 분류하는 인공지능에서는 이미지를 입력으로 받아 성별을 출력으로 제공한다. 이를 위해서는 이미지와 성별 라벨이 함께 있는 학습 데이터가 필요하며, 각 이미지는 픽셀의 색깔과 명도를 수치화한 데이터로 변환된다. 학습 알고리즘은 이 숫자들의 나열, 즉 벡터를 입력으로 받아 가장 정확하게 성별을 출력할 수 있는 함수를 찾는 것이다.

즉, 예측 알고리즘은 입력 벡터와 출력 데이터 사이의 관계를 최대한 정확히 매칭하는 수학적 함수로 이해할 수 있으며, 학습 알고리즘은 이러한 함수를 찾아내는 과정이라 할 수 있다.

(i) 학습 모형의 선택

모든 함수 중에서 예측을 가장 잘하는 함수를 찾는 것은 거의 불가능하다. 이유는 가능한 함수가 너무 많기 때문이다. 이 문제를 해결하는 방법이 바로 모형을 사용하는 것이다. 인공지능 모형이란 입력 변수(데이터)로부터 출력 변수(결과)를 예측하는 함수 중에 특정한 ‘파라미터(Parameter)’로 표현되는 함수를 가리킨다. 여기서 파라미터란 함수의 특정한 성질을 나타내는 변수로, 모형이 어떻게 작동할지를 결정하는 유한개의 숫자다.

AI 알고리즘의 기본 개념과 작동 원리_05_인포그래픽_2024

▲ 그림 5. 선형 회귀 모델의 데이터 특성을 보여주는 1차 함수 그래프

가장 간단한 인공지능 모형은 데이터의 특성과 결과 사이에 선형 관계를 보이는 ‘선형 모형’이다. 그 중 선형 회귀* 모형의 함수 y=ax+b를 예로 들자. 파라미터는 a와 b로, 이 값을 통해 데이터의 선형 관계를 이해할 수 있으며, 모형이 데이터를 어떻게 처리할지 알 수 있다.

* 선형 회귀(Linear Regression): 선형 모형 중 연속적인 값을 예측하는 모형으로, 주어진 데이터에 대해 최소제곱법을 사용하여 에러의 제곱 합을 최소화하는 방식으로 파라미터를 학습한다.

학습 모형의 선택은 문제의 종류(분류, 회귀 등) 및 데이터의 특성, 사용 가능한 컴퓨팅 자원 등을 고려해서 이루어진다. 선형 모형은 일반적으로 정확도가 낮은 편이다. 따라서 보다 복잡한 문제를 해결하기 위해 다양한 함수를 사용하는 모형들이 개발되었다. 그중 가장 많이 사용되는 모형이 바로 심층신경망, 딥러닝이다. 딥러닝은 여러 층의 선형과 비선형 변환을 거쳐 출력을 내는 함수를 통칭한다.

▲ 그림 6. 심층신경망의 구조

딥러닝은 문제의 종류와 난이도 등에 따라 다양한 형태로 발전해왔다. 예를 들어, 이미지 분류나 생성과 같은 문제에는 이미지 데이터에 특화된 딥러닝 모형인 CNN*이 사용된다. CNN은 이미지에서 불필요한 정보(배경 등)를 제거하고 중요한 부분에 집중함으로써 성능을 높인 것이다.

문서 데이터에서는 단어 간의 순서를 고려하여 모형화한 RNN*이 주로 사용됐다. 최근에는 단어 간의 연관성을 자동으로 탐지해 각 단어를 벡터로 변환하는 트랜스포머(Transformer) 모형이 각광받고 있다. 챗GPT와 같은 대형 언어 모델도 트랜스포머를 기반으로 개발되었다.

* CNN(Convolutional Neural Network, 합성곱 신경망): 이미지와 같은 고차원 데이터에서 유용한 특징을 자동으로 감지하고 학습할 수 있는 딥러닝 모델로 합성곱 계층을 사용하여 입력 데이터에서 중요한 특징을 추출하여 이미지 분류, 객체 인식 등의 작업을 수행한다.
* RNN(Recurrent Neural Network, 순환 신경망): 이전에 처리한 정보를 기억하고 이를 바탕으로 현재의 입력과 결합하여 출력을 생성하는 딥러닝 모델로, 자연어 처리, 음성 인식, 시계열 예측 등 시간적 연속성이 중요한 데이터를 다루는 작업에 주로 사용된다.

(ii) 파라미터의 학습

학습 모형을 선택했다면, 다음은 모형에서 예측을 가장 잘하는 파라미터를 찾아야 한다. 이를 ‘인공지능의 학습’이라고 한다. 파라미터는 데이터의 학습을 통해 찾을 수 있는 내부 변수로, 모형의 성능에 직접적인 영향을 미친다. 따라서 인공지능의 학습은 데이터로부터 정보를 추출하고 이를 이용해 모형의 파라미터를 최적화하는 과정이라 할 수 있으며, 이를 통해 모형은 주어진 데이터에 최적화되어 더 정확하게 예측하거나 분류할 수 있게 된다.

파라미터의 학습을 위해서는 먼저 목적함수를 정의해야 한다. 목적함수는 모형의 성능을 정량적으로 평가하며, 모형의 학습 방향을 제시하는 중요한 역할을 한다. 목적함수는 모형의 예측값과 실제 데이터 사이의 오차를 계산하는데, 이 오차를 최소화하는 방향으로 모형의 파라미터를 조정하여 성능을 높이는 것이다.

목적함수는 주어진 문제와 선택된 모형에 따라 달라진다. 예를 들어, 회귀 문제에서는 예측값과 실제값의 차이를 제곱하여 평균을 내는 방식으로 작동하는 평균 제곱 오차(Mean Squared Error, MSE)가 자주 사용되고, 분류 문제에서는 예측이 실제 레이블의 분포와 얼마나 잘 일치하는지를 측정하는 교차 엔트로피 손실(Cross-Entropy Loss)이 흔히 사용된다. 특히, 다양한 학습 모형 중 딥러닝 모형은 비선형 함수이기 때문에 최적화가 매우 어렵고, 이 문제를 해결하기 위한 다양한 최적화 알고리즘이 연구·개발되고 있다. 파라미터 학습에 관한 내용은 다음 챕터에서 더욱 자세하게 다루도록 하겠다.

(iii) 예측성능 측정

인공지능 학습의 어려운 점은, 주어진 학습 데이터에서 예측을 잘하는 모형을 찾는 것이 아니라, 미래의 데이터(이하 예측 데이터, Test Data)에서 예측을 잘하는 모형을 찾는 것이 최종 목표라는 점이다. 보통 학습 데이터에서 예측을 잘하는 모형이 예측 데이터에서도 잘 작동한다. 그러나 너무 복잡한 모형을 사용하거나, 학습 데이터가 잘못 구성된 경우에는 학습 데이터에서 예측을 잘하는 모형이 예측 데이터에서는 나쁜 성능을 보일 수 있다. 이 문제를 해결하는 것이 인공지능 학습 방법론의 중요한 연구주제이다.

예측 모형이 제대로 학습되었는지 확인하기 위해서는 예측 데이터가 필요한데, 일반적으로 학습 당시에는 예측 데이터가 존재하지 않는다. 이 문제를 해결하기 위해서는 주어진 데이터를 임의로 학습 데이터와 예측 데이터로 나누는 방법이 자주 쓰인다. 학습 데이터로 모형을 학습시킨 후, 예측 데이터를 사용하여 모형의 성능을 확인하는 것이다.

이러한 과정을 통해 성능이 원하는 만큼 나온다면 학습된 예측 모형을 사용할 수 있다. 그러나 성능이 기준에 미치지 못한다면 그 이유를 확인해야 한다. 알고리즘의 선택이 잘못되었을 수 있고, 데이터에도 문제가 있을 수 있다. 나아가 주식 가격 예측같이, 문제 자체가 예측이 어려운 문제일 수 있다. 따라서 원점으로 되돌아가 문제의 정의, 수집된 데이터나 알고리즘의 선택을 다시 고려해야 한다.

4)  예측 및 모니터링

예측 성능 측정 단계에서 원하는 결과가 나온다면 모형을 실제 업무에 적용한다. 즉, 문제를 해결하기 위해 학습 알고리즘이 만들어 낸 예측 모형을 사용하는 것이다. 이때, 새로운 입력 정보를 예측 모형에 넣어서 출력값을 얻는 일련의 과정을 예측 알고리즘이라고 한다. 이미지 분류에서는 라벨이 알려지지 않은 새로운 이미지를 넣으면 예측 모형은 출력값으로 라벨을 제공한다.

이때 원하는 성능이 꾸준히 나오는지에 대한 모니터링은 필수다. 데이터는 시간에 따라 분포가 바뀔 수 있기 때문에 모형이 학습될 때 고려하지 않던 새로운 정보가 생길 수 있다. 따라서 모형을 꾸준히 모니터링하고, 필요한 경우 새로운 데이터를 추가하여 재학습을 고려해야 한다. 모든 학습 프로세스를 다시 수행하지 않고, 현재의 예측 모형과 새로운 데이터를 결합해 꾸준히 학습하는 방법도 개발되고 있다. 관련 분야로는 연속적 학습(Continual Learning)*, 전이 학습(Transfer Learning)*, 도메인 적응(Domain Adaptation)* 등이 있다.

* 연속적 학습(Continual Learning): 지속해서 변하는 환경에서 이전 데이터의 재학습 없이 새로운 데이터를 학습하는 기법. 로봇공학, 자연어 처리 등의 분야에서 중요하게 다루어진다.
* 전이 학습(Transfer Learning): 한 작업에서 학습된 지식을 다른 작업에 적용하여 학습 시간을 단축하고 성능을 높이는 학습 기법. 충분한 훈련 데이터를 확보하기 어려운 작업에 유용하게 쓰인다.
* 도메인 적응(Domain Adaptation): 특정 도메인에서 학습된 모형을 다른 도메인(타깃 도메인)에서도 잘 작동하도록 조정하는 학습 기법. 의료 이미징, 음성 인식 등 데이터 환경이 끊임없이 변하는 환경에 유용하게 쓰인다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

]]>
/all-around-ai-2/feed/ 0
[2024년 신임임원 인터뷰 7편] SK하이닉스 글로벌 RTC 이재연 부사장 “미래 반도체의 새로운 패러다임을 제시하다” /2024-new-executive-leejaeyeon/ /2024-new-executive-leejaeyeon/#respond Sun, 21 Apr 2024 15:00:00 +0000 http://localhost:8080/2024-new-executive-leejaeyeon/ SK하이닉스 글로벌 RTC 이재연 부사장 “미래 반도체의 새로운 패러다임을 제시하다_0_2024_인물

SK하이닉스는 지난 연말 있었던 2024년 임원 인사에서 차세대 반도체를 연구·개발하는 조직인 ‘글로벌 RTC(Revolutionary Technology Center)’의 신임임원으로 이재연 부사장을 선임했다. 이 부사장은 DRAM 선행 프로젝트 연구를 시작으로 ReRAM*, MRAM*, PCM*, ACiM*을 비롯한 이머징 메모리(Emerging Memory)* 개발을 이끌어온 반도체 소자 전문가다.

* ReRAM(Resistive RAM): 소자 안에 필라멘트가 있는 간단한 구조로, 여기에 전압을 가하는 방식으로 데이터를 저장하는 메모리 반도체. 공정 미세화에 따라 정보 저장량이 늘어나며, 전력소모가 적다는 특징이 있음
* MRAM(Magnetic Random Access Memory): 전하와 스핀을 동시에 이용해 스핀의 방향에 따라 소자의 저항이 변화하는 방식으로 구현된 메모리 반도체
* PCM(Phase-Change Memory): 특정 물질의 상(Phase)변화를 이용해 데이터를 저장하는 메모리 반도체(상변화 메모리). 전원을 꺼도 정보가 지워지지 않는 플래시 메모리(Flash Memory)의 장점과 처리 속도가 빠른 D램의 장점을 모두 갖고 있음
* ACiM(Analog-Compute in Memory): 컴퓨팅과 메모리 사이의 경계를 없애는 차세대 AI 반도체를 위한 기술
* 이머징 메모리(Emerging Memory): 기존의 D램이나 낸드 플래시와 같은 전통적인 메모리 기술에 비해 새로운 형태나 원리를 기반으로 하는 메모리 기술을 의미. RRAM, MRAM, PCM, FeRAM 등이 대표적인 기술

특히, 이 부사장은 국내외 반도체 기업, 대학, 연구기관과의 풍부한 협업 경험을 토대로 ORP(Open Research Platform)*를 구축하는 등 회사의 글로벌 경쟁력 향상을 위한 주춧돌을 마련하는 데 크게 기여했다는 평가를 받고 있다.

뉴스룸은 그를 만나 미래 메모리 반도체와 ORP에 관해 이야기를 나눴다.

* ORP(Open Research Platform): 기술 혁신 파트너십 강화를 통해 선제적 연구·개발 생태계를 구축하기 위한 플랫폼. 글로벌 RTC는 현재 연구하고 있는 미래 기술에 대한 인사이트를 공유하고, 다양한 글로벌 연구 조직과의 적극적인 소통을 위해 ORP 대표 채널인 ‘Research Website(research.skhynix.com)’를 운영하고 있다.

“이머징 메모리, 세대를 초월하는 가치 창출할 것”

SK하이닉스 글로벌 RTC 이재연 부사장 “미래 반도체의 새로운 패러다임을 제시하다_1_2024_인물

“글로벌 RTC는 미래 반도체 산업이 진화해 나갈 패러다임을 제시하고자 합니다. 구체적으로 보면, 다음 세대 기술의 가치를 창출할 수 있는 이머징 메모리를 개발하고, 기존 반도체 기술의 한계를 극복할 차세대 컴퓨팅에 대한 기반 연구를 이어가고 있습니다. 저는 새로운 임원으로서, 미래 연구 개발의 성과를 앞당겨 회사가 기술 리더십을 탄탄히 할 수 있도록 하겠습니다.”

이 부사장은 이머징 메모리가 AI 시대를 이끌 새로운 패러다임을 제시할 것이라는 기대감을 내비쳤다.

이머징 메모리는 기존 메모리의 한계를 돌파할 새로운 솔루션으로 주목받고 있다. SK하이닉스는 현재 SOM*, Spin*, 시냅틱(Synaptic)* 메모리, ACiM 등을 통해 이머징 메모리 솔루션을 구현하고 있다.

* SOM(Selector-Only Memory): 메모리와 셀렉터(Selector)**역할을 모두 수행할 수 있는 두 개의 전극과 듀얼 기능 재료(Dual Function Material, DFM)로 구성된 반도체
** 셀렉터(Selector): 워드(Word) 라인과 비트(Bit) 라인 사이에 전압에 따라 반응하는 장치로, 양 끝에 걸리는 전압의 차이에 따라 메모리 셀에 데이터를 기록하거나 삭제할 수 있음
* Spin: 전자가 갖는 스핀 운동 특성을 반도체에 응용하는 기술로 초고속·초저전력 특성을 가진 다양한 형태의 메모리 및 소자가 있음
* 시냅틱(Synaptic): 인간 두뇌의 신경망을 모사할 수 있는 소자로 기존의 컴퓨터 구조로 발생하는 문제를 해결하고 고효율 컴퓨팅 구조를 구현함

“SOM[관련기사]은 데이터를 빠르게 처리하는 D램과 데이터를 저장하고 삭제할 수 있는 낸드플래시의 특성을 모두 보유하고 있습니다. 이는 격변할 D램과 낸드 시장에서 중요한 역할을 할 것으로 기대되고 있습니다. 이와 함께 글로벌 RTC 조직은 자성(磁性)의 특성을 이용해 이머징 메모리 중 가장 빠른 Spin 소자의 동작을 구현하는 등 미래를 위한 다양한 기술을 개발하고 있습니다.”

이 부사장은 “사람의 뇌를 모방한 AI 반도체인 시냅틱 메모리 분야의 연구 역시 발 빠르게 진행 중”이라고 설명했다. 그는 또 “AI 연산 시 메모리와 프로세서 사이의 데이터 이동을 줄이고 에너지 사용을 절감할 수 있는 ACiM 역시 우리의 연구 분야이며, 이 기술은 최근 학계와 산업계에 큰 관심을 받고 있다”고 말했다.

“글로벌 시장에서 더욱 빛나는 SK하이닉스 만들어야”

이 부사장은 급변하는 글로벌 시장에서 SK하이닉스가 경쟁력을 높이기 위해서는 세계 각계각층과 협업 체계를 강화해야 한다고 강조했다.

“글로벌 RTC는 개방형 협력 연구 플랫폼인 ORP를 구축하고 있습니다. 이는 다양한 미래 기술 수요에 대응하기 위한 협력의 장(場)으로, 우리는 현재 외부 업체, 연구 기관과 협업을 논의하고 있습니다.”

이 부사장은 “미래 반도체 시장에서는 단일 회사만의 노력으로는 성공할 수 없을 것”이라며, “산·학·연 등 다양한 기관과의 협업이 필수적이고, 환경 변화에 맞춰 유연한 논의가 가능한 새로운 체계가 중요하다”고 설명했다. 이를 통해, 다양해지는 요구에 맞춘(Customized) 메모리 반도체를 연구하겠다는 것이다. 또, 이 부사장은 글로벌 반도체 업계의 리더로서 가져야 할 책임감에 대해서도 강조했다.

“AI, 클라우드 컴퓨팅과 같은 기술의 성장으로 인해 방대한 양의 데이터가 발생하고 있고, 이와 함께 늘어나는 전력 사용에 대한 고민이 많습니다. 이에 글로벌 RTC는 넷제로(Net Zero) 달성을 위해 효율적인 에너지 사용에 대한 연구와 고민을 지속하고 있습니다.”

미래를 위한 패스파인딩(Pathfinding), 도전정신이 중요해

“최근 챗GPT로부터 시작된 AI 열풍은 메모리 반도체 분야에도 큰 기회가 되고 있습니다. 이러한 거대한 움직임에서 우리는 미래 먹거리를 위한 패스파인딩에 집중할 때입니다.”

이 부사장은 다운턴 위기를 기회로 바꾼 HBM의 TSV* 기술처럼 미래를 위한 다양한 요소 기술*개발이 중요하다고 언급했다.

* TSV(Through Silicon Via): D램 칩에 수천 개의 미세 구멍을 뚫어 상하층 칩의 구멍을 수직 관통하는 전극으로 연결하는 기술
* 요소 기술: 제품의 특성 변화와 개선을 구현하는 데 필요한 핵심적인 기술

“HBM의 중요 요소 기술인 TSV는 15년 전 미래 기술 중 하나로 연구가 시작됐습니다. AI 시대를 예견하고 개발한 기술은 아니지만, 오늘날 대표적인 AI 반도체 기술로 손꼽히고 있죠. 이처럼 우리는 어떻게 급변할지 모르는 미래를 대비해 또 다른 멋진 요소 기술 개발에 힘써야 합니다.”

끝으로 이 부사장은 구성원들에게 당부의 말을 전했다.

“우리 구성원 모두의 땀과 노력으로 회사는 다운턴 위기를 기회로 바꾸어 냈습니다. 하지만 여기에 만족할 수는 없습니다. 새로운 것을 두려워하지 않는 도전정신이 있다면 우리는 지금까지의 성공보다 더 큰 성공을 이룰 수 있을 것입니다. 서로 소통하고 신뢰하며, 배려해서 모두가 함께 도전해 나갔으면 합니다.”

]]>
/2024-new-executive-leejaeyeon/feed/ 0
[Top Team 인터뷰] SK하이닉스 최우진 부사장 “한계 없는 도전으로 어드밴스드 패키징 기술 우위 강화할 것” /2024-top-team-interview-2/ /2024-top-team-interview-2/#respond Wed, 10 Apr 2024 15:00:00 +0000 http://localhost:8080/2024-top-team-interview-2/ 탑팀(Top Team)은 회사의 주요 사업 부문을 맡고 있는 경영진을 의미합니다. 뉴스룸에서는 탑팀의 리더들을 만나보는 인터뷰 시리즈를 시작합니다. 이번 인터뷰는 회사 비전을 달성하기 위해 리더가 강조하는 사업 전략, 조직 문화 등을 키워드 중심으로 이해할 수 있도록 구성했습니다. 경영진의 목소리가 담긴 기사인 만큼, 독자들은 묵직하고 진중한 메시지를 만나볼 수 있을 것입니다. 경영진의 묵직하고 진중한 메시지가 담긴 탑팀 인터뷰 두 번째 주인공은 ‘P&T(Package & Test)’ 담당 최우진 부사장입니다.

P&T(Package & Test) 담당 최우진 부사장이 비전 실현을 위한 업무 자세에 관해 이야기하고 있다.

SK하이닉스 P&T 담당 최우진 부사장은 지난 30년간 메모리 반도체 패키징 연구 개발에 매진하며, 최근 HBM으로 대표되는 AI 메모리의 핵심 기술로 부상한 이 분야를 이끌어 가고 있다.

이처럼 패키징이 AI 메모리 시장의 판도를 좌지우지할 정도로 기술 환경이 급변한 가운데 지난 연말 P&T(Package & Test) 조직의 수장으로 부임한 최 부사장은 SK하이닉스의 기술 우위를 증명해 가겠다는 목표를 밝혔다.

“도전에 한계 두지 마라” AI 시장 우위를 지키는 자세

P&T는 반도체 후공정을 맡은 조직으로, 팹(Fab)에서 전공정을 마친 웨이퍼를 가져와 제품 형태로 패키징(Packaging)하고, 고객 요구에 맞게 동작하는지 테스트(Test)하는 역할을 한다.

그 중에서도 패키징은 칩을 전기적으로 연결하고 외부 충격으로부터 보호하는 기존 역할을 넘어, 차별화된 제품 성능을 구현하는 주요 기술로 떠오르고 있다. TSV*, MR-MUF* 등 첨단 패키징 기술은 SK하이닉스 HBM에 핵심 기술로 적용되는 등 그 위상이 완전히 달라졌다.

* TSV(Through Silicon Via, 수직관통전극): D램에 미세 구멍을 뚫어 칩들을 수직관통전극으로 연결하는 기술
* MR-MUF(Mass Reflow-Molded UnderFill): 매스 리플로우(MR)는 적층된 칩 사이의 범프를 녹여 칩끼리 연결하는 기술. 몰디드 언더필(MUF)은 적층된 칩 사이에 보호재를 채워 내구성과 열 방출 효과를 높이는 기술

“P&T 기술 혁신은 반도체 패권 경쟁을 가르는 핵심 요소로 부상하고 있습니다. 고성능 칩 수요가 폭증하는 AI 시대에 우리는 첨단 패키징 기술로 최고 성능의 메모리를 개발하는 데 기여할 것입니다.”

최 부사장이 구성원들에게 가장 강조하는 마음가짐은 바로 ‘도전에 한계를 두지 않는 것’이다. 그는 “대한민국 반도체의 위상이 지금의 위치에 오를 수 있었던 건 ‘거침없는 도전’ 덕분”이라며 “세계 각국이 막대한 자본을 투입해 시장 주도권을 확보하려는 이때, 한계 없는 도전은 더 큰 의미를 가진다”고 강조했다.

“3차 세계 대전에 비유될 정도로 글로벌 반도체 패권 경쟁이 치열하게 전개되고 있습니다. 도전에 주저하는 순간 누구든 위기에 직면할 수 있습니다. 항상 성능, 수율, 원가 경쟁력 등 모든 영역에서 한계를 뛰어넘겠다는 자세로 일해야 합니다.”

P&T(Package & Test) 담당 최우진 부사장이 작업 현장을 살피고 있다.

최 부사장은 반도체 패권 경쟁의 핵심 축인 AI 메모리를 혁신하기 위해 ‘시그니처 메모리(Signature Memory)’ 개발을 주요 전략으로 제시했다.

“AI 시대에 발맞춰 SK하이닉스는 다양한 기능, 크기, 형태, 전력 효율 등 고객이 원하는 성능을 갖춘 ‘시그니처 메모리’에 집중하고 있습니다. 이를 구현하기 위해 HBM 성능의 키 역할을 하는 TSV, MR-MUF 등 기술을 고도화하면서, 메모리-비메모리 등 이종 간 결합을 도와 새로운 유형의 반도체 개발에 기여하게 될 칩렛*, 하이브리드 본딩* 등 다양한 어드밴스드 패키징 기술을 개발하는 데 주력하고 있습니다. 이 과정에서 우리는 한계를 두지 않고 도전해 강력한 기술 우위를 보여줄 것입니다.”

* 칩렛(Chiplet): 칩을 기능별로 쪼갠 후 각각의 칩 조각(Chiplet)을 하나의 기판 위에서 연결해 반도체의 이종간 결합 및 집적을 돕는 기술
* 하이브리드 본딩(Hybrid Bonding): 더 높은 대역폭과 고용량을 구현하기 위해 칩과 칩 사이를 범프 없이 직접 연결하는 기술. 이를 통해 데이터 통로가 짧아지고, 같은 공간 안에 더 많은 칩을 쌓을 수 있다

혁신을 이뤄낸 과감한 도전의 연속… 글로벌 생산기지 구축으로 이어간다

최 부사장이 도전을 강조하는 이유는 그가 걸어온 행보에서 찾을 수 있다. 최 부사장은 2020년 HBM3의 열 방출 솔루션 개발에 도전해 성공함으로써 제품 성능 향상에 기여했고, 2023년에는 재료비, 경비 등 원가 절감을 이뤄내 다운턴 위기 극복에 힘을 보탰다. 또 그는 챗GPT 열풍으로 늘어나는 D램 수요에 대응하기 위해 신속하게 생산 라인을 확보함으로써 회사의 AI 메모리 선도 입지를 강화하는 데 기여하기도 했다.

“지난해 AI 메모리 수요가 갑작스럽게 늘어나면서 즉각적인 대응이 어려운 상황이었습니다. 하지만, 재빨리 TSV 패키징 라인을 활용해 DDR5 D램 기반의 서버향 3DS* 모듈 제품을 추가 투자 없이 증산하는 데 성공했습니다. 빠른 시간 안에 내린 과감한 결단이 주효했던 사례로, 주저했다면 결코 이뤄낼 수 없었을 것입니다.”

* 3DS(3D Stacked Memory): 2개 이상의 D램칩을 TSV(수직관통전극)로 연결해 패키징을 완료한 고대역폭 메모리 제품. 3DS와 달리 HBM은 패키징 완료 전에 시스템 업체에 공급되어 GPU와 같은 로직 칩과 함께 패키지화 된다는 점에서 차이가 있다.

P&T(Package & Test) 담당 최우진 부사장이 업무 노하우에 관해 이야기 중이다.

이제 최 부사장의 도전은 해외로도 확장될 예정이다. 지난 4일 SK하이닉스는 글로벌 HBM 시장 경쟁력을 높이고 어드밴스드 패키징 분야 R&D 역량을 강화하기 위해 미국 인디애나주에 패키징 생산시설을 설립한다는 계획을 발표했다[관련기사].

최 부사장은 이 과정에서 팹 구축 및 운영 전략을 짜는 등 핵심적인 역할을 했다. 앞으로 미국 패키징 공장은 본사에서 전공정을 마친 HBM 웨이퍼를 가져와 완제품을 생산하고, 글로벌 기업과 활발한 개발 협력을 이어가는 공간으로 구축될 예정이다.

“현재 팹 설계와 양산 시스템을 구체화하고, 글로벌 기업과의 R&D 협력 생태계를 구축하기 위한 준비를 진행 중입니다. 공장 가동이 본격화되면 회사의 AI 메모리 기술 및 비즈니스 리더십을 강화하는 데 크게 기여할 것으로 기대합니다.”

Beyond HBM 향한 데이터 중심의 혁신, 구성원 성장에 초점

최 부사장은 P&T의 주요 임무로 수익성 극대화, 그리고 ‘Beyond HBM’을 언급했다. 그는 “단기적으로는 국내 생산 역량을 강화해 HBM 수요에 대응하고, 글로벌 기지를 잘 활용해 수익성을 극대화하겠다”며, “장기적으로는 지금 HBM의 핵심인 MR-MUF처럼 혁신적인 패키징 기술을 확보하는 것이 목표”라고 말했다.

이를 달성하기 위해 최 부사장은 “데이터에서 답을 찾으라”고 강조한다. 그가 수십 년간 패키지 분야에 몸담으며 지켜온 철학이자 혁신의 노하우다.

“‘현장 속에 답이 있다’는 어느 드라마 속 명언처럼, P&T 공정 현장에는 엄청난 양의 데이터가 있습니다. 이를 잘 활용하면 수율을 높일 수 있고, 신제품 개발에 힌트를 얻을 수도 있습니다. 데이터가 성장의 지름길을 안내해 준다는 생각으로 업무에 임해야 합니다.”

P&T(Package & Test) 담당 최우진 부사장이 구성원들과 조직 비전을 공유하고 있다.

끝으로 최 부사장은 구성원 성장을 위한 지원을 아끼지 않겠다고 강조했다. 그는 “패키징 기술의 위상을 높인 주역은 다름 아닌 구성원들”이라며 “HBM의 열 방출 이슈를 패키징 단계에서 해결하는 등 문제를 획기적으로 개선한 건 모두 구성원 아이디어에서 비롯됐다”고 말했다. 최 부사장은 구성원들이 늘 시장을 이끈다는 자부심으로 도전할 수 있도록 지속적인 성장 기반을 마련한다는 계획이다.

“우리 회사는 국내외 대학 및 연구소와 활발하게 교류하고 있습니다. 이를 적극 활용해 P&T 구성원들이 다양한 글로벌 경험을 쌓고 R&D 역량을 더 키울 수 있도록 지원할 계획입니다. 이를 통해 구성원과 함께 성장하고 발전하는 P&T를 만들어가겠습니다.”

]]>
/2024-top-team-interview-2/feed/ 0
[All Around AI 1편] AI의 시작과 발전 과정, 미래 전망 /all-around-ai-1/ /all-around-ai-1/#respond Thu, 14 Mar 2024 15:04:39 +0000 http://localhost:8080/all-around-ai-1/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 <AAA – All Around AI>에서 AI 기술에 대한 모든 것을 알려드립니다. 1화에서는 인공지능의 역사적 발전 과정과 그것이 현재 우리 삶에 어떻게 녹아들었는지 살펴봅니다.

 

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

인공지능을 탑재해 사람처럼 걷고 말하며 생각하는 로봇은 과거 공상과학 만화와 영화의 단골 소재였다. 인간의 상상 속에서만 존재하던 AI와 로봇은 더 이상 꿈이 아니다. 이제 현실로 구현되며 사람들의 일상을 바꾸고 있는 AI는 언제부터 시작되어 어떻게 발전해 왔으며, 앞으로 어떤 미래를 만들어 나갈까?

‘AI’의 시작과 발전 과정

AI의 시작은 1950년대로 거슬러 올라간다. 1950년, 영국의 수학자 앨런 튜링(Alan Turing)은 기계는 생각할 수 있다고 주장하며, 이를 테스트하기 위한 방법으로 ‘튜링 테스트(The Turing Test)’를 고안했다. 이것은 AI라는 개념을 최초로 제시한 연구로 꼽힌다. 1956년에는 AI의 개념을 세상에 알린 다트머스 회의(Dartmouth Conference)가 열렸다. 이 회의에서는 기계가 인간처럼 학습하고 발전할 수 있는지에 대한 토론이 이루어졌으며, 인공지능이라는 용어가 처음 사용되었다.

이 시기에는 인공신경망(Artificial Neural Network) 모델에 관한 연구도 활발히 진행되었다. 1957년, 프랑크 로젠블랏(Frank Rosenblatt)은 ‘퍼셉트론(Perceptron)’ 모델을 통해 컴퓨터가 패턴을 인식하고 학습할 수 있다는 개념을 실증적으로 보여줬다. 이는 1943년에 신경 생리학자 워렌 맥컬럭(Warren McCulloch)과 월터 피트(Walter Pitts)가 신경세포의 상호작용을 간단한 계산 모델로 정리한 ‘신경망’ 이론을 실제 테스트에 활용한 것이다. 이러한 초기 연구의 성과는 세간의 기대를 높였으나, 컴퓨팅 성능, 논리 체계, 데이터 부족 등의 한계로 AI 연구는 곧 침체기에 들어섰다.

1980년대에는 사람이 입력한 규칙을 기반으로 자동 판정을 내리는 ‘전문가 시스템(Expert System)’이 등장했다. 전문가 시스템은 의학, 법률, 유통 등 실용적인 분야에서 진단, 분류, 분석 등의 기능을 수행하며, 일시적으로 AI에 대한 관심을 다시 불러일으켰다. 그러나 이 시스템은 사람이 설정한 규칙에만 의존하여 동작하며, 복잡한 현실 세계를 이해하는 능력을 갖추지 못했다는 한계가 있었다.

인간의 명령으로만 작동하던 AI는 1990년대 들어서 스스로 규칙을 찾아 학습하게 된다. 바로 ‘머신러닝(Machine Learning, 기계학습)’ 알고리즘을 활용하면서부터다. 이것이 가능해진 이유는 디지털과 인터넷이 등장했기 때문이다. 웹에서 수집한 대량의 데이터를 활용할 수 있게 되면서, AI는 스스로 규칙을 학습하고 나아가 사람이 찾지 못하는 규칙까지 찾아낼 수 있게 되었다. AI 연구는 머신러닝을 기반으로 다시 성과를 내기 시작했다.

AI의 핵심 기술, ‘딥러닝’의 발전

인공신경망 초기 연구는 1969년, 앞서 언급했던 퍼셉트론 모델이 비선형 문제를 해결할 수 없다는 것*이 밝혀지면서 긴 침체기에 접어들었다. 이후, 인공신경망 연구를 다시 수면위로 끌어올린 인물은 ‘딥러닝의 대부’로 불리는 제프리 힌튼(Geoffrey Hinton, 이하 힌튼)이다.

* 초기 퍼셉트론 모델은 단층 퍼셉트론(Single-layer Perceptron)으로 입력 값이 두 개이고, 두 입력 값이 같으면 0을 출력하고 다르면 1을 출력하는 XOR 문제와 같은 비선형 문제를 해결할 수 없었다.

1986년, 힌튼은 인공신경망을 여러 겹 쌓은 다층 퍼셉트론(Multi-Layer Perceptrons) 이론에 역전파* 알고리즘을 적용하여 퍼셉트론의 기존 문제를 해결할 수 있음을 증명했다. 이를 계기로 인공신경망 연구가 다시 활기를 되찾는 듯했지만, 신경망의 깊이가 깊어질수록 학습 과정과 결과에 이상이 나타나는 문제가 발생했다.

* 역전파(Backpropagation): 신경망에서 출력 값과 실제 값 사이의 차이를 계산하고, 오차를 줄이기 위해 출력부터 시작하여 역순으로 가중치를 조절하는 알고리즘

2006년, 힌튼은 ‘A fast learning algorithm for deep belief nets’라는 논문을 통해 다층 퍼셉트론의 성능을 높인 ‘심층 신뢰 신경망(Deep Belief Network, DBN)’을 제시했다. 심층 신뢰 신경망은 비지도학습*을 통해 각 층을 사전 훈련한 후, 전체 네트워크를 미세 조정하는 방식으로 신경망의 학습 속도와 효율성을 크게 높였다. 또한 AI 기술을 대표하는 알고리즘인 ‘딥러닝(Deep Learnning)’의 기초 개념을 정립했다.

* 비지도학습 (Unsupervised Learning): 머신러닝의 학습론 중 하나로 입력 데이터에 대한 정답을 주지 않고, 숨은 구조나 패턴 등을 발견하고 이해할 수 있게 학습시키는 방법

▲ Kien Nguyen, Arun Ross. “Iris Recognition with Off-the-Shelf CNN Features: A Deep Learning Perspective”, IEEE ACCESS SEPT(2017), p.3

그리고 2012년, 딥러닝의 압도적인 성능을 증명한 역사적인 사건이 발생한다. 바로 이미지 인식 경진대회인 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 힌튼이 이끄는 팀의 알렉스넷(AlexNet)이 우승을 차지한 것이다. 딥러닝 기반의 모델인 알렉스넷은 이미지 인식률 84.7%를 기록했는데, 이는 다른 모델과 비교했을 때 월등히 높은 수치였다. 특히, 전년도 우승팀의 오류율 25.8%를 무려 16.4%까지 낮추는 기염을 토했다.

AI 연구의 대세가 된 딥러닝은 2010년대부터 급속도로 성장하게 되는데, 이러한 성장에는 두 가지 배경이 있다. 첫째, GPU(Graphics Processing Unit, 그래픽처리장치)를 비롯한 컴퓨터 시스템의 발전이다. GPU는 본래 컴퓨터의 그래픽을 처리하기 위해 만들어졌다. CPU(Central Processing Unit, 중앙처리장치)와 비교할 때, GPU는 유사하고 반복적인 연산을 병렬로 처리하여 훨씬 속도가 빠르다. 2010년대에 들어서며, GPU가 CPU의 역할까지 대신할 수 있게 보완한 GPGPU(General-Purpose computing on GPU) 기술이 등장했다. GPU의 쓰임새가 늘어났고, 인공신경망의 학습에도 적용되며 딥러닝의 발전이 크게 가속화되었다. 방대한 학습 데이터를 분석해 특성을 추출하는 딥러닝은 반복적인 계산이 필수인데, GPU의 병렬 계산 구조는 이에 아주 적합했기 때문이다.

두 번째는 데이터(Data)의 증가다. 인공신경망 학습에는 대량의 데이터가 필요하다. 과거의 데이터는 컴퓨터에 입력된 정보 수준에 그쳤다. 하지만 1990년대 이후, 인터넷이 보급되고 검색엔진이 발전하며, 가공할 수 있는 데이터의 범위가 기하급수적으로 늘어났다. 2000년대 이후에는 스마트폰과 사물인터넷(Internet of Things, IoT)이 발전하며 빅데이터(Big Data)의 개념이 등장한다. 현실 세계의 곳곳에서 셀 수 없이 많은 데이터가 실시간으로 수집되는 것이다. 많은 데이터를 학습한 딥러닝 알고리즘은 더욱 정교하게 구축된다. 데이터 패러다임의 변화는 딥러닝 기술 발전의 큰 기반이 되었다.

▲ 2016년 3월 9일 진행된 알파고와 이세돌의 대국을 그린 다큐멘터리 영화 ‘AlphaGo – The Movie’ (Google DeepMind)

그리고 2016년, 딥러닝은 또 한 번 세상을 바꾼다. 구글 딥마인드가 개발한 AI 알파고(AlphaGo)가 4승 1패로 바둑기사 이세돌 9단을 꺾으며 승리, 전 세계에 AI의 존재를 각인한 것이다. 알파고는 딥러닝 알고리즘과 강화학습*, 몬테카를로 트리 탐색* 알고리즘을 결합해 탄생했다. 이를 통해 수만 번의 자가 대국을 진행하여 스스로 학습하고, 인간의 직관을 모방하여 수를 예측하고 전략까지 세울 수 있었다. ‘인간을 꺾은 AI’의 탄생은 본격적인 AI 시대의 시작을 알린 신호탄이었다.

* 강화학습(Reinforcement Learning): AI가 행동을 학습하는 방식 중 하나. 행동에 따른 결과를 보상의 형태로 알려주면서, 주어진 상태에서 최적의 행동을 선택하는 전략을 찾게 한다.

* 몬테카를로 트리 탐색(Monte Carlo tree search, MCTS): 일련의 난수를 반복적으로 생성하여 함수의 값을 수리적으로 근사하는 확률적 알고리즘의 일종. 현 상황에서 선택 가능한 행동들을 탐색 트리로 구조화하고, 무작위적 시뮬레이션을 통해 각 행동의 득실을 추론하여 최적의 행동을 결정하는 기능을 한다.

챗GPT를 필두로 시작된 ‘생성형 AI’ 붐

▲ 생성형 AI 개념도

2022년 말, 인류는 AI 기술로 거대한 변혁을 맞이했다. 오픈AI가 LLM(거대 언어 모델)* GPT(Generative Pre-trained Transformer) 3.5를 탑재한 ‘챗 GPT’를 출시하면서 생성형 AI(Generative AI)의 시대를 연 것이다. 생성형 AI는 인간의 고유 영역으로만 여겨지던 ‘창작’의 영역에 침투하여 다양한 포맷의 수준 높은 콘텐츠를 생성한다. 데이터를 바탕으로 예측하거나 분류하는 딥러닝의 수준을 넘어 사용자의 요구에 따라 LLM이나 다양한 이미지 생성 모형(예: VAE, GAN, Diffusion Model 등)을 활용해 스스로 결과물을 생성하는 것이 특징이다.

* LLM(Large Language Model, 거대 언어 모델): 방대한 양의 데이터를 통해 얻은 지식을 기반으로 다양한 자연어 처리 작업을 수행하는 딥러닝 알고리즘

생성형 AI의 시작은 2014년 이안 굿펠로우(Ian Goodfellow)가 발표한 ‘GANs(Generative Adversarial Networks, 생성적 적대 신경망)’ 모델이다. GANs는 두 신경망이 서로 경쟁하면서 학습하는 구조다. 한 신경망은 실제 데이터와 구분하기 어려운 새로운 데이터를 생성하고 다른 신경망은 이를 실제 데이터와 비교하여 판별하는데, 이 과정을 반복하며 점점 더 정교한 데이터를 완성한다. GANs 모델은 이후 변형과 개선을 통해 현재까지 이미지 생성 및 변환 등 다양한 응용 분야에서 활발하게 사용되고 있다.

2017년에는 자연어처리(Natural Language Processing, NLP) 모델 ‘트랜스포머(Transformer)’가 발표된다. 트랜스포머는 데이터 간의 관계를 중요 변수로 고려한다. 특정 정보에 더 많은 ‘주의’를 기울여 데이터 사이의 복잡한 관계와 패턴까지 학습할 수 있으며, 더 중요한 정보를 포착해 이를 기반으로 더 나은 품질의 결과물을 생성할 수 있다. 트랜스포머 모델은 언어 이해, 기계 번역, 대화형 시스템 등의 자연어 처리 작업에 혁신을 가져왔다. 특히, 앞서 언급했던 GPT 등의 LLM의 출현에 크게 영향을 미쳤다.

2018년 처음 출시된 GPT는 매년 더 많은 매개변수와 학습 데이터를 사용해, 빠른 속도로 성능을 개선해 왔다. 그리고 2022년, GPT-3.5를 탑재한 대화형 인공지능 시스템 챗GPT가 출시됐고, AI의 패러다임을 완전히 바꿔놓았다. 챗GPT는 사용자와의 대화에서 맥락을 잘 이해하고 적절한 반응을 제시할 수 있으며, 답변할 수 있는 영역 또한 광범위했다. 출시 일주일 만에 사용자 수 100만 명을 돌파했으며 두 달 만에 활성 이용자 수 1억 명을 넘기는 등 전세계적으로 폭발적인 인기를 끌었다.

2023년, 오픈 AI는 기술적으로 한 단계 도약한 GPT-4를 출시했다. GPT-4는 GPT-3.5보다 약 500배 더 큰 데이터 셋을 활용한 모델로, 텍스트를 넘어 이미지와 오디오, 비디오 등 다양한 입력 데이터를 동시에 처리하며, 데이터 포맷 역시 다양하게 생성하는 LMM(멀티 모달 모델)*으로 진화했다. 챗GPT가 촉발한 생성형 AI 붐을 타고, 기업들은 너나 할 것 없이 다양한 생성형 AI 서비스를 출시하고 있다. 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해할 수 있는 구글의 제미나이(Gemini)와 이미지 내 특정 객체를 정확하게 인식하고 분리할 수 있는 메타의 샘(SAM), 텍스트 프롬프트 기반으로 영상을 제작하는 오픈AI의 소라(Sora) 등이 대표적이다.

* LMM(Large Multimodal Model, 멀티 모달 모델): 텍스트뿐만 아니라 이미지, 오디오 등의 다양한 유형의 데이터를 처리할 수 있는 딥러닝 알고리즘

생성형 AI 시장은 이제 시작이다. 글로벌 시장 조사업체인 IDC(International Data Corporation)의 보고서에 따르면 2024년 생성형 AI 시장은 전년 대비 2.7배나 높은 401억 달러 규모로 성장할 전망이다(AI타임즈, 2023). 또한, 매년 성장을 가속화하여 2027년에는 1,511억 달러 수준으로 성장할 것이라 예측했다. 앞으로 생성형 AI는 소프트웨어를 넘어서 하드웨어, 인터넷 서비스 등 다양한 포맷에 도입될 것이다. 기능은 상향 평준화될 것이며, 더 많은 사람들이 손쉽게 이용할 수 있도록 편의성은 확장될 것이다.

일상을 바꾸는 AI와 미래 전망

AI는 2000년대의 구글 검색, 2010년대의 모바일 SNS처럼 사회 전반에 새로운 변화와 기회를 제공하는 구심점으로 기능하고 있다. 기술의 발전 속도는 비슷한 사례를 찾아보기 힘들 정도로 빠르며, 그 과정에서 인류의 도전과 고민 역시 커지고 있다.

그렇다면 ‘Next 생성형 AI 기술’은 무엇일까? 현재 가장 주목받는 미래 AI 기술은 단연 ‘온디바이스(On-Device) AI’다. 일반적으로 AI 서비스를 이용하기 위해서는 대규모 클라우드 서버와 통신하여 엣지 디바이스로 데이터를 끌어와야 한다. 하지만 온디바이스는 휴대폰, PC 등의 전자기기에 AI 칩셋과 sLLM(Smaller LLM)을 설치해서 자체적으로 AI 서비스를 구동할 수 있다. AI 구동에 따른 보안이나 자원 문제를 해결할 수 있는 대안이며 동시에 더욱 개인화된 AI 서비스까지 제공할 수 있다.

▲ 클라우드 기반 AI와 온디바이스 AI 구조 비교

온디바이스 AI와 같이, 앞으로 AI는 더 많은 기기에 탑재될 것이며 그 형태는 계속해서 진화할 것이다. 이미 영화에서나 볼 수 있었던 혁신적인 아이템이 시장에 출시됐다. 2023년 미국 AI 스타트업 휴메인(Hamane)이 출시한 AI Pin은 사용자의 손바닥에 메뉴를 투영하는 레이저 잉크 디스플레이를 탑재한 웨어러블 AI 디바이스다. CES 2024에서 소개되며 화제를 모았던 래빗(Rabbit)의 R1, 브릴리언트 랩스(Brilliant Labs) Frame 역시 AI 기술을 탑재한 혁신적인 웨어러블 디바이스다. 또한, 애플의 비전 프로(Vision Pro), 메타의 퀘스트(Quest)와 같이 AI 기술을 적용한 혼합현실(Mixed Reality, MR) 헤드셋은 기존의 가상현실(Virtual Reality, VR) 과 메타버스를 넘어선 새로운 시장을 창조하고 있다.

빠른 기술 발전은 새로운 기회를 만들어내지만, 동시에 사회적 문제를 야기하기도 한다. AI 기술의 빠른 발전 속도를 따라가지 못하는 사회 전반에서 여러 가지 우려의 목소리가 나오기 시작했다. 특히, 상상 속에서만 존재하던 AI가 실체를 가지고 현실 공간으로 들어오며, 이를 악용한 사례들이 등장했다. AI가 만들어낸 정교한 허위 콘텐츠는 가짜 뉴스를 양산하며 사회적 혼란을 조장한다. 최근 미국 대선 등 대형 선거를 앞둔 여러 국가들을 중심으로 가짜 영상, 이미지 등의 딥페이크(Deepfake) 콘텐츠에 대한 우려가 커지고 있는 상황이다.

▲ 생성형 AI가 묘사한 딥페이크 기술로 인한 사회적 불안과 혼란(DALL·E)

AI 개발 및 활용 과정에서 발생할 수 있는 위험 요소도 존재한다. 생성형 AI가 사전 학습을 위해 웹상에 공개된 자료들을 크롤링하고, 재조합하는 과정에서 수많은 창작물이 표절의 대상이 될 수 있다는 점이다. 또한, 동일한 생성형 AI 프로그램과 비슷한 프롬프트로 생성한 콘텐츠 간의 저작권 다툼 우려도 있다. AI가 사람들의 업무 진행에 도움을 주고 생산성을 높이는 것을 넘어 일자리를 대체하고 노동시장 구조의 변화를 본격화할 것이라는 전망도 마냥 반가운 이야기만은 아니다.

이제 AI가 만드는 세상은 이제 인류의 상상력을 넘어섰다. 한 번도 경험하지 못한 세상이 너무 빠르게 다가오고 있다. 우리는 예상치 못한 미래의 변혁을 어떻게 대비해야 할까? 이에 대한 올바른 대처 방안을 수립하기 위해서는 AI에 대한 깊은 이해와 분석을 바탕으로 보다 구체적인 고민과 사회적 논의가 필요하다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

]]>
/all-around-ai-1/feed/ 0