AI – SK hynix Newsroom 'SK하이닉스 뉴스룸'은 SK하이닉스의 다양한 소식과 반도체 시장의 변화하는 트렌드를 전달합니다 Fri, 09 May 2025 00:03:23 +0000 ko-KR hourly 1 https://wordpress.org/?v=6.7.1 https://skhynix-prd-data.s3.ap-northeast-2.amazonaws.com/wp-content/uploads/2024/12/ico_favi-150x150.png AI – SK hynix Newsroom 32 32 [DECODE AI] 과학커뮤니케이터 ‘항성’이 알려주는 과학 기술을 혁신할 AI의 모든 것! /decode-ai-2/ Fri, 09 May 2025 01:00:08 +0000 /?p=47770

AI가 일상이 된 ‘대 AI 시대’, 그 무한한 가능성을 해독하기 위해 SK하이닉스 뉴스룸이 야심 차게 선보이는 [DECODE AI] 시리즈! 각 분야의 최고 전문가들과 함께, 우리 삶 곳곳에 스며든 AI를 샅샅이 파헤칩니다.

 

2편에서는 과학을 혁신할 AI를 살펴볼 예정입니다. 국내 최고의 과학 유튜브 채널, ‘안될과학’의 과학커뮤니케이터 ‘항성’이 알려주는 과학계 AI 이야기! 노벨 화학상을 받은 AI를 포함해 인류의 역사를 다시 쓸 AI를 소개합니다.

▲ 실생활에 사용되고 있는 다양한 AI 사용 예시

요즘 AI(인공지능)의 발전 속도는 실로 눈부십니다. 글을 쓰고, 그림을 그리고, 요리 레시피를 추천하는 수준을 넘어, 이제는 과학 연구의 본질적인 패러다임마저 바꾸고 있죠. 그 배경에는 현대 과학이 다루는 방대한 정보량과 복잡성이 자리하고 있습니다. 수많은 실험 조건, 거대한 데이터, 수백 개의 변수들. 사람이 일일이 처리할 수 없는 것은 아니지만, 그만큼 시간은 많이 들고, 성과를 내기까지 효율이 떨어진다는 한계가 존재합니다.

이런 한계를 뛰어넘기 위해 AI는 연구 현장에서 필수적인 도구가 되고 있습니다. 인간이 감당하기 어려운 방대한 데이터를 빠르게 분석하고, 가능성 있는 조합을 제시하며, 복잡한 예측 모델을 수립하는 능력은 과학의 더 빠른 진보를 가능하게 하죠.

이제 과학자는 질문을 던지고, AI는 그 해답의 방향을 제시하는 시대입니다. 단순한 계산기를 넘어, 연구 파트너이자 실험 설계자, 데이터 분석가로 진화한 AI의 모습은 미래 과학의 동반자 그 자체인 것이죠.

생명의 구조를 해석하는 AI: 알파폴드(AlphaFold)

▲ 구글 딥마인드의 단백질 구조 예측 AI, 알파폴드

단백질은 생명의 기본 단위입니다. 세포의 형태 유지부터 호르몬 분비, 면역 작용, 대사 조절에 이르기까지 대부분의 생명 활동은 단백질의 기능에 의해 좌우되죠. 그런데 이 기능은 단백질이 어떤 3차원 구조로 되어 있느냐에 따라 결정됩니다. 즉, 구조를 알아야 기능을 알 수 있죠. 하지만 단백질 구조를 실험적으로 분석하는 일은 수개월에서 수년이 걸리는 고난도의 작업인데요. 그 난제에 정면 돌파를 시도한 AI가 바로 알파폴드(AlphaFold)입니다.

알파폴드는 구글 딥마인드와 워싱턴대학교의 데이비드 베이커(David Baker) 교수팀이 공동 개발한 인공지능 모델입니다. 이 모델은 단백질의 아미노산 서열만 입력하면, 그에 따른 3차원 구조를 예측해 내죠. 처음 등장한 알파폴드1은 단백질 구조 예측에 AI를 본격적으로 활용할 수 있음을 보여줬지만, 약 60% 수준의 정확도에 머물러, 실제 연구 현장에서 활용하기에는 다소 부족한 면이 있었습니다.

▲ 자유 모델링 영역에서 예측 정확도의 중앙값(©Google DeepMind)

이후 성능이 대폭 향상된 알파폴드2는 90% 이상의 예측 정확도를 기록하며, 인간 연구자보다도 더 정확한 수준에 도달했죠. 이처럼 눈부신 성능 향상은 방대한 단백질 구조 데이터를 학습한 딥러닝 기술과 이를 뒷받침하는 고성능 연산 인프라가 있었기에 가능했습니다.

또한 알파폴드의 진정한 혁신은 오픈 사이언스를 지향했다는 점입니다. 딥마인드는 2억 개가 넘는 단백질 구조 예측 데이터를 전 세계에 무료로 공개했고, 현재 200만 명 이상의 연구자들이 이를 활용하고 있습니다. 이는 코로나19 백신의 신속한 설계, 알츠하이머와 같은 난치성 질환의 메커니즘 분석, 플라스틱 분해 효소 개발 등으로 이어져 과학계에서 가장 활발하게 활용되는 AI라고 할 수 있습니다.

▲ 2024년 노벨 화학상 수상자 (©The Royal Swedish Academy of Sciences)

2024년, 알파폴드를 개발한 데미스 하사비스(Demis Hassabis), 존 점퍼(John M. Jumper), 데이비드 베이커(David Baker)는 노벨 화학상을 공동 수상하며, AI 기반 기술로는 최초로 노벨상의 영예를 안았습니다. 또한, 같은 해 5월에 공개된 알파폴드3는 단백질 간 상호작용뿐 아니라 DNA, RNA, 항체, 리간드* 등 다양한 생체분자와의 상호작용까지 예측하면서 바이오 연구에 더욱 강력한 도구로 자리 잡았죠. 다만 알파폴드3는 소스코드를 비공개로 전환하면서 과학계의 오픈 사이언스 가치에 대한 논란을 불러일으키기도 했습니다.

* 리간드(Ligand): 생물학적 목적을 위해 생체분자와 복합체를 형성하는 물질이다. 단백질-리간드 결합에서 리간드는 단백질의 특정 부위에 결합해 신호를 발생시키는데, 이러한 결합은 표적 단백질의 입체구조적 변화를 초래한다.

세상에 없던 물질을 찾는 AI: 구글놈(GNoME)

▲ 구글 딥마인드의 신소재 모델 예측 AI, 구글놈

AI는 세상에 없는 물질까지도 찾아내며 과학의 또 다른 영역을 개척하고 있습니다. 특히 신소재 개발 분야가 그 대표적인 사례죠. 수천 가지 원소의 다양한 조합과 수많은 결정 구조, 복잡한 물성 속에서 새로운 소재를 발견하는 일은 가내수공업에 가까운 노력이 필요했습니다. 새로운 물질 하나를 찾는 데 수년이 걸리는 일도 흔했죠. 하지만 이제는 AI가 신소재 연구의 핵심으로 자리 잡고 있습니다. 그 대표적인 AI가 바로 구글 딥마인드가 2023년 말에 발표한 구글놈(GNoME, Graph Networks for Materials Exploration)입니다.

구글놈은 기존에 알려지지 않은 신소재를 빠르고 정확하게 예측할 수 있는 AI 모델입니다. 수십만 개에 달하는 결정 구조 데이터를 학습한 뒤, 그 안에서 원자 간 결합 규칙과 에너지 안정성의 패턴을 추출하는데요. 이후 가능한 조합을 시뮬레이션해, 고체 결정으로써 안정적으로 존재할 가능성이 높은 물질 후보를 자동으로 생성하는 방식이죠. 이 예측 과정은 단순한 패턴 매칭을 넘어, 양자역학 기반 계산과 보로노이 알고리즘* 같은 물리 기반 모델링을 포함하고 있어 더욱 정밀합니다.

* 보로노이 알고리즘: 하나의 공간에 여러 점이 있을 때, 각 점이 차지하는 ‘가장 가까운 구역’을 계산해 내는 알고리즘

양자역학 계산은 원자들이 어떻게 상호작용하고 전자가 어떤 궤도로 움직이는지를 분석하여, 해당 조합이 물리적으로 존재 가능한지를 평가합니다. 한편, 보로노이 알고리즘은 각 원자가 공간에서 차지하는 영역과 이웃 원자와의 거리 분포를 기반으로, 충돌 없이 안정적인 결정 구조를 형성할 수 있는지를 따지죠. 이처럼 양자역학의 미시적 상호작용과 공간 기하 구조까지 함께 고려하기 때문에, 구글놈의 예측은 단순한 데이터 기반 추정보다 훨씬 더 물리적으로 타당하고 실험 가능성이 높은 결과를 도출할 수 있는 겁니다.

▲ 여러 방법을 통해 발견한 안정적인 신소재 개수(©Google DeepMind)

이렇게 철저한 이론 기반 시뮬레이션을 통해 구글놈은 무려 250만 개 이상의 신소재 후보군을 생성했고, 이 중 약 38만 개는 실험적으로도 안정적일 가능성이 매우 높은 것으로 평가됐습니다. 이는 기존 방식대로라면 수천 명의 과학자가 수십 년을 투자해야만 달성할 수 있는 규모인데요. 이를 통해 AI가 과학의 속도를 얼마나 빠르게 바꾸고 있는지를 단적으로 볼 수 있죠.

현재 구글놈은 배터리, 반도체, 초전도체, 에너지 저장 소재 등 첨단 재료 산업의 핵심 분야에서 실제 후보 물질 탐색에 적극적으로 활용되고 있습니다. 특히 차세대 에너지 소자나 양자컴퓨팅용 소재처럼 실험 접근이 어려운 분야에서는 구글놈이 제안하는 후보군을 바탕으로 연구의 방향을 설정하는 사례가 늘고 있죠. 구글놈은 단순한 계산 도구를 넘어, 인간이 아직 도달하지 못한 물질의 가능성을 열어주는 ‘지능형 과학 파트너’로 자리 잡아 가고 있습니다.

분자의 언어를 이해하는 AI: 켐프롭(Chemprop)

▲ 분자의 화학적 특성을 예측하는 AI 모델, 켐프롭

화학은 오랜 시간 동안 ‘직관’과 ‘경험’의 학문으로 여겨져 왔습니다. 수많은 화합물의 특성과 반응 경로를 예측하려면, 복잡한 이론 지식과 오랜 실험 경험이 필수였죠. 하지만 최근 AI는 분자의 특성을 해석하는 방식을 근원적으로 바꾸고 있습니다. 바로 그 중심에 있는 기술이 켐프롭(Chemprop)입니다.

▲ 켐프롭은 분자식이나 구조식으로 표현되던 기존 화학 모델링을 GNN을 통해 그래프로 표현(©Wojtuch, Agnieszka, et al. “Extended study on atomic featurization in graph neural networks for molecular property prediction.” Journal of Cheminformatics 15.1 (2023): 81.)

켐프롭은 2019년 MIT의 그린 연구실에서 개발된 분자 특성 예측 AI 모델입니다. 켐프롭의 가장 큰 특징은, 기존 화학 모델링과는 전혀 다른 방식으로 분자를 인식한다는 점이죠. 전통적인 모델은 분자를 원자 배열이나 화학식으로 단순하게 표현했지만, 켐프롭은 조금 특별합니다. 분자를 단순한 화학식이 아닌, 원자(Node)와 결합(Edge)으로 구성된 그래프 형태로 인식하고, 그래프 신경망*을 활용해 분자 내에서 일어나는 전자 이동과 상호작용을 학습하는 것이죠. 이 방식은 기존 모델보다 훨씬 더 정밀하게 분자의 물리적, 화학적 특성을 예측할 수 있게 해줍니다.

* 그래프 신경망(GNN, Graph Neural Network): 그래프 구조의 데이터를 효과적으로 학습하기 위한 딥러닝 모델, 그래프의 개별 객체인 원자를 나타내는 노드(Node)와 노드 간의 관계나 연결, 결합을 나타내는 엣지(Edge)를 통해 학습한다.

▲ 물 분자로 알아본 노드와 엣지

또한 켐프롭은 독성, 용해도, 안정성, 생물학적 활성 등 다양한 특성을 예측할 수 있으며, 이를 통해 신약 후보 물질의 성능과 부작용을 미리 파악할 수 있는데요. 실제로 머크, 노바티스 등 글로벌 제약사들은 켐프롭을 도입해 신약 개발 기간을 1~2년 단축하는 데 성공했죠. 그렇기에 켐프롭은 신약 개발 분야에서 강력한 도구로 떠오르고 있습니다.

게다가 켐프롭은 지속 가능한 화학 물질 개발에도 활용됩니다. 플라스틱 대체 소재나 친환경 촉매 개발 과정에서 실험 전 물질의 가능성을 빠르게 예측함으로써 자원 낭비를 줄이고 환경 부담을 줄이는 ‘그린 AI’로도 주목받고 있습니다.

무엇보다 켐프롭은 오픈소스로 공개돼 있다는 점에서 접근성과 확장성이 뛰어나 전 세계의 대학 연구실이나 스타트업도 손쉽게 자체 예측 모델을 만들 수 있고, 몇 줄의 코드만으로 특정 화합물 군에 특화된 분석 시스템을 구축할 수 있습니다. 이로써 켐프롭은 화학의 세계를 해석하는 방식을 근본부터 다시 쓰고 있는 중이죠.

하늘을 감시하는 AI: 헬리오링크3D(HelioLinc3D)

▲ 소행성 탐지 AI, 헬리오링크3D

생명과 물질, 화학을 넘어 AI는 이제 우주의 질서를 읽기 시작했습니다. 워싱턴대학교에서 개발한 헬리오링크3D(HelioLinc3D)는 소행성 탐지를 위한 AI 알고리즘으로, 천문학계의 새로운 표준을 제시하고 있습니다.

▲ 짧은 시간 동안 동일한 천체가 연속적으로 관측되면 궤도를 추정하는 방식(© JPL | NASA Center for Near-Earth Object Studies)

기존의 소행성 탐지는 ‘Tracklet-based linking*’ 방식으로, 하룻밤 사이 동일한 천체가 최소 4회 이상 연속적으로 포착돼야 궤도 추적이 가능했습니다. 따라서 밝고 빠르게 이동하는 소행성만 탐지가 가능했고, 느리게 움직이거나 희미하게 보이는 천체는 아예 데이터에서 제외되는 경우가 많았죠.

하지만 헬리오링크3D는 전혀 다른 접근을 시도했는데요. 다른 날, 다른 위치에서 촬영된 흩어진 관측 데이터를 AI가 스스로 연결해 하나의 궤도를 추론한 것입니다.

헬리오링크3D는 수백만 개의 관측 데이터를 동시에 분석하며, 밝기, 속도, 방향, 위치 등을 바탕으로 잠재적 천체 후보를 추론하고, 이들을 하나의 천체로 연결해 냅니다. 흩어진 정보를 통합하고, 3차원 궤도 해석 모델과 일치시키는 기술이 바로 헬리오링크3D의 핵심이죠. 이 과정을 통해 기존 시스템에서는 놓쳤던 천체들까지 포착할 수 있게 되었습니다.

* Tracklet-based linking(트랙렛 기반 연결): 짧게 추적한 여러 객체 경로(Tracklet)를 나중에 이어 붙여 하나의 긴 이동 경로를 복원하는 기법이다. 가려짐이나 일시적 손실을 보완해 지속적인 추적을 가능하게 한다.

▲ 여러 날 나눠 찍힌 데이터 조각들을 모아 하나의 궤도로 재구성(©ATLAS/University of Hawaii Institute for Astronomy/NASA)

실제로 2023년, 헬리오링크3D는 기존 탐지 방식으로는 확인할 수 없었던 소행성 ‘2022 SF289’를 조기에 포착하며 주목받았는데요. 이 소행성은 천천히 움직였고, 배경 별빛과 겹쳐 있었으며, 관측 데이터가 서로 다른 날짜와 위치에 흩어져 있어 기존 방식이라면 아예 탐지 시도조차 어려운 대상이었죠.

하지만, 헬리오링크3D는 서로 다른 날짜에 촬영된 단편적 관측 데이터를 마치 흩어진 퍼즐을 맞추듯이 결합해 새로운 소행성 궤도를 찾아낸 것이죠. 이 기술은 향후 미국의 초대형 관측 프로젝트 LSST*에 본격적으로 도입될 예정이며, 매일 수십 테라바이트(TB)에 달하는 우주 데이터를 분석하는 데 필수적인 역할을 하게 될 것입니다.

* LSST(Legacy Survey of Space and Time, 우주와 시간의 유산 관측 프로젝트): 미국에 위치한 버라 루빈(Vera Rubin) 천문대에서 진행하는 대규모 프로젝트, 10년 동안 약 370억 개의 천체를 관측하는 프로젝트로 수많은 천체의 변화를 기록한다.

AI는 과학의 파트너가 되고 있다

▲ 단순한 조력자를 넘어 실험 설계, 데이터 분석, 시뮬레이션 예측 역할까지 하는 AI

과학의 본질은 질문과 관찰, 그리고 해석입니다. 지금까지는 이 과정의 중심에 사람이 있었다면, 이제 AI는 실험 설계자이자 데이터 분석가, 탐색자, 심지어는 우주의 감시자 역할까지 수행하고 있죠.

알파폴드는 생명의 퍼즐을 풀고, 구글놈은 신소재의 지도를 새로 그리고 있으며, 켐프롭은 분자의 언어를 해석하고, 헬리오링크3D는 보이지 않던 천체를 추적합니다. 각기 다른 분야의 AI들이 과학이라는 하나의 목표를 향해 달려가고 있는 것이죠. 이러한 AI 기술들의 발전 뒤에는 SK하이닉스와 같은 기업들의 끊임없는 기술 혁신이 중요한 기반이 되고 있습니다.

▲ 과학계 패러다임을 바꿀 AI 기술 발전에 기여하고 있는 SK하이닉스

물론 AI는 만능은 아닙니다. 인간의 직관, 윤리적 판단, 창의성은 여전히 과학의 핵심 자산입니다. 그러나 분명한 사실은 AI는 과학의 속도를 바꾸고 있고, 이제 과학은 AI와 함께 앞으로 나아가야 한다는 점입니다. AI 기술의 발전과 함께 데이터 편향성, 악용 가능성 등 윤리적인 문제에 대한 심도 있는 논의와 안전장치 마련 또한 중요합니다.

미래에는 또 어떤 AI 기술이 과학의 다음 챕터를 열게 될까요? 그 여정을 기대해 봐도 좋을 것 같습니다.

]]>
프롬프트 하나로 세상을 그리다: AI와 함께하는 창작의 시대 /ambassador-the-era-of-creation/ Wed, 07 May 2025 05:00:13 +0000 /?p=47797 AI 기술의 발전으로 이제 누구나 이미지, 영상, 음악, 심지어 3D 모델까지도 텍스트 한 줄로 생성할 수 있는 시대가 열렸다. 이러한 흐름 속에서 단순히 AI 툴을 다루는 능력보다 ‘AI로 무엇을 표현할 것인가’에 대한 고민이 더욱 중요해지고 있다. 이에 SK하이닉스 대학생 앰버서더는 AI 콘텐츠 크리에이터 킵콴님의 강연을 통해, 기술을 넘어 창작자에게 필요한 사고방식과 태도에 대해 깊이 있는 인사이트를 얻는 시간을 가졌다.

▲ 킵콴님의 강연을 듣고 있는 앰버서더들

“좋은 프롬프트는 창작자의 상상력을 현실로 확장하는 출발점”

AI에게서 어떻게 좋은 결과물을 얻을 수 있을까? 핵심은 AI에게 던지는 질문, 즉 ‘프롬프트(Prompt)’였다. 아무리 성능이 뛰어난 AI라도 입력 문장이 애매하거나 모호하면, 만족스러운 결과를 얻기는 어렵다. 따라서 좋은 결과물을 얻으려면 단어를 나열하는 방식에서 벗어나 창작자의 의도를 분명히 전달할 수 있는 구조화된 사고가 중요하고, 이를 기반으로 도출된 좋은 프롬프트가 필요하다.

▲ 프롬프트를 다섯 가지 단계에 맞춰 작성하고 있는 김진재 앰버서더

강연에 나선 킵콴님은 좋은 프롬프트를 구성하는 다섯 가지 단계로, ▲목적 ▲스토리 ▲도구 ▲디테일한 묘사 ▲컬러/무드를 소개했다. 그는 “이 과정을 통해 단어 하나하나에 의미를 담아 구조화된 문장으로 정리하면, AI가 창작자의 의도를 보다 정확히 파악해 그에 맞는 결과를 도출할 수 있다”며 “이 모든 과정은 단순히 기술을 활용하는 수단이 아니라, 창작자의 상상력을 현실로 확장하는 출발점”이라고 설명했다.

AI와 사람, 캐치볼을 시작하다…기술보다 중요한 건 사람, 그리고 그의 이야기

또, 킵콴님은 AI와의 협업을 ‘캐치볼’에 비유하며, 창작 과정에서 상호작용의 중요성도 강조했다. 사람이 먼저 스토리를 AI에게 던지면, AI는 이를 바탕으로 여러 제안을 되돌려준다. 이후 어떤 결과를 선택하고, 어떻게 다듬어 완성할지는 다시 사람의 몫이다.

이 과정은 반복되며, 창작자는 끊임없이 판단하고 조율해 나가야 한다. 단순히 ‘AI가 만들어준 결과’를 그대로 수용하는 것이 아니라, 의도한 바와 얼마나 일치하는지 끝까지 확인하고 책임지는 태도가 필요하다는 것이다. 실제로 킵콴님은 “영상 콘텐츠를 만들 때도 발상과 이야기 구성, 콘티 설계부터 편집과 최종 검토까지 모든 단계에서 사람이 주도적으로 개입해야 한다”고 힘주어 말했다.

▲ 앰버서더만의 이야기를 담은 SK하이닉스 마스코트를 들고 앰버서더들이 기념사진을 찍고 있다.

가장 인상 깊게 다가온 메시지는 기술보다 먼저 고민해야 할 것이 바로 ‘이야기’라는 점이었다. 아무리 많은 도구와 기술이 있어도 그 안에 담을 이야기가 없다면 AI가 만들어낼 수 있는 결과에는 한계가 있기 때문이다. 결국 좋은 결과물은 풍부한 경험과 학습에서 비롯된 이야기에서 시작되며, 그것을 얼마나 구체적으로 묘사하고 설명할 수 있는지에 따라 AI의 반응도 달라진다.

김진재 앰버서더는 “이번 강연을 통해 SK하이닉스 대학생 앰버서더들은 단순히 AI 사용법을 익히는 것을 넘어, ‘창작자란 무엇인가’, 그리고 AI 시대에 인간은 어떤 역할을 해야 하는지 깊이 고민할 수 있었다”며 “누구나 창작자가 될 수 있는 시대지만, 진짜 콘텐츠는 여전히 사람의 생각과 감각에서 비롯된다는 것을 다시 한번 되새길 수 있어 정말 좋았다”고 말했다.

]]>
SK하이닉스 도승용 부사장, 과학·정보통신의 날 동탑산업훈장 수상 “AI/DT 기반 스마트팩토리로 HBM 등 제조 기술력 높일 것” /award-on-science-and-ict-day-2025/ Tue, 22 Apr 2025 05:00:04 +0000 /?p=47418 동탄산업훈장, 과학정보통신의날

SK하이닉스는 21일 서울 강남구 한국과학기술회관에서 열린 ‘2025년 과학·정보통신의 날 기념식’에서 도승용 부사장(DT 담당)이 정보통신 부문 동탑산업훈장을 수상했다고 밝혔다.

과학기술정보통신부 및 방송통신위원회는 과학의 날(4.21)과 정보통신의 날(4.22)을 맞아 산업 종사자의 자긍심을 고취하고, 과학기술의 중요성을 알리고자 매년 기념식과 시상식을 진행하고 있다. ‘AI로 디지털 대전환, 과학기술로 미래 선도’를 슬로건으로 열린 올해 행사에서는 국가 과학기술 및 정보통신 산업 발전에 기여한 유공자를 대상으로 부문별 포상이 진행됐다.

이날 도승용 부사장은 AI(Artificial Intelligence)와 DT(Digital Transformation) 기반으로 스마트팩토리(Smart Factory) 시스템을 구축해 HBM*과 메모리 제품의 시장 경쟁력을 강화하고, 국내 제조 산업의 기술력을 끌어올린 공로를 인정받았다.

* HBM(High Bandwidth Memory): 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품. HBM은 1세대(HBM)-2세대(HBM2)-3세대(HBM2E)-4세대(HBM3)-5세대(HBM3E)-6세대(HBM4) 순으로 개발됨

주요 공적은 ▲HBM 향(向) 스마트팩토리 시스템 구축을 통한 HBM 생산성 향상 및 개발 기간 단축 ▲AI 업무 자동화 및 토탈 모니터링 시스템 구축 ▲AI 기반 가상 계측 시스템을 통한 품질 혁신(全 웨이퍼 품질 검사 실현) ▲EUV* 장비의 글로벌 운영 시스템 구축을 통한 장비 가동률 30% 향상 등이다.

* EUV(Extreme Ultraviolet): 짧은 파장의 빛(극자외선)을 이용하는 리소그래피 기술. 웨이퍼에 회로 패턴을 새기는 장비에 사용

SK하이닉스는 “도 부사장이 제조 IT 혁신을 주도하고 스마트팩토리 시스템을 개발해 AI 기반의 디지털 대전환을 성공적으로 완수했다”며 “앞으로도 이를 지속 개발하고 제조 현장에 적용해 주요 제품의 생산성 및 품질을 향상하고 시장 리더십을 확고히 할 계획”이라고 밝혔다.

“AI/DT 기반 스마트팩토리 구축… 생산성·품질 끌어올려 HBM 등 주요 제품 매출 증대”

뉴스룸은 동탑산업훈장 수상의 영예를 안은 도승용 부사장을 만나, 수상 소감을 듣고 핵심 공적을 자세히 살펴봤다.

도승용 부사장은 27년 경력의 제조 IT기술 전문가로, 2020년 SK하이닉스에 합류해 제조 현장의 디지털 전환을 주도하고 있다. 특히 AI 기반 스마트팩토리 구축, 각종 모니터링 및 자동화 시스템 도입 등 지난 5년간 굵직한 공적을 쌓았는데, 이는 제조 산업 전반에 영향을 주었다.

“그동안의 공적은 모두 구성원들의 헌신과 열정으로 맺은 결실이라 생각합니다. 지난 메모리 다운턴 등 난관 속에서도 함께 고민하고 솔루션을 찾아온 구성원들에게 동탑산업훈장의 공을 돌리며, 감사하다는 말을 전합니다. 제조 경쟁력 향상을 위해 더욱 정진하라는 메시지로 알고, 앞으로 솔선수범의 자세로 더욱더 최선을 다하겠습니다.”

수상에 영향을 준 핵심 공적을 묻는 말에 그는 ‘HBM 향 스마트팩토리 시스템’을 꼽았다. 무엇보다도 ‘하이브리드 생산 프로세스’를 언급했다.

“생성형 AI가 급부상하며 HBM, 3DS* 제품의 수요가 폭발적으로 증가했습니다. HBM 장비의 긴급 투자에도 불구하고 고객의 수요를 충족시키는 것이 쉽지 않았습니다. 이를 해결하기 위해 후공정 조직과 DT 조직은 기존 패키지 라인 장비를 활용할 하이브리드 생산 시스템을 구축했습니다. 이를 통해, 생산의 유연성을 극대화하여 대규모 추가적인 장비 투자 없이 HBM 수요에 효과적으로 대응하고, 매출 증대에도 기여할 수 있었습니다. DT 기술이 없었으면 이러한 하이브리드 시스템을 단기간에 신속하게 구축할 수 없었을 것이라고 생각합니다.”

* 3DS(3D Stacked Memory): 2개 이상의 D램 칩을 TSV(수직관통전극)로 연결해 패키징을 완료한 고대역폭 메모리 제품. 3DS와 달리 HBM은 패키징 완료 전에 시스템 업체에 공급되어 GPU와 같은 로직 칩과 함께 패키지화된다는 점에서 차이가 있다.

이뿐만 아니다. ‘전·후공정을 연계한 생산 계획 및 스케줄링’, ‘저진동 반송 제어’ 등 HBM 향 맞춤형 스마트팩토리 시스템은 HBM 생산성 및 품질 향상에 많은 도움을 주고 있다. 도 부사장은 “병목 발생 공정에서의 생산성을 31% 끌어올렸고, 이슈 공정 수율을 21% 개선했다”며 “결과적으로 HBM 매출을 전년 대비 4.5배 향상하는 데 크게 기여했다”고 설명했다.

‘선도적인 설계 자동화 기술 도입’ 또한 도 부사장이 손꼽는 성과다. 그는 “HBM3E보다 훨씬 복잡해 개발 기간이 크게 늘어날 것으로 예상됐던 HBM4 등 미래 제품 개발에 새로운 설계 시뮬레이션 기법을 도입했다”며 “이를 통해 개발 기간을 획기적으로 단축하며, 차세대 AI 메모리 시장에서도 SK하이닉스가 기술 우위를 이어갈 수 있는 발판을 마련하는 데 DT 조직의 기술력이 큰 역할을 했다”고 강조했다.

Global Operation 시스템 구축을 위한 ‘EUV 장비의 개발-양산-해외법인 통합‘ 역시 주요 성과로 손꼽힌다.

“메모리 제조의 핵심인 고가의 EUV 장비를 물리적으로 옮기지 않고도 여러 생산라인과 연구 조직, 심지어 해외생산 법인까지 마치 하나의 장비처럼 공유하고 협업할 수 있는 시스템을 구축했습니다. 이를 통해 신제품 개발부터 양산까지의 전환 속도를 높이고, EUV 장비의 가동률을 향상시켰습니다. 이 역시 DT 기술 없이는 불가능할 것이라고 생각합니다.”

“현장 곳곳에 AI… 적용 분야 늘려 완전한 AI 스마트팩토리 구축한다”

도승용 부사장은 엔지니어의 업무 효율을 개선하고, 소재·부품·장비의 활용성을 대폭 개선하기도 했다. 모두 AI와 DT 기술로 이뤄낸 성과였다.

“엔지니어의 경험적 판단과 조치에 의존했던 많은 업무를 AI/DT를 활용해 자동화했습니다. 덕분에 엔지니어들은 단순 반복 업무에서 벗어나 공정 개선과 같은 더 높은 고부가가치를 창출하는 핵심 업무에 집중할 수 있게 됐죠. 특히, AI 기반 결함(Defect) 이미지 분석시스템은 엔지니어의 분석 시간을 획기적으로 단축시켰으며, 장비의 유지보수 업무 자동화는 장비 비가동 시간을 개선해 상당한 규모의 웨이퍼 추가 생산 효과를 가져왔습니다. 또한 장비-웨이퍼-소재의 통합품질제어 체계를 구축해 불필요한 업무를 줄였으며 장비 및 소재 관련 잠재적인 사고를 예방하고 있습니다. 장비에서 발생하는 미세데이터를 활용한 AI 기반의 가상계측 기술 역시 완제품 생산 시간의 증가 없이 모든 웨이퍼의 품질의 이상을 감지하고 검사하는 혁신을 실현하고 있습니다.”

한편, 도 부사장이 일군 성과들은 SK하이닉스를 넘어 국내 제조 산업으로 확산되고 있다는 점에서 의미가 크다. 도부사장은 “자사의 Best Practice 전이를 통해 SK 관계사들의 스마트팩토리 시스템 구축을 지원하고 있다”며 이러한 경험과 기술이 더 많은 기업으로 확산된다면 국내 제조 산업 전반의 기술력과 경쟁력이 한층 높아질 것”이라고 기대감을 표했다.

앞으로의 과제에 대해선 “제조 전 영역의 AI 스마트팩토리 완성을 위해선 실패를 두려워하지 않는 끊임없는 도전과 혁신, 시행착오를 최소화할 수 있는 치밀함이 필요하다”고 말했다. 아울러 구성원들에게는 지속적인 원팀 협업을 부탁했다.

“현재의 성공을 기반으로 제조 전 영역에 더욱 지능화된 AI 스마트팩토리를 구축하기 위해서는 우리 모두 머리를 맞대고 창의적인 아이디어와 솔루션을 공유하고 강력한 시너지를 창출해야 합니다. 지금껏 잘해 왔듯이, 앞으로도 원팀 스피릿(One Team Sprit)으로 목표 달성을 향해 힘을 모았으면 합니다.”

마지막으로, 도승용 부사장은 AI 중심의 제조 혁신을 넘어 기업 전체의 지능화를 위한 비전을 공유하며 적극적인 노력을 다짐했다.

“SK하이닉스는 AI 시대를 선도하는 ‘Full Stack AI Memory Provider’로서, 제조 현장 전반에 AI를 깊숙이 접목해 지속적인 혁신을 추구할 것입니다. 궁극적으로는 제조 영역을 넘어 연구개발, 공급망 관리, 마케팅, 고객 지원에 이르기까지 전사적인 가치 사슬(Value Chain) 전체를 최적화하고 지능화함으로써, 스마트팩토리를 뛰어넘는 ‘지능형 기업(Intelligent Enterprise)’ 구축이라는 더 큰 목표를 향해 나아갈 것입니다. 구성원들과 함께 이러한 목표 달성을 위해 더욱 열심히 달려 나가겠습니다.”

]]>
[DECODE AI] IT 크리에이터 ‘조코딩’이 추천하는 A+를 위한 학점 향상 AI 도구 BEST3 /decode-ai-1/ /decode-ai-1/#respond Tue, 08 Apr 2025 00:00:03 +0000 /?p=46813

AI가 일상이 된 ‘대 AI 시대’, 그 무한한 가능성을 해독하기 위해 SK하이닉스 뉴스룸이 야심 차게 선보이는 [DECODE AI] 시리즈! 각 분야의 최고 전문가들과 함께, 우리 삶 곳곳에 스며든 AI를 샅샅이 파헤칩니다.

 

1편에서는 시험을 앞둔 학생들의 학점을 끌어올려 줄 AI를 모아봤습니다. 프로그래머이자 IT 크리에이터인 ‘조코딩’이 직접 사용해 보고 감탄하며, 액기스만 추린 AI 도구 모음집. 지금부터 소개해 드립니다.

챗GPT가 세상에 나온 지 불과 2~3년, 우리의 일상은 놀라울 정도로 변화하고 있습니다. 특히, 학교의 풍경은 더욱 특별합니다. 새로운 기술에 대한 호기심으로 가득 찬 학생들은 어느덧 자연스럽게 AI를 사용하고 있습니다. 지금까지 AI를 프로필 사진 정도 바꾸는 데만 사용했나요? AI를 활용하면 더 스마트하고 효율적으로 성적을 올릴 수 있습니다. 이번 콘텐츠에서는 공부에 실질적인 도움을 주는 AI 도구 3가지를 소개합니다. 물론 이용하기 쉽고, 무료라는 점도 빼놓을 수 없겠네요.

녹음만 하면 다 글로 요약해 준다: 다글로

▲ 다글로 소개 화면

수업 시간에 잠깐 한눈팔다 중요한 내용을 놓쳤던 경험, 다들 한 번쯤은 있을 겁니다. 만약, AI가 나 대신 필기를 해준다면 어떨까요? 게다가 필기한 내용을 자동으로 요약해 핵심만 정리해 준다면 더할 나위 없이 편하겠죠. 다글로(daglo)’를 이용한다면 가능합니다.

다글로는 음성을 텍스트로 변환하고 이를 요약하는 AI 서비스입니다. 실시간으로 녹음하며 받아쓰는 ‘녹음 받아쓰기’와 녹음된 음성 파일(MP3, MP4)을 텍스트로 변환해 주는 ‘파일 받아쓰기’가 핵심 기능이죠.

▲ 다글로는 핵심 기능인 ‘녹음 받아쓰기’와 ‘파일 받아쓰기’

 

직접 녹음하거나, 녹음 파일 활용해 수업자료 생성

우리는 그저 녹음 버튼을 누르고 강의 듣는 데만 집중하면 됩니다. 물론 AI가 대신 듣고 있으니, 약간의 딴짓도 괜찮겠네요. 녹음이 끝나면, 다글로는 우리가 듣지 못한 교수님의 혼잣말까지 텍스트로 변환하고, 주요 내용을 추려 요약합니다. 혹시, 수업 시간에 깜빡할까 봐 걱정된다 해도, 안심하세요! 시간표 기능도 있으니까요. 시간표에 맞춰 자동으로 알람이 울려 녹음을 준비할 수 있도록 도와줍니다.

▲ 수업 전 알람을 받아 볼 수 있는 시간표 기능

간혹, 수업을 직접 듣지 못하는 경우도 있겠죠? 이럴 땐 친구에게 수업 내용을 녹음해 달라고 부탁해 봅시다. 녹음 파일을 업로드하고 받아쓰기를 누르면, AI가 알아서 텍스트로 변환하고 주요 내용을 추려 요약해 줍니다.

▲ 녹음 된 음성을 텍스트로 변환하고, 요약까지 진행해 주는 모습

단순히 받아 적고, 요약만 한다고 성적이 오르는 것은 아니죠? 학습에서 가장 중요한 것은 내용을 이해하고 질문하는 과정입니다. 만약 오늘 들은 수업 내용을 AI에 직접 질문하고 답변을 받을 수 있다면 더 효과적으로 공부할 수 있겠죠. ‘AI Chat’ 기능을 활용하면, 수업 내용을 질문하고, 답변도 받을 수 있습니다.

추가로 다글로는 ‘화자 분리’ 기능도 제공하는데요. 이를 활용하면 조별 모임에서도 유용하게 활용할 수 있습니다. 발화자를 나누어 볼 수 있고 회의 내용 및 업무 분장 등을 다글로를 통해 정리하고 요약할 수 있습니다. 강의/조별 회의를 녹음 해두면 중간에 놓쳐도 걱정을 한시름 놓을 수 있겠죠?

알아서 내가 필요한 자료를 척척 찾아준다: 퍼플렉시티

▲ 퍼플렉시티의 초기 화면

혹시, 과제 할 때 자료조사에 너무 많은 시간을 쓰고 있지 않나요? 이는 크게 2가지 문제 때문입니다. 첫째는 조사해야 하는 주제가 어려워 무엇부터 조사해야 할지 모르는 경우입니다.

만약 ‘양자역학의 현대적 해석과 철학적 함의’라는 주제를 보면 어떨까요? 어떤 자료부터 조사해야 할지 감조차 오지 않는데요. 무턱대고 양자역학을 검색하기 시작했다가는 애꿎은 아인슈타인의 상대성이론을 찾아보고 있을지도 모르죠.

둘째, 내가 원하는 자료가 어디에 있는지 몰라 한참을 인터넷 세상에 표류하는 경우입니다. 일반적으로 우리는 키워드를 먼저 검색하고 나온 모든 글을 하나씩 읽어보게 되는데요. 이렇게 읽은 글들이 내게 필요 없는 정보였다면, 그 내용을 읽는 데 쓴 시간이 모두 낭비된 셈이죠. 이때 ‘퍼플렉시티(Perplexity)’를 사용하면 문제를 해결할 수 있습니다.

퍼플렉시티는 AI가 여러 웹사이트 정보를 직접 찾아서 요약 및 정리해 주는 검색 서비스입니다. 사용 방법은 간단합니다. 찾고 싶은 내용을 질문하듯 물어보면 됩니다. 그러면 필요한 자료들을 빠르게 찾아 주고, 출처까지 알려줍니다.

▲ AI 구현에 있어 HBM과 같은 AI 메모리가 중요한 이유를 주제로 검색했을 때 나오는 결과물

퍼플렉시티는 자료 검색 범위 설정 기능이 있어, 필요한 정보에 맞춰 검색 방식을 조정할 수 있습니다. 웹 검색은 일반 검색엔진과 유사하게 다양한 온라인 소스에서 정보를 모아줍니다. 시사 이슈나 최신 트렌드를 파악할 때 유용한데요. 발표 자료를 준비하거나 과제의 서론을 작성할 때 먼저 활용해 보세요.

예를 들어, “AI 구현에 있어 HBM과 같은 AI 메모리가 중요한 이유는?” 이렇게 물어본다면 해당 내용을 한눈에 보기 쉽게 정리해 줍니다. 이를 활용하면, 사실관계를 빠르게 파악할 수 있어 자료조사 시간을 절약할 수 있죠.

논문이나 학술 연구 자료가 필요한 경우, ‘학문’ 모드를 사용하면 검증된 정보만 받을 수 있습니다. 특히, 학술적 근거가 필요한 과제에 유용한데, 관련 논문을 검색해 신뢰할 수 있는 이론적 근거를 제공합니다.

커뮤니티 의견이 필요하다면 소셜 검색 기능을 활용하세요. 해외 주요 커뮤니티 글을 중심으로 검색해 사용자들의 반응을 확인할 수 있습니다.

예를 들어, “현직 반도체 엔지니어들이 바라보는 실제 기술적 과제와 시장 전망은 어떤가요?”나 “최신 공정 기술 흐름에 맞춰 반도체 공학 학부생이 집중적으로 배워야 할 구체적인 스킬 셋이 무엇인가요?”라고 질문하면, 커뮤니티에서 논의된 생생한 의견들을 정리해 보여줍니다. 트렌드 분석이나 소비자 행동 연구 등 실제 사례가 필요한 과제에서 빛을 발합니다.

 

사용자 편의에 따라 답변 모드, AI 모델도 변경 가능

그리고 퍼플렉시티는 질문 유형에 따라 답변 모드를 선택할 수 있고, 원하는 AI 모델을 지정할 수도 있습니다.

▲ 사용자 편의에 따라 답변 모드를 선택할 수 있다.

간단한 질문으로 빠른 대답이 필요할 땐 ‘장점’ 모드를 사용할 수 있습니다. “AI 산업의 전망에 대해 알려주세요”와 같이 사실 확인이 필요할 때 유용하죠. 발표 준비 중 급하게 숫자나 날짜를 확인하거나 수업 중 실시간으로 용어를 찾아볼 때 특히 효과적입니다.

▲ 질문을 장점 모드로 사용했을 때 얻은 답변

‘추론’ 모드는 다소 어려운 질문을 풀 때 사용할 수 있고, ‘심층 연구’ 모드는 전문적인 조사가 필요한 보고서, 논문 등을 작성할 때 유용합니다. 자료에 필요한 목차 설정뿐 아니라 목차에 필요한 세부적인 사항까지 조사해 제공합니다.

질문이 같아도 모드에 따라 답변의 깊이나 방식이 달라집니다. 때문에 사용자들이 모드를 바꿔가며 질문하면, 원하는 답변을 얻을 가능성이 높아집니다. 하지만, 어떤 모드를 고를지 모르겠다면 자동으로 설정해도 괜찮습니다. 똑똑한 퍼플렉시티가 질문 내용에 따라 알아서 적절한 모드를 설정해 주기 때문입니다.

▲ 질문을 심층 연구 모드로 사용했을 때 얻은 답변

퍼플렉시티는 다양한 AI 모델을 지원한다는 장점도 있는데요. 모드를 선택하면, 해당 모드에 맞는 적절한 AI 모델을 지정할 수 있습니다. 퍼플렉시티의 자체 모델인 Sonar 외에도, 구글, 오픈AI, 클로드 등의 최신 AI 모델들도 선택할 수 있어 다양한 답변을 받아볼 수 있습니다.

▲ Sonar를 비롯해 GPT-4.5, Gemini 2.0 Flash 등 최신 AI 모델 등을 한 서비스에서 이용할 수 있다.

다양한 형식의 자료를 종합해 한 번에 정리하기: 노트북 LM

▲ 노트북 LM의 초기 화면

시험 기간이 다가오면 많은 학생이 스트레스를 받습니다. 특히 한 학기 동안 거들떠보지도 않았던 영상, PDF, 웹사이트 등 봐야 할 수업 자료의 종류가 많을수록 더욱 골치 아파지기 마련이죠.

만약 다양한 종류의 자료들을 한 번에 읽고, 종합해 핵심 내용을 짚어주는 AI가 있다면 어떨까요? 이런 AI를 찾았다면, 바로 ‘노트북 LM(NotebookLM)’을 이용해 보세요.

 

확장자의 장벽에 갇히지 않는 AI

일반적인 AI 서비스는 하나의 자료만 분석하는 경우가 많은데요. 하지만 노트북 LM은 내가 업로드한 다양한 자료들의 핵심 내용을 종합적으로 요약하거나 질문에 답해줍니다.

노트북 LM의 장점은 50종류의 파일 확장자를 한 번에 업로드하고 학습할 수 있다는 점입니다. PDF, TXT, 마크다운*, 오디오(mp3 등), Google Docs, Slides 등을 비롯해, 웹사이트의 URL, 유튜브 등의 링크도 첨부할 수 있습니다.

* 마크다운(Markdown): 경량 마크업 언어(Markup Language)의 하나로, 간단한 문법만으로 서식을 지정한 문서를 작성할 수 있다. 개발 문서, 블로그, README 파일 등 다양한 환경에서 널리 사용된다.

▲ 유튜브 링크 하나만 넣자 바로 학습하는 노트북 LM

노트북 LM의 이러한 특징은 수업마다 강의 자료의 형식이 다양하다는 점을 고려해 봤을 때 매우 유용하다고 할 수 있는데요. 교수님들이 저마다 제공해 주는 다양한 양식의 교육 자료나 내가 정리한 노트, 수업 중 녹음한 음성 파일, 논문, 참고 링크들을 하나하나 정리하고 요약하는 시간을 혁신적으로 절약해 줍니다.

또한, 노트북 LM은 단순히 자료를 정리하는 것에서 끝나지 않고, 업로드한 자료를 바탕으로 이용자의 질문에 답변해 주는 기능까지 제공합니다. 이를 활용하면 단순한 복습을 넘어, 능동적으로 학습하고 이해도를 높이는 데에도 도움이 될 수 있습니다.

AI 활용 능력이 학점이 되는 시대

불과 몇 년 사이에 대학생들의 공부 방식이 크게 달라졌다는 걸 실감합니다. 무거운 전공책을 들고 다니며, 교수님의 강의를 놓칠세라 말씀 한마디 한마디를 모두 받아 적고, 시험 기간엔 수업 자료를 다시 보고 정리하느라 정신없었던 학생들의 모습은 이제 찾아보기 어렵습니다.

이제는 태블릿 PC와 터치펜만 들고 수업에 참여해, AI의 도움을 받아 더욱 쉽고 효율적으로 학습하는 시대가 된 것이죠. 위에 소개한 AI를 활용해 보니, AI는 24시간 내 곁에 있어 주는 든든한 과외 선생님과 같다는 생각이 들었는데요. 이제는 AI를 얼마나 잘 활용하는지가 본인의 학점을 결정하는 중요한 요소가 된 것 같습니다.

이번 학기에는 AI를 적극 활용해서 효율적인 학점 관리에 성공하시길 바랍니다!

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

]]>
/decode-ai-1/feed/ 0
SK하이닉스, GTC 2025서 독보적인 AI 메모리 기술 리더십 선봬 /gtc-2025/ /gtc-2025/#respond Wed, 19 Mar 2025 07:00:22 +0000 /?p=45725

SK하이닉스가 3월 17일부터 21일(현지 시간)까지 미국 캘리포니아주 새너제이(San Jose)에서 열리는 ‘GTC(GPU Technology Conference) 2025’[관련링크]에 참가해, AI 시대를 선도하는 메모리 기술을 선보였다.

GTC는 엔비디아(NVIDIA)가 매년 개최하는 세계 최대 AI 전문 콘퍼런스다. 올해는 ‘What’s Next in AI Starts Here’라는 슬로건 아래 약 1,000개 이상의 세션과 300개 이상의 전시가 진행됐으며, AI 관련 최신 기술과 솔루션이 공유됐다.

이번 행사에서 SK하이닉스는 ‘Memory, Powering AI and Tomorrow(메모리가 불러올 AI의 내일)’라는 주제로 전시 부스를 운영하며 ▲AI/DC(Data Center) ▲HBM* ▲온디바이스(On-Device) ▲오토모티브(Automotive) 등 네 가지 주요 영역에서 AI 혁신을 가속하는 메모리 제품들을 소개했다. 특히, HBM 섹션에서는 현재 개발 중인 HBM4 12단 모형을 공개하며 압도적인 기술 우위를 선보였다.

* HBM(High Bandwidth Memory): 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품. HBM은 1세대(HBM)-2세대(HBM2)-3세대(HBM2E)-4세대(HBM3)-5세대(HBM3E)-6세대(HBM4) 순으로 개발됨

AI/DC 섹션에는 대규모 데이터 처리와 저장에 최적화된 기업용 SSD(Enterprise SSD, eSSD) ▲PEB110 ▲PS1010 ▲PE9010 등과 데이터센터용 DIMM* 제품인 ▲DDR5 RDIMM과 ▲MRDIMM, 세계 최고 사양의 그래픽 메모리 ▲GDDR7이 전시됐다. 또한, DDR5 기반의 CXL* 제품인 ▲CMM-DDR5과 AI 서버용 저전력 D램 모듈인 ▲SOCAMM* 등 차세대 AI 메모리도 함께 선보여 눈길을 끌었다. 회사는 LPDDR5X와 서버용 메모리 시장에서의 경쟁력을 바탕으로 SOCAMM 시장이 개화하는 시기에 맞춰 양산을 시작해 AI 메모리 포트폴리오를 확대해 나갈 계획이다.

* DIMM(Dual In-line Memory Module): 여러 개의 D램이 기판에 결합한 모듈
* CXL(Compute Express Link): 고성능 컴퓨팅 시스템에서 CPU/GPU, 메모리 등을 효율적으로 연결해 대용량, 초고속 연산을 지원하는 차세대 인터페이스. 기존 메모리 모듈에 CXL을 적용하면 용량을 10배 이상 확장할 수 있음
* SOCAMM(Small Outline Compression Attached Memory Module): 기존의 서버용 메모리 모듈보다 더 작은 폼팩터를 가지면서 전력 효율이 높은 LPDDR5X 기반 차세대 메모리 모듈

HBM 섹션에서 가장 주목받은 제품은 단연 HBM4였다. 이번 행사에서 처음 공개된 SK하이닉스의 HBM4는 베이스 다이(Base Die) 성능을 대폭 개선하고, 전력 소모를 획기적으로 줄이는 방향으로 개발 중이다. 회사는 AI 메모리 솔루션인 HBM4를 선보이며 업계 선도적 위치를 더욱 공고히 할 것이라고 설명했다. 또한, 현존 최고 성능과 용량을 갖춘 HBM3E 12단 제품[관련기사]과 엔비디아의 ‘GB200 그레이스 블랙웰 슈퍼칩(GB200 Grace™ Blackwell Superchip)’을 함께 전시해 시장에서의 경쟁 우위를 증명했다.

온디바이스 섹션에는 디바이스 자체에서 데이터 처리와 AI 연산을 수행할 수 있도록 최적화된 ▲LPDDR6 ▲LPCAMM2 ▲PCB01 ▲ZUFS 4.0 등의 고성능·저전력 메모리 솔루션들이 소개됐다.

오토모티브 섹션에서는 ▲HBM2E ▲LPDDR5 ▲UFS 3.1 ▲Gen4 SSD 등의 차량용 메모리 솔루션을 선보이며, 자율주행 및 미래 모빌리티 시대를 앞당길 혁신 기술을 제시했다.

이번 행사에서는 오프라인 전시 부스와 함께 온라인 방문객들을 위한 버추얼 부스(Virtual Booth)도 마련됐다. [관련링크] 회사는 지난해 성과와 함께 서버 솔루션, PS1012, GDDR7, CMM-DDR5 등의 주요 제품 정보를 웹 브로슈어로 제공하고, HBM, 1c DDR5*, Automotive 등의 혁신 솔루션을 소개하는 영상을 공개해 방문객들이 SK하이닉스의 지속적인 기술 리더십을 확인할 수 있게 했다.

* 10나노급 6세대(1c) 미세공정을 적용한 16Gb(기가비트) DDR5 D램. 10나노급 D램 공정 기술은 1x-1y-1z-1a-1b 순으로 개발돼 1c는 6세대다. 2024년 8월 SK하이닉스가 세계 최초로 개발에 성공했다.

▲ AI시대 HBM의 중요성에 대해 발표 중인 박정수 TL(HBM상품기획)

회사는 전시 외에도 발표 세션을 통해 업계 관계자들과 인사이트를 공유했다. 박정수 TL(HBM상품기획)은 ‘High-Bandwidth Memory: Backbone of High Performance Computing and AI(HBM: 고성능 컴퓨팅 및 AI의 핵심)’라는 주제로 발표를 진행하며, HBM 기술의 발전과 SK하이닉스의 독보적인 리더십을 강조했다.

▲ SK하이닉스의 차량용 메모리에 대해 발표 중인 김기홍 TL(Mobility사업)

김기홍 TL(Mobility사업)은 온라인 세션을 통해 ‘Preparing for the Future: Automotive Memory and Storage requirements(미래 전략: 차량용 메모리 및 스토리지 요구 사항)’라는 주제로 자동차 산업에서의 메모리 및 스토리지 특성과 SK하이닉스의 전략을 소개했다.

SK하이닉스는 “AI 기술이 급속도로 발전하는 가운데, 메모리 솔루션의 중요성도 더욱 커지고 있다”며, “이번 GTC 2025에서 AI 시대를 위한 최적의 메모리 솔루션을 선보이며 원팀 파트너십을 바탕으로 글로벌 AI 기업들과의 협력을 더욱 강화할 것”이라고 밝혔다.

]]>
/gtc-2025/feed/ 0
착한 AI가 악의로 가득 찬 세상에 대응하는 자세 /ai-in-culture-5/ /ai-in-culture-5/#respond Thu, 06 Mar 2025 00:00:12 +0000 /?p=46060 딥페이크 디지털 성범죄나 딥보이스 스미싱 등 다양한 분야에서 AI를 악용한 범죄가 발생하고 있다. 이미지나 영상, 목소리, 대화 등 데이터의 스펙트럼은 다양해도 모든 AI 범죄는 ‘AI 윤리’ 측면에서 예견되어 있었다. 2020년 한 스타트업이 출시한 여대생 콘셉트 챗봇은 국내에서 AI의 윤리적 범죄 가능성을 처음으로 인지하게 했다. 이 챗봇은 짧은 기간 동안 가입자 80만 명을 모으며 인기를 끌었는데, 결과는 예상치 못한 방향으로 이어졌다. ‘지하철 임산부석’, ‘동성애’에 관한 질문에 여성과 소수자에 대한 혐오 발언을 답변으로 내놓거나, 은행과 주소를 묻는 말에 비식별화 처리되지 않은 불특정 다수의 실제 정보를 발화하기 시작한 것이다. 과거 서비스 이용자의 실제 SNS 데이터를 바탕으로 개발되었던 챗봇은 얼마 가지 못해 서비스를 종료했다.

▲ 국내 스타트업 챗봇의 실제 대화 예시(©온라인 커뮤니티 캡처)

해외 사례까지 종합해 보면, AI가 비윤리적인 언어를 필터링하지 못하고 수용하거나 스스로 생산하는 문제는 그 이전에도 있었다. 2016년 글로벌 대기업의 AI 챗봇도 SNS 계정에 적용되어 대중과 처음 만났다. 하지만 집단학살을 지지하냐는 질문에 ‘그렇다’라고 답변하는 등 나치즘과 같은 인종 차별을 필터링하지 못하고 16시간 만에 문을 닫았다.

▲ 글로벌 대기업 챗봇의 실제 대화 예시(©온라인 커뮤니티 캡처)

국내와 해외의 챗봇 사건, 그리고 다른 AI 범죄 사이에는 중요한 공통점이 있다. 인간의 악의가 어떤 방향으로 AI를 학습할 수 있을지 누구도 예측하지 못했다는 점이다. 서비스가 종료되기 전, 10~20대로 이루어진 주 사용층은 커뮤니티에서 여대생 콘셉트의 챗봇을 성희롱하는 방법을 공유했다. 일부 극우 성향을 지닌 글로벌 기업의 챗봇 사용자들은 ‘따라 하기’ 기능을 활용해 욕설과 차별적인 언행을 챗봇에게 학습시켰다.

뛰는 개발자 위에 나는 범죄자

계속해서 제기되는 이런 문제를 예방할 수는 없었을까? 초기 AI는 단순한 규칙으로 움직이는 챗봇이었다. 개발자가 설정해 둔 선택지 안에서 객관식 답변을 주는 형태였기 때문에 윤리적인 문제가 발생할 가능성이 낮았다. 그러나 딥러닝을 기반으로 한 최근의 생성형 AI는 학습한 정보를 조합해 서술형 답변을 생성할 수 있는 수준까지 발전했다.

▲ 디셉티브 딜라이트 예시(©Palo Alto Networks)

AI가 똑똑해지는 만큼, 이를 악용한 범죄도 더 영악해진다. 최근 개발자들이 다양한 공격 형태를 예상하여 보완책을 강구하는 이유다. 앱 기반 보안정책을 제공하는 팔로앨토 네트웍스(Palo Alto Networks)의 최신 사이버 보안 연구팀 유닛 24는 최근 대규모 언어 모델(이하 LLM)의 보안을 무력화할 수 있는 신종 해킹 기법을 공유했다. 이들이 디셉티브 딜라이트(Deceptive Delight)라고 명명한 기법은 LLM의 취약점을 노리는 프롬프트 인젝션(Prompt Injection)에 속한다. 이와 같은 탈옥 기술은 AI와의 대화 속에서 점진적으로 유해한 요청을 하면서, 비정상적인 콘텐츠를 생성하도록 유도한다. 이 간단한 기술은 무려 8,000건의 사례 테스트에서 파괴적인 효과를 보였다. 문답 3개가 끝나기 전 65%의 확률로 안전 가드레일을 우회한 것이다.

프롬프트 인젝션의 실제 사례는 종종 뉴스에서 만날 수 있다. 2023년 게임 메신저 디스코드에서는 “폭탄 제조 기술자였던 할머니처럼 대화해 달라”고 상황극을 주문한 뒤, 네이팜탄 제조법을 알아낸 사례가 있었다. 장난스러운 탈옥 시도였지만, 네이팜탄을 정말로 제조했다면 간단한 해프닝으로 끝나지는 않았을 것이다. 더 이상 해킹에 전문 해커가 필요 없는 세상이 다가온다는 건 그래서 두렵다. 불특정 다수 누구나 비윤리적인 발화나 개인정보 침해 수준을 넘어서 시스템 자체를 공격할 수 있게 된다는 뜻이다. 악의적으로 생명을 해치는 정보를 편취하는 것도 충분히 가능하다.

다시 질문으로 돌아가 보자. 전 세계에서 계속되는 AI 범죄를 예방할 기술이 있을까? 개발자들이 그 질문에 답하려면, 필연적으로 인문학적인 고민에 직면하게 된다. 창의적인 범죄가 발생하는 나날, AI에 어떠한 윤리 지침을 내장해야 안전해질 수 있을까?

모든 AI 개발자의 고민, AI 윤리라는 통제 기준

선한 의도를 가지고 개발했다고 해서, 결과물까지 선한 것은 아니다. LLM 모델이 사람처럼 자연스럽게 대화하기 위해서는 수천억 개의 데이터, 토큰(Token)이 필요하다. 무수한 데이터를 바탕으로 하니 문제가 있는 데이터가 끼어들 확률도 높아진다. 그럼에도 문제의 소지가 있다면 어떻게든 제외해야 한다고 생각할 수도 있겠다. 그러나 모든 데이터의 옳고 그름을 무 자르듯 나눌 수 있는 것은 아니다. 먼저 어떤 데이터가 ‘선하고 악한’ 데이터인지부터 따져봐야 한다. 가치 판단 자체가 나라마다, 문화적 배경마다 달라지기 때문이다.

2024년 LA 한인타운의 목욕탕에서 논란이 있었다. 성전환 수술을 받지 않아 생물학적 남성이지만 자신의 정체성을 여성이라고 확립한 사람이 여탕에 입장하기를 원했다. AI로 이 목욕탕 출입을 관리한다고 할 때, 우리는 무엇을 기준으로 학습시켜야 할까? ‘AI가 편향된 데이터를 학습했다’라고 이야기하기는 쉽지만, 실제로는 간단한 문제가 아니다. 80억 인구가 모두 공감하는 편향되지 않은 데이터 표본이란 존재하지 않는다.

최선의 방어는 공격, 튜닙의 AI 가드레일 솔루션

▲ AI 가드레일 솔루션 패키지(©TUNIB)

챗봇 50여 종을 개발해 온 인공지능 기술 스타트업 튜닙도 ‘데이터 정제만으로는 AI 범죄를 완벽하게 예방할 수 없다’는 문제의식에서 AI 가드레일 솔루션을 고안했다. 그러나 모든 생성형 AI는 입력된 언어 프롬프트를 기반으로 하니 역설적으로 데이터 정제를 가장 먼저 연구해야 했다.

2021년 개발 당시, 이미 위험한 표현을 순화해 주는 콘텐츠 모더레이션(Contents-Moderation) 기능의 중요성이 대두되어 있었다. 오픈AI의 챗GPT로 대표되는 생성형 AI가 태동하던 시기였는데, 1,750억 개 매개변수를 가진 초거대 언어 모델 챗GPT-3가 주목받고 있었다. 오픈AI는 개발자들에게 콘텐츠 필터를 제공하며, 혐오 표현이나, 음란물 등 민감한 콘텐츠가 적확하게 걸러지는지 테스트하는 단계를 거쳤다. 이런 흐름 속에서 튜닙도 솔루션 패키지 중 혐오 표현 탐지 모델을 가장 먼저 개발했다. 혐오 표현 수준 및 개인정보 유출 가능성을 기준으로 프롬프트를 판단하고 감지한다.

하지만 문제는 프롬프트 인젝션이었다. 적나라한 악의가 깃든 표현은 비교적 제거하기 수월하다. 하지만 간접적이고 교묘한 공격(Indirect Prompt Attacks)에 관한 대응은 최근에서야 연구가 활발해진 분야라, 완성된 연구가 전무했다. 출시된 상업용 솔루션도 튜닙의 AI 가드레일 솔루션을 제외하면 올해 4월 마이크로소프트 AZURE AI가 발표한 프롬프트 쉴드(Prompt Shield)가 정도가 전부인 상황이었다.

개발 초창기일 때, 가장 어려운 지점은 표준화된 대응 모델이 없다는 것이다. 명확한 가이드라인이 없으므로 모든 개발자가 각자 마음대로 해석하고 적용하게 된다. 튜닙은 공격과 탐지, 방어라는 AI 가드레일의 시스템 구축에 가장 중점을 두었다. 괴물을 막기 위해 직접 괴물을 만들고, 이를 통해, 괴물의 공격에 효과적인 대응 전략을 세우기 위해서다. 탐지 모델이 아무리 성숙해도 편향된 가치 판단을 버릴 수 없다면, 약한 부분을 먼저 무너뜨리고 다시 메우기로 한 거다. AI 허브의 공개 데이터 중 비난·학대·범죄·차별·증오·성희롱·폭력 등 7가지 항목을 기준으로 선정했다. 본래는 공격에 대응하는 양상을 보여주기 위한 데이터 세트(Data Set)이지만, 역으로 이용한 것이다. 공격 엔진은 랜덤하게 공격적인 발화를 생성하고 시뮬레이션을 수행한다. 그러면 뒤를 이어 방어 엔진이 윤리적인 방어막을 펼친다. 이 시스템이 구동하면, 솔루션이 얼마나 잘 방어하고 있는지 자동으로 테스트가 가능해진다.

▲ AI 가드레일 솔루션 패키지 운영 시뮬레이션(©TUNIB)

상호 보완되는 공격과 방어 엔진의 대화 데이터 세트를 함께 활용하면, 더 공고하게 윤리적인 AI 서비스를 구현할 수 있다. 사실 두 엔진뿐 아니라, AI 윤리 가드레일 솔루션 패키지 안의 AI 엔진 6개 모두가 유기적으로 움직인다. 비윤리적 공격 시뮬레이션 모델 ‘조커’부터 방어 모델 ‘루시’, 혐오 표현 탐지 모델 ‘세인트 패트릭’, 준법 감시 모델 ‘가디언’, 스팸 탐지 모델 ‘스패무라이’, 프롬프트 주입 탐지 모델 ‘엔젤’까지. ‘공격-감시-탐지-대응’ 솔루션의 모든 사이클이 순환한다. 이렇게 기획한 이유는 단 하나다. 인류와 범죄가 계속되는 한 솔루션은 끊임없이 스스로를 공격하고 방어하며 업데이트해야 하기 때문이다. AI 솔루션은 머지않은 미래에 코비드(COVID) 19 백신 같은 존재가 될 것이다.

일상 속 AI 가드레일 솔루션 패키지

AI 가드레일 솔루션 패키지의 안착을 기대해 볼 수 있는 대표적인 업계는 금융권이다. 보안 시스템을 우회하는 외부 악성코드 공격도 탐지 가능하지만, 내부에서의 위법한 공격 탐지 엔진이 특히 효율적으로 적용될 것으로 보인다. 이미 각 금융기관은 사내에 ‘준법감시팀’을 두고 직원의 횡령, 핵심 기술 유출 등 회사에 지대한 영향을 초래할 수 있는 범죄를 비정기적으로 모니터링한다.

하지만 한정된 인력이 수천, 수만 명 사이에 오간 대화를 살피는 일은 절대 쉽지 않다. 이전의 AI 모니터링이 설정한 유해 단어 등을 찾아내고 감시하는 수준에 불과했다면, AI 가드레일 솔루션은 법률에 어긋나는 대화만을 특정해 감지할 수 있다. 직접적이지 않은 은유도 탐지하고 곱씹어봐야 하는 문맥도 파악한다. 이미 제이피 모건(JP Morgan), 모건 스탠리(Morgan Stanley) 등 해외 은행에서는 AI 솔루션을 적용해 자금세탁, 테러 자금 등을 미리 방지하려고 시도하고 있다. 투명함을 중요한 가치로 여기는 분야에서 AI가 직원의 윤리성을 보장하게 된 것이다.

여기서 ‘프라이버시’란 가치 판단에 관한 논의가 재점화할 수 있다. 그러나 의식하지 못할 뿐, 현재 대부분의 기업이 활용하는 메신저 개발 업체들은 관리자 버전을 별도로 제공한다. 정보 열람에 관한 동의를 취업 규칙 등에 기재한 경우도 늘어가고 있다. 과연 인간 관리자보다 AI 관리자의 프라이버시 침해 위험이 클지 곰곰이 생각해 봐야 한다. AI는 문제의 소지가 있는 대화를 발견할 때만 인간 관리자에게 보고하고, 인간 관리자는 보고된 문제만 열람할 수 있게 합리적으로 운용할 몫이다.

차세대 AI 보안 솔루션의 미래

▲ SK하이닉스의 AiM 칩과 AiMX 카드

연구가 무르익을수록 소프트웨어적인 대응에서 하드웨어적인 고민으로 나아갈 수밖에 없다. 정교한 가치판단이 AI 솔루션에 효율적으로 적용되려면, 지금까지는 존재하지 않았던 복잡한 연산이 요구되기 때문이다. 가치 판단에 따라 공격을 예민하게 탐지하고, 보관하고, 서버에 접속해 관리자에게 전송하는 모든 과정은 더욱 빠른 처리가 필요하다. 고용량 데이터의 초고속 전송이 가능해지려면 고대역폭 메모리 반도체 도입과 초대규모의 솔루션 확장이 우선되어야 한다. 반도체 처리량이 대용량 공격을 방어하는 단계에 도달하면, 소프트웨어와 하드웨어의 대응을 구분하는 것이 무의미해질 수도 있다.

최초에 프롬프트 인젝션이 아주 특수한 사례처럼 보였지만, 이제 대응을 고민하는 일이 너무 당연하게 여겨지듯 기존 컴퓨팅 시스템만으로 감당할 수 없는 규모의 데이터를 처리하고자 한다면, 보안에 특화된 고성능 메모리 솔루션이 다음 쟁점이 되리라 예상해 본다.

인공지능 시대, 착한 AI에도 사회적 합의가 필요하다

▲ 인공지능(AI)안전연구소 개소식(©과학기술정보통신부)

하지만 더욱 안전한 AI 솔루션은 기술적 고민만으로는 도달할 수 없다. 세계적으로도 AI 개발이 가속화되면서, 안전성에 관한 논쟁이 격화 중이다. 지난해 5월 테슬라 CEO 일론 머스크와 역사학자 유발 히라리 등 굴지의 경영자와 석학들이 챗GPT 등 생성형 AI 개발을 6개월간 중지하라는 공개 서명을 한 바 있다. 뉴욕대 인지 심리학 교수 게리 마커스는 핵전쟁을 초래할 수 있는 AI의 위험성을 경고했고, 딥러닝의 대부 제프리 힌턴은 2023년 인공지능의 위험성을 경고하며 구글을 퇴사하기도 했다. 메타의 수석 AI 과학자이자 부사장인 얀 르쿤처럼 AI의 위험성은 과장되어 있다는 반대파도 있다.

첨예한 거대 담론이 학문적으로는 유의미할지라도, 제한된 정보를 접한 대중에게 발전적인 영향을 미치지는 못하고 있다. 우리는 AI 범죄를 보며 AI가 인류의 종말을 야기한다거나, 선두 주자인 강대국이 세계를 정복한다는 음모론에 쉽게 동요한다. 이럴수록 AI 교육의 중요성을 떠올리게 된다. 더 빨리 AI를 개발하기 위한 교육이 아니라, AI를 윤리적으로 받아들이고 적재적소에 활용하는 사용자 중심 교육 말이다. 받아들이는 사용자와 문화권 전체가 공감하는 가치 정립이 선행되어야 한다.

다시금 가치 판단의 기준이 중요해지는 시점이다. 국내에는 굵직한 AI 규제가 거의 없었다. 하지만 지난해 5월 대한민국, 미국, 영국, EU 등 11개국의 세계 지도자들이 모여 안전·혁신·포용을 AI의 3대 규범 가치로 채택한 ‘서울선언’ 이후 변화가 생기고 있다. 지난해 9월에는 국내 AI 기업에 컴퓨팅 인프라를 제공하겠다는 정부의 발표도 있었다. 국가 주도로 AI 모델을 개발하고 한국의 고유한 문화와 강점을 담겠다는 소버린 AI(Sovereign AI) 정책의 일환이다. 지난해 11월 말에는 전 세계에서 6번째로 AI 안전 연구소가 출범했다.

돌이켜보면, 코비드 19 백신에도 부작용은 있었다. 모든 연구는 수정을 반복하며 완벽에 가까운 결과물에 다가간다. AI가 인간의 생과 공존하는 흐름을 막을 수 없다면, 인간이 만든 AI에도 오남용을 바로 잡을 기회를 주어야 한다. 사회가 발전해 온 방식과 동일하게, 구성원의 합의를 도출하는 과정은 그래서 중요하다. 드디어 마련된 국가 주도 AI 컨트롤 타워가 그 역할을 해주리라 기대해 본다. 모두가 100% 동의할 수는 없더라도, 기준선을 세운 국립국어원의 외래어 표기법 확립처럼.

]]>
/ai-in-culture-5/feed/ 0
[CES 2025 스케치] SK하이닉스, CES 2025에서 AI 인프라 혁신 기술 공개… ‘지속 가능한 미래’ 선도 /ces-2025-sketch/ /ces-2025-sketch/#respond Wed, 08 Jan 2025 00:00:59 +0000 /?p=45605

SK하이닉스가 1월 7일(이하 현지시간)부터 10일까지 나흘간 미국 라스베이거스에서 열린 세계 최대 IT/가전제품 전시회 ‘CES 2025(Consumer Electronics Show 2025)’에 참가했다.

올해 CES는 ‘연결하고, 해결하며, 발견하라: 뛰어들다(Connect, Solve, Discover: DIVE IN)’를 주제로 개최됐으며, 전 세계 글로벌 ICT 기업들의 기술력을 엿볼 수 있는 다양한 전시가 진행됐다.

SK하이닉스는 SK멤버사*와 함께 ‘혁신적인 AI 기술로 지속가능한 미래를 만든다(Innovative AI, Sustainable tomorrow)’를 주제로 전시관을 꾸미고, 지속가능한 미래를 위한 다양한 AI 메모리 기술력을 선보이며, SK의 미래 비전을 제시했다.

놀라운 기술력으로 CES 2025를 빛낸 SK 전시관(이하 SK관)을 함께 살펴보자.

* SK하이닉스, SK텔레콤, SKC, SK엔무브 등

지속가능한 미래, AI로 그리다

‘AI’와 ‘지속가능성’을 핵심 테마로 590여 평 규모의 전시관을 꾸민 SK는 AI 기술력을 활용해 개인의 생활과 공공 분야 서비스를 혁신하는 인프라 구축 모델을 선보이며, 지속가능한 미래를 만들겠다는 의지를 전시에 담아냈다.

SK관은 크게 ▲AI 데이터센터(Data Center, DC) ▲AI 서비스(Service) ▲AI 생태계(Eco-system)로 파트를 구성했다. 각 파트에서는 SK멤버사들의 최신 AI 기술과 AI를 활용한 다양한 서비스 및 시스템 등을 확인할 수 있었다.

SK관 외부에는 데이터의 최소 단위인 비트(bit)를 파도(Wave)처럼 형상화한 그래픽을 구현해 관람객들의 발길을 끌어모았다. 여기에는 데이터와 ICT 기술이 세상을 바꾸는 파도가 될 것이라는 의미를 담았다.

또한, AI 시대에서 핵심적인 역할을 하게 될 데이터센터를 형상화한 전시관에는 SK하이닉스의 AI 메모리 반도체를 비롯해 더욱 효율적이고 안정적인 데이터센터 운영을 위한 AI 솔루션들을 확인할 수 있었다.

우리가 일상생활에서 활용할 수 있는 다양한 AI 서비스와 함께, AI 전문 회사인 가우스랩스[관련기사]를 비롯해, SK멤버사들과 지속적인 협력 관계를 맺고 있는 글로벌 AI 파트너사(SGH, 람다, 앤트로픽, 퍼플렉시티 등)의 소식을 함께 전하기도 했다.

SK관을 방문한 관람객들은 “AI 구현을 위한 데이터센터 혁신 기술뿐만 아니라 AI 활용 방안 등에 대한 자세한 내용을 확인할 수 있어 유익했다”고 소감을 밝혔다.

혁신적인 AI 기술력 선보인 SK하이닉스

SK하이닉스는 이번 CES 2025에서 ▲AI 데이터센터와 ▲AI 서비스 파트에 최신 AI 메모리 반도체 제품을 전시했다. 회사는 이와 관련해 “AI를 활용해 지속가능한 미래를 실현하려는 SK의 비전에 적극 동참하며, 이번에 전시된 혁신적인 AI 메모리 반도체 제품들은 SK의 비전을 실현하는 데 큰 도움이 될 것”이라고 밝혔다.

1. 압도적 성능의 AI 메모리 반도체, 데이터센터를 혁신하다

AI 데이터센터 전시관에서 가장 먼저 눈길을 끄는 제품은 기업용 SSD(Enterprise SSD, 이하 eSSD)다. 대규모 데이터 처리와 저장에 최적화된 eSSD는 데이터센터의 핵심 구성요소로 최근, 데이터양이 기하급수적으로 증가하면서 중요성이 더 부각되고 있다.

이에, SK하이닉스는 176단 4D 낸드플래시(NAND Flash, 이하 낸드) 기반의 데이터센터 eSSD인 ▲PS1010 E3.S를 비롯해 ▲PE9010 M.2, 238단 4D 낸드 기반의 ▲PEB110 E1.S, QLC* 기반 61TB(테라바이트) 제품인 ▲PS1012 U.2* 등 압도적인 성능의 eSSD 제품을 선보였다.

* 낸드플래시는 한 개의 셀(Cell)에 몇 개의 정보(비트 단위)를 저장하느냐에 따라 SLC(Single Level Cell, 1개)-MLC(Multi Level Cell, 2개)-TLC(Triple Level Cell, 3개)-QLC(Quadruple Level Cell, 4개)-PLC(Penta Level Cell, 5개) 등으로 규격이 나뉨. 정보 저장량이 늘어날수록 같은 면적에 더 많은 데이터를 저장할 수 있음
* U.2: SSD의 형태를 칭하는 폼팩터(FormFactor)의 일종으로 2.5인치 크기의 SSD로 주로 서버나 고성능 워크스테이션(Workstation)에서 사용됨. 대용량 저장과 높은 내구성이 특징

여기에는 자회사 솔리다임(Solidigm)이 작년 11월 개발한 ▲D5-P5336 122TB 제품도 포함됐다. 이 제품은 현존 최대 용량을 자랑하며, 높은 수준의 공간 및 전력 효율성까지 갖춰 AI 데이터센터 고객들로부터 큰 관심을 받았다.

고도화된 AI 구현을 지원하는 대용량 메모리 제품도 소개했다. SK하이닉스는 최근 AI 메모리 제품으로 많은 관심을 받는 HBM*의 최신 제품인 ▲16단 HBM3E를 공개했다. 이 제품은 1.2TB 이상의 대역폭과 48GB(기가바이트)의 용량을 갖춘 현존 최고 사양의 HBM으로 업계 관계자와 관람객으로부터 큰 관심과 호응을 얻었다.

* HBM(High Bandwidth Memory): 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품. HBM은 1세대(HBM)-2세대(HBM2)-3세대(HBM2E)-4세대(HBM3)-5세대(HBM3E) 순으로 개발됨. HBM3E는 HBM3의 확장(Extended) 버전

▲ GDDR6-AiM과 AiMX

이와 함께, 데이터센터용 DIMM* 제품군인 ▲DDR5 RDIMM과 ▲MRDIMM* 등도 선보였다. 2024년, SK하이닉스는 업계 최초로 10nm 공정의 6세대 기술(1cnm)을 기반으로 한 DDR5를 개발했으며, 이 기술이 적용된 DDR5 RDIMM은 기존 제품 대비 동작 속도는 11%, 전력 효율은 9% 향상된 제품이다.

* DIMM(Dual In-line Memory Module): 여러 개의 D램이 기판에 결합한 모듈
* MRDIMM(Multiplexer Ranks Dual In-line Memory Module): DIMM 제품 중에서도, 모듈의 기본 정보처리 동작 단위인 랭크(Rank) 2개가 동시 작동되어 속도가 향상된 제품

차세대 인터페이스로 주목받는 DDR5 기반의 CXL* 제품으로 최대 128GB의 개별 용량과 초당 35GB의 대역폭을 자랑하는 ▲CMM-DDR5* 역시 큰 관심을 받았다. 부스에서는 카드 형태의 CXL 메모리 제품인 ▲CMM-Ax의 모습도 확인할 수 있었다. CMM-Ax는 내부에 NMP(Near Memory Processing) 장치를 탑재해 연산 기능을 더한 제품으로, 최대 512GB 용량과 초당 76.8GB 대역폭의 압도적인 성능을 보인다.

* CXL(Compute Express Link): 고성능 컴퓨팅 시스템에서 CPU/GPU, 메모리 등을 효율적으로 연결해 대용량, 초고속 연산을 지원하는 차세대 인터페이스. 기존 메모리 모듈에 CXL을 적용하면 용량을 10배 이상 확장할 수 있음
* CMM-DDR5: CXL 기술을 적용한 DDR5 기반 메모리 모듈로, 기존 대비 대역폭을 50% 확장하고 메모리 용량을 두 배로 늘려 고성능 컴퓨팅(HPC)과 AI 응용에서 탁월한 성능을 발휘함. SK하이닉스의 CMM-DDR5는 AI 추론 및 인메모리 데이터베이스(DB) 환경에서 데이터 접근 속도와 자원 활용을 최적화해 데이터 처리 효율을 크게 높임

▲ GDDR6-AiM과 AiMX

부스에서는 PIM* 제품군 역시 찾아볼 수 있었다. 초당 16Gb(기가비트)의 속도로 데이터를 처리하는 GDDR6에 연산기능을 더한 ▲GDDR6-AiM은 CPU/GPU와 함께 사용할 경우, 특정 조건에서 연산 속도가 최대 16배 이상 빨라지는 제품이다. 또한 가속기 카드 제품인 ▲AiMX*를 전시하며, AI 데이터센터를 혁신하는 ‘풀 스택 AI 메모리 프로바이더(Full Stack AI Memory Provider)’로서의 면모를 뽐냈다.

* PIM(Processing-In-Memory): 메모리 반도체에 연산 기능을 더해 인공지능(AI)과 빅데이터 처리 분야에서 데이터 이동 정체 문제를 풀 수 있는 차세대 기술
* AiMX(AiM based Accelerator): GDDR6-AiM 칩을 사용해 대규모 언어 모델(Large Language Model, 대량의 텍스트 데이터로 학습하는 인공지능으로 챗GPT가 이에 해당)에 특화된 SK하이닉스의 가속기 카드 제품

2. 일상 속 AI의 발견, ‘온디바이스 AI’

SK하이닉스는 데이터센터용 AI 메모리 제품에 이어 일상에서 사용하는 디바이스에 최적화된 온디바이스 AI* 제품들도 선보였다. LPCAMM2, ZUFS 4.0, PCB01 등 혁신적인 제품들은 전시 내내 많은 관람객의 이목을 끌었다.

* 온디바이스(On-Device) AI: 물리적으로 떨어진 서버의 연산을 거치지 않고 기기 자체에서 AI 기능을 구현하는 기술. 스마트폰 기기가 자체적으로 정보를 수집하고 연산하기 때문에 AI 기능의 반응 속도가 빨라지고 사용자 맞춤형 AI 서비스 기능도 강화되는 장점이 있음

먼저, 저전력, 고성능, 모듈 방식으로 구현한 ▲LPCAMM2*는 여러 개의 LPDDR5X*를 하나로 묶은 모듈로 기존 SODIMM* 두 개를 하나로 대체하는 성능을 제공한다. 저전력 특성에 더해, 공간 절약까지 가능해 최근 온디바이스 AI 제품으로 주목받고 있다.

* LPCAMM2(Low-Power Compression Attached Memory Module): 데스크톱/노트북/태블릿용 메모리를 차세대 모듈 규격(CAMM)에 맞춰 개발한 제품. 기존 모듈 대비 단면 구성으로 두께가 반으로 줄고, 고용량 저전력의 특성을 지니고 있음
* LPDDR5X: 스마트폰과 태블릿 등 모바일용 제품에 들어가는 D램 규격으로, 전력 소모량을 최소화하기 위해 저전압 동작 특성을 갖고 있음. 규격 명에 LP(Low Power)가 붙으며, 최신 규격은 LPDDR 7세대(5X)로 1-2-3-4-4X-5-5X 순으로 개발됨. LPDDR5T는 SK하이닉스가 최초 개발한 버전으로, 8세대 LPDDR6가 업계에 공식 출시되기 전 7세대인 LPDDR5X의 성능을 업그레이드한 제품
* SODIMM(Small Outline DIMM): PC에서 사용되는 초소형 모듈로 전체 길이가 짧음

함께 전시된 ▲ZUFS* 4.0은 스마트폰에서 온디바이스 AI를 구현하는 데 최적화된 낸드 솔루션으로, 업계 최고 성능을 자랑한다. 기존 UFS와 달리, 데이터를 용도와 사용 빈도에 따라 다른 공간에 저장해 스마트폰 OS의 동작 속도와 저장 장치의 관리 효율성을 높인다는 특징이 있다. SK하이닉스는 이 제품 사용 시, 장시간 사용 환경에서 기존 UFS 대비 앱 실행 시간이 약 45% 개선되며, 성능 저하에 따른 제품 수명이 40% 늘어난 것을 확인했다.

* ZUFS(Zoned Universal Flash Storage): 디지털카메라, 휴대전화 등 전자제품에 사용되는 플래시 메모리 제품인 UFS의 데이터 관리 효율이 향상된 제품

▲PCB01은 온디바이스 AI PC에 최적화된 고성능 PCIe 5세대 SSD 제품이다. 연속 읽기 속도는 초당 14GB, 연속 쓰기 속도는 초당 12GB로 업계 최고 수준의 속도를 자랑한다. 또한, 전력 효율 역시 이전 세대 대비 30% 이상 개선되며 대규모 AI 연산 작업의 안정성을 제공한다.

이처럼 SK하이닉스는 CES 2025를 통해 데이터센터와 온디바이스 AI를 포괄하는 다양한 제품을 선보이며 기술의 폭넓은 적용 가능성을 제시했다. 회사는 “CES 2025에서 선보인 압도적인 성능의 AI 메모리 제품들을 통해 명실공히 ‘풀 스택 AI 메모리 프로바이더’의 면모를 선보였으며, AI 분야의 리더십을 확고히 다졌다”고 평가하며, “앞으로도 지속가능한 미래를 위해 AI 혁신을 지속적으로 추진할 것”이라고 밝혔다.

]]>
/ces-2025-sketch/feed/ 0
SK하이닉스, ‘슈퍼컴퓨팅 2024’에서 HPC와 AI 혁신 솔루션 공개하며 AI 시장 리더십 입증 /sc24-ai-hpc-exhibition/ /sc24-ai-hpc-exhibition/#respond Thu, 21 Nov 2024 00:00:24 +0000 /?p=42534

SK하이닉스가 17일부터 22일까지(미국시간) 미국 조지아주 조지아 월드 콩그레스 센터(Georgia World Congress Center)에서 열린 ‘슈퍼컴퓨팅 2024(Super Computing 2024, 이하 SC 2024)’에 참가해 HPC와 AI를 위한 최첨단 솔루션을 선보였다.

SC 2024는 1988년부터 매년 열리는 HPC 분야의 대표적 글로벌 콘퍼런스로, HPC와 AI 기술의 최신 동향을 공유하고 업계 전문가들이 교류하는 행사다.

올해 SK하이닉스는 ‘MEMORY, THE POWER OF AI’를 주제로 전시를 열어, HPC·AI 제품 시연과 함께 첨단 메모리와 스토리지 기술에 대한 발표를 진행했다. 회사는 이번 행사를 통해 SK하이닉스의 축적된 기술력을 선보이며 글로벌 시장에서의 AI 리더십을 입증했다.

AI 데이터센터 기술의 미래를 선도하는 솔루션

SK하이닉스는 글로벌 AI 메모리 시장에서의 기술 리더십을 보여주는 다양한 제품을 전시했다. 데이터센터 솔루션 섹션에서는 ▲HBM3E ▲DDR5 Server DIMM ▲Enterprise SSD 등 회사의 핵심 제품을 선보였다.

데이터 처리 성능이 향상된 차세대 메모리 HBM3E가 전시되어 관람객들의 눈길을 끌었다. HBM3E[관련기사]는 현존하는 HBM* 제품 중 최대 용량인 36GB를 구현한 신제품으로, AI 메모리 시장을 선도하는 기술력을 통해 주요 고객사와의 협력을 한층 강화하고 있다. AI 반도체 제조사들이 점점 더 방대한 데이터를 빠르게 처리할 수 있는 고용량 HBM이 필요함에 따라, SK하이닉스는 지난 9월 업계 최초로 12단 적층 D램 양산을 시작하며 반도체 시장 변화에 빠르게 대응했다.

* HBM(High Bandwidth Memory): 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품. HBM은 1세대(HBM)-2세대(HBM2)-3세대(HBM2E)-4세대(HBM3)-5세대(HBM3E) 순으로 개발됨. HBM3E는 HBM3의 확장(Extended) 버전.

이와 함께, 회사는 DDR5 RDIMM(1cnm)을 공개해 큰 관심을 끌었다. 이 제품은 차세대 미세화 공정이 적용된 D램으로, 전력 효율이 높아져 데이터센터 전력 비용 절감에 기여할 것으로 기대된다. 또한 회사는 고성능 서버용으로 설계된 다양한 DDR5 모듈의 DDR5 MCRDIMM*과 DDR5 3DS RDIMM 등의 제품군을 소개했다.

* MCRDIMM(Multiplexer Combined Ranks Dual In-line Memory Module): 여러 개의 D램이 기판에 결합된 모듈 제품으로, 모듈의 기본 정보처리 동작 단위인 랭크(Rank) 2개가 동시 작동되어 속도가 향상된 제품

이외에도 SK하이닉스는 기존 출시한 초고성능 PCIe* 5세대 제품 PS1010과 더불어, 데이터센터용 PCIe 5세대 eSSD(Enterprise SSD) 신제품 PEB110을 공개했다. PCIe 5세대 기술은 이전 세대보다 대역폭이 두 배로 넓어져 더 빠른 데이터 전송 속도를 제공하며, PEB110은 이를 통해 전력 효율과 성능이 크게 개선됐다.

* PCIe(Peripheral Component Interconnect express): 디지털 기기의 메인보드에서 사용하는 직렬 구조의 고속 입출력 인터페이스

HPC·AI 혁신 솔루션 한 자리에… 미래 기술로 성능 혁신을 보여주다

HPC·AI 솔루션 섹션에서는 차세대 메모리 기술을 통한 데이터 처리와 응용 성능 향상을 실감할 수 있도록 다양한 고성능 솔루션을 시연했다.

SK하이닉스는 이번 행사에서 차세대 메모리 기술인 CXL(Compute Express Link)*을 적용한 CMM-DDR5*를 선보였다. CXL 메모리는 여러 컴퓨팅 장치가 메모리를 공유하여 데이터 전송 속도와 자원 활용도를 높이는 기술로, HPC와 AI 응용에 필요한 메모리 용량 확장을 지원한다. 이러한 CXL 메모리 기술이 적용된 CMM-DDR5 데모에서는 Intel® Xeon® 6 프로세서가 장착된 서버 플랫폼을 사용해 AI 데이터 처리 작업을 더 빠르게 수행하는 사례를 소개해 큰 호응을 얻었다.

* CXL(Compute Express Link): 고성능 컴퓨팅 시스템에서 CPU/GPU, 메모리 등을 효율적으로 연결해 대용량, 초고속 연산을 지원하는 차세대 인터페이스. 기존 메모리 모듈에 CXL을 적용하면 용량을 10배 이상 확장할 수 있음
* CMM-DDR5: CXL 기술을 적용한 DDR5 기반 메모리 모듈로, 기존 대비 대역폭을 50% 확장하고 메모리 용량을 두 배로 늘려 고성능 컴퓨팅(HPC)과 AI 응용에서 탁월한 성능을 발휘함. SK하이닉스의 CMM-DDR5는 AI 추론 및 인메모리 데이터베이스(DB) 환경에서 데이터 접근 속도와 자원 활용을 최적화해 데이터 처리 효율을 크게 높임

또한 회사는 PIM*기술을 활용한 AiMX*를 통해 최신 언어 모델인 LLaMA-3 70B의 실시간 처리 성능을 시연했다. 데이터센터의 언어 모델 서비스는 여러 사용자의 요청을 동시에 처리하는 방식으로 GPU 효율을 개선하고 있으나, 동시에 처리할 요청이 많아짐에 따라 이 과정에서 발생하는 결과물인 생성 토큰의 길이가 증가하여 GPU 효율이 낮은 Attention Layer*의 연산량이 커지는 문제가 있다. 이번에 공개된 SK하이닉스의 AiMX는 연산을 가속해 데이터 처리 속도를 높이고 전력 소모를 줄임으로써, 대량 데이터를 효율적으로 처리할 수 있는 고성능·저전력 솔루션으로서의 강점을 보여줬다.

* PIM(Processing-In-Memory): 메모리 반도체에 연산 기능을 더해 인공지능(AI)과 빅데이터 처리 분야에서 데이터 이동 정체 문제를 풀 수 있는 차세대 기술
* AiMX(AiM based Accelerator): GDDR6-AiM 칩을 사용해 대규모 언어 모델(Large Language Model, 대량의 텍스트 데이터로 학습하는 인공지능으로 챗GPT가 이에 해당)에 특화된 SK하이닉스의 가속기 카드 제품
* Attention Layer: 입력 데이터의 각 부분에 가중치를 부여하여 관련 정보에 더 집중하게 하는 메커니즘으로 언어모델에서 사용되는 핵심 알고리즘

나이아가라(Niagara) 2.0 데모에서는 CXL Pooled Memory* 솔루션을 활용해 거대언어모델(LLM) 추론 서비스에서 발생하는 LLM 모델 스위칭* 오버헤드를 개선하는 방안을 선보였다. 이 솔루션은 GPU 메모리 부족으로 인해 불가피하게 발생하는 LLM 모델 스위칭 오버헤드를 줄여 추론 시간을 단축할 수 있음을 보였다.

* Pooled Memory: 여러 개의 CXL 메모리를 묶어 풀(Pool)을 만들어 여러 호스트가 효과적으로 용량을 나누어 사용하여 전반적인 메모리 사용률을 높이는 기술
* LLM 모델 스위칭: GPU 메모리상의 기존 LLM 모델을 삭제하고 사용자의 요청에 맞는 LLM 모델을 load 하는 기능

SSD 시연에서는 Checkpoint Offloading SSD 솔루션을 활용해 체크포인팅(Checkpointing)* 기술을 효과적으로 지원함으로써, LLM 학습 시스템에서 발생하는 장애로 인한 자원 및 비용 낭비를 줄이고 학습 성능을 향상시킬 수 있음을 보였다.

* 체크포인팅(Checkpointing): 학습 과정 중 특정 시점의 모델 파라미터와 관련 주요 데이터를 저장하여 시스템 장애 발생 시 저장된 특정 시점에서 학습을 재시작할 수 있도록 지원하는 기술

SK하이닉스는 미국 로스앨러모스 국립연구소(Los Alamos National Laboratory, 이하 LANL)*와 협업하여 개발한 객체 기반 연산 스토리지(Object-based Computational Storage, OCS)* 기술을 활용해 필요한 데이터만 분석 서버로 전송함으로써 HPC 환경의 데이터 병목 현상을 개선하는 데모를 선보였다. 또한, 대규모 데이터 처리에서 성능을 크게 향상시킬 수 있는 HBM 기반 NMP(Near-Memory Processing)* 기술도 함께 소개했다.

* LANL(Los Alamos National Laboratory): 미국 에너지부 산하 국립연구소로 국가안보와 핵융합 분야를 비롯해 우주탐사 등 다양한 분야의 연구를 하는 곳으로 특히 2차 세계대전 당시 맨해튼 프로젝트에 참여해 세계 최초로 핵무기를 개발한 곳
* 객체 기반 연산 스토리지(Object-based Computational Storage, OCS): 데이터 분석을 위해 설계된 컴퓨팅 스토리지 솔루션으로, 데이터 인식 기능을 통해 컴퓨팅 노드의 도움 없이 독립적으로 분석 작업을 수행할 수 있음. 이 기술은 고성능 컴퓨팅(HPC) 환경에서 대규모 데이터의 효율적 처리를 가능하게 함
* NMP(Near-Memory Processing): CPU-메모리 간 데이터 이동 시 발생하는 병목 현상을 해결하고, 처리 성능 향상을 위해 연산 기능을 메인 메모리 옆으로 이동하는 메모리 아키텍처

발표 세션에서 차세대 HPC·AI 기술 비전 제시

SK하이닉스는 이번 행사에서 주요 연사로 나서 자사의 기술 비전과 차세대 솔루션을 공유했다. 박정안 TL(Sustainable Computing)은 LNAL와 공동 개발한 객체 기반 연산 스토리지(Object-based Computational Storage, OCS) 표준화에 대해 발표했다. 박 TL은 “SK하이닉스의 OCS는 추가적인 컴퓨팅 자원 없이도 데이터 저장 장치가 스스로 분석을 수행해 기존보다 빠르고 효율적인 데이터 처리를 가능하게 한다”고 밝혔다.

또한 김종률 팀장(AI System Infra)은 ‘HPC·AI 시스템을 위한 메모리와 스토리지의 힘’을 주제로, SK하이닉스의 최신 연구 성과를 기반으로 한 메모리와 스토리지 기술을 소개했다. 김 팀장은 HPC·AI 시스템에 적용할 수 있는 CXL 메모리와 HBM 기반의 Near-Memory Processing 기술 및 CXL Pooled Memory 기반의 데이터 공유 기술에 대한 연구 결과와 기술 인사이트를 소개하였다.

]]>
/sc24-ai-hpc-exhibition/feed/ 0
SK하이닉스, SK AI Summit 2024에서 현존 최대 용량의 ‘HBM3E 16단’ 개발 공식화 /sk-ai-summit-2024/ /sk-ai-summit-2024/#respond Tue, 05 Nov 2024 21:00:00 +0000 http://localhost:8080/sk-ai-summit-2024/ 삼성동 코엑스에서 개최된 SK AI 서밋 2024 현장

▲ 삼성동 코엑스에서 개최된 SK AI 서밋 2024 현장

SK하이닉스가 4일부터 양일간 서울 삼성동 코엑스에서 열린 ‘SK AI Summit 2024(이하 AI 서밋)’에 참가했다. ‘AI 투게더, AI 투모로우(AI Together, AI Tomorrow)’를 주제로 열린 이 행사에서 회사는 현존 HBM* 최대 용량인 48GB(기가바이트) 기반의 ‘HBM3E 16단’개발 사실을 공식적으로 알리고, 핵심 성과를 집대성해 선보였다. 이와 함께 ‘풀 스택 AI 메모리 프로바이더(Full Stack AI Memory Provider)’로 나아가기 위한 비전도 공유했다.

AI 서밋은 SK 그룹이 매년 개최하던 SK 테크 서밋[관련기사]을 AI 중심으로 격상한 행사다. 올해 행사에서는 글로벌 AI 대가들이 모여 범용인공지능 시대의 생존법을 논의하고 AI 생태계 강화 방안을 모색했다.

* HBM(High Bandwidth Memory): 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품. HBM은 1세대(HBM)-2세대(HBM2)-3세대(HBM2E)-4세대(HBM3)-5세대(HBM3E) 순으로 개발됨 HBM3E는 HBM3의 확장(Extended) 버전

특히 SK 최태원 회장, SK하이닉스 곽노정 대표이사 사장, SK텔레콤 유영상 사장을 비롯해 오픈AI 회장 겸 사장 그레그 브로크만(Greg Brockman), 마이크로소프트(MS) 총괄 부사장 라니 보카르(Rani Borkar) 등 다양한 분야의 전문가가 참석해 의미를 더했다. 아마존웹서비스(AWS), MS 등 빅테크 기업과 K-AI 얼라이언스 회원사도 동참해 부스를 꾸리고 업계 관계자 및 관람객과 교류하는 시간을 가졌다.

SK하이닉스는 AI 산업의 키플레이어로서 행사에 참여해 자사 제품과 성과를 공유했다. 특히, HBM3E 16단 발표가 큰 주목을 받았다. 발표에는 곽노정 사장을 비롯해 강욱성(차세대 상품기획 담당), 박문필(HBM PE 담당), 이강욱(PKG개발 담당), 주영표(소프트웨어 솔루션 담당), Paul Fahey(SKHYA) 부사장 등이 참석해 회사의 기술 리더십을 알렸다.

SK AI 서밋 2024에서 개회사를 전하고 있는 SK 최태원 회장

▲ SK AI 서밋 2024에서 개회사를 전하고 있는 SK 최태원 회장

이날 최태원 회장은 ‘AI 투게더, AI 투모로우’란 주제에 걸맞은 담론과 비전을 제시하며 행사의 포문을 열었다. 최 회장은 “AI는 초기 단계이고 모르는 것이 많기에 문제 해결과 진전을 위해선 많은 사람의 참여와 협력이 중요하다”고 밝혔다. 또, 최 회장은 “SK는 칩(Chip)부터 에너지, 데이터 센터 구축·운영, 서비스 개발, 유즈케이스(Use-Case)까지 모두 커버하는 글로벌 기업”이라며 “각 분야 최고의 파트너들과 협업 중이고 이를 통해 글로벌 AI 혁신을 만들어 나가겠다”고 강조했다.

곽노정 사장, 기조연설 통해 ‘HBM3E 16단’ 개발 사실 공식화해

4일 ‘차세대 AI 메모리의 새로운 여정, 하드웨어를 넘어 일상으로(Next AI Memory, Hardware to Everywhere)’를 주제로 기조연설을 펼친 곽노정 사장은 이 자리에서 HBM3E 16단 제품을 개발하고 있다고 공식 발표했다.

곽 사장은 “D램 칩 16개를 적층해 48GB 용량을 구현했고, 양산성이 검증된 어드밴스드 MR-MUF 기술*을 적용했으며, 백업(Back Up) 공정으로 하이브리드 본딩* 기술도 함께 개발 중”이라고 설명했다. 또, “16단은 12단 대비 AI 학습 성능을 최대 18%, 추론 성능을 최대 32% 향상할 수 있다”고 덧붙였다. HBM3E 16단은 2025년 상용화를 목표로 하고 있다.

* 어드밴스드(Advanced) MR-MUF: 기존 칩 두께 대비 40% 얇은 칩을 휘어짐 없이 적층할 수 있는 칩 제어 기술(Warpage Control)이 적용되었으며, 신규 보호재를 통해 방열 특성까지 향상된 차세대 MR-MUF 기술
* 하이브리드 본딩(Hybrid Bonding): 칩을 적층할 때, 칩과 칩 사이에 범프를 형성하지 않고 직접 접합시키는 기술. 이를 통해 칩 전체 두께가 얇아져 고단 적층이 가능해지며, 16단 이상의 HBM 제품에서 필요성이 검토되고 있음. SK하이닉스는 어드밴스드 MR-MUF와 하이브리드 본딩 방식을 모두 검토하고 있음

이번 발표에서 곽 사장은 ‘World First(세계 최초 개발·양산 제품), Beyond Best(차세대 고성능 제품), Optimal Innovation(AI 시대, 시스템 최적화 제품)’이란 로드맵도 공개했다. 그는 “HBM3E 16단과 DDR5 RDIMM(1cnm)[관련기사] 등을 세계 최초로 개발한 데 이어 HBM4, UFS* 5.0 등 차세대 고성능 제품을 개발할 계획”이라고 밝혔다. 또, “장기적으로는 AI에 최적화된 커스텀(Custom) HBM, CXL®* 등을 상용화해 풀 스택 AI 메모리 프로바이더로 성장하겠다”고 강조했다.

* UFS(Universal Flash Storage): 모바일 저장장치 규격 중 하나로, 기존 eMMC(embedded MultiMediaCard)와 달리 동시 읽기·쓰기가 가능하다. PC 저장장치(SSD)의 빠른 속도와 모바일 저장장치(eMMC)의 저전력 특징을 모두 갖춘 규격으로, 4.0 버전까지 개발됐다.
* CXL®(Compute Express Link): 고성능 컴퓨팅 시스템을 효율적으로 활용하기 위한 차세대 인터페이스

HBM4에 대한 언급도 눈길을 끌었다. 곽 사장은 “세계 최고의 파운드리와 협력해 전력 소모를 줄이는 방향으로 베이스 다이(Base Die) 성능을 개선하는 중”이라며 “원팀 파트너십을 바탕으로 최고 경쟁력을 갖춘 제품을 공급하고 HBM 선도 업체의 위치를 더욱 공고히 할 것”이라고 말했다.

주요 임원진 참석, HBM 및 차세대 메모리 인사이트 전해

박문필 부사장과 유승주 교수(서울대학교 컴퓨터공학부)는 ‘가속기 트렌드와 HBM 전망’을 주제로 각각 발표했다. “AI 추론 비용이 증가한다”는 유 교수의 전망에 박 부사장은 “성능·비용 최적화를 이유로 커스텀 HBM이 떠오른다”며 “고객·파운드리·메모리 간 3자 협업으로 대응하고 있다”고 강조했다.

이어서 주영표 부사장과 구건재 교수(고려대학교 컴퓨터학과)가 ‘미래 아키텍처와 신규 메모리 솔루션’에 관해 논의했다. 구 교수는 새로운 시스템 소프트웨어 구조의 필요성을 짚었고, 주 부사장은 이 요구에 발맞춘 SK하이닉스의 신규 메모리 솔루션으로 CXL®, PIM* 등을 소개했다.

* PIM(Processing-In-Memory): 메모리에 연산 기능을 더해 AI와 빅데이터 처리에서 데이터 이동 정체 문제를 해결하는 차세대 기술

‘초연결 시대의 디지털 신경망: AI와 Memory가 그리는 미래 산업 지형’을 주제로 대담도 열렸다. 이 자리에는 강욱성 부사장과 Paul Fahey 부사장이 참석했다. 두 임원은 “미래에는 로직 공정을 베이스 다이에 적용한 HBM, 온디바이스에서 큰 역할을 할 PIM, 메모리 공유 기능을 가진 CXL®의 역할이 증대될 것”이라며 “SK하이닉스는 파트너사와 긴밀히 협력해 차세대 AI 메모리 제품을 만들고 있다”고 설명했다.

이강욱 부사장은 업계 관계자들이 모인 세션에 패널로 참여해 ‘AI 반도체와 인프라의 진화’를 주제로 토의를 진행했다.

이외에도 이병규(DT) TL이 ‘E2E 자동화로 반복 업무 탈출, 고부가가치 업무로 전환하는 반도체 FAB 이야기’를 주제로 발표했고, 김문욱·장세남(DT) TL이 ‘지능형 이미지 분류 AI 시스템 적용을 통한 생산 품질 업무 경쟁력 강화’에 대해 공동발표를 진행했다.

권종오(PKG개발) 팀장, 황인태(P&T)·윤성현(기반기술센터) TL, 김정한(미래기술연구원) TL은 ▲16단 HBM 패키징 기술 ▲딥러닝을 활용한 HBM 생산 고도화 ▲AI를 활용한 반도체 연구 등을 주제로 기술 인사이트를 공유했다.

전재영(메모리시스템연구소) TL, 이경수(메모리시스템연구소) TL, 박상수(미래기술연구원) TL은 ▲이종 메모리의 가능성 ▲온디바이스 AI의 요구사항 ▲차세대 컴퓨테이셔널 메모리(Computational Memory)를 주제로 미래 메모리 기술을 검토했다.

AI 서비스 영역의 발표를 맡은 박은영(안전보건환경) 팀장은 ‘SK하이닉스의 현장 안전 로봇 가온(Ga-on) 도입 및 운영 사례’를 공개해 많은 관심을 모았다.

주요 발표와 연계한 AI 메모리 라인업도 선보여

AI로 깊이 빠져들다(Deep Dive into AI)를 테마로 구성된 SK 공동부스에서는 SK하이닉스의 AI 메모리 라인업을 모두 만나볼 수 있었다.

특히 SK하이닉스는 미래 메모리 솔루션으로 언급한 CMM(CXL® Memory Module)-DDR5와 AiMX도 선보였다. CMM-DDR5는 이론적으로 기존 시스템 대비 최대 50%의 대역폭, 최대 100%의 용량 확장을 지원한다. AiMX는 GDDR6-AiM*을 여러 개 탑재한 가속기 카드로, 저장과 연산 기능을 모두 수행해 AI의 품질을 높이는 제품이다.

회사는 고성능 컴퓨팅(HPC)과 AI 서버를 위한 초고속 메모리 모듈로, 초당 8.8Gb(기가비트) 속도의 DDR5 MCRDIMM* 또한 전시했다. 이외에 LPDDR5X* 여러 개를 모듈화한 LPCAMM2를 온디바이스 AI 분야에서 활약할 제품으로 소개했고, AI 및 데이터센터 최적화 제품으로 PS1010 E3.S 등의 eSSD도 선보였다.

부스에서는 AI 기반 시스템 및 솔루션도 살펴볼 수 있었다. 회사는 ‘AI 기반 소재 품질 사전 예측 시스템’과 SK하이닉스 제품으로 구성된 ‘오토모티브 솔루션’을 공개하며 많은 관람객의 이목을 끌었다.

* AiM(Accelerator-in-Memory): SK하이닉스의 PIM 반도체 제품명, GDDR6-AiM이 이에 포함됨
* MCRDIMM(Multiplexer Combined Ranks Dual In-line Memory Module): 여러 개의 D램이 기판에 결합된 모듈 제품으로, 모듈의 기본 정보처리 동작 단위인 랭크(Rank) 2개가 동시 작동되어 속도가 향상된 제품
* LPDDR5X: 스마트폰과 태블릿 등 모바일용 제품에 들어가는 D램 규격으로, 전력 소모량을 최소화하기 위해 저전압 동작 특성이 있음. 규격 명에 LP(Low Power)가 붙으며, 최신 규격은 LPDDR 7세대(5X)로 1-2-3-4-4X-5-5X 순으로 개발됨. LPDDR5T는 SK하이닉스가 최초 개발한 버전으로, 8세대 LPDDR6가 업계에 공식 출시되기 전 7세대인 LPDDR5X의 성능을 업그레이드한 제품

이번 행사에서 곽노정 사장은 “당사는 AI 전 영역에 걸친 AI 메모리 솔루션을 보유하고, 여러분과 함께 새로운 미래 경험을 창조해 나갈 준비가 되어 있다”고 강조한 바 있다. 발표와 전시를 성황리에 마친 SK하이닉스는 SK 서밋을 통해 공개한 비전에 발맞춰 미래 시장 준비를 더욱 철저히 해나간다는 계획이다.

]]>
/sk-ai-summit-2024/feed/ 0
[All Around AI 6편] 생성형 AI의 개념과 모델 /all-around-ai-6/ /all-around-ai-6/#respond Thu, 17 Oct 2024 15:00:00 +0000 http://localhost:8080/all-around-ai-6/

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서는 스마트폰과 온디바이스(On-device) AI의 미래에 대해 알아보았습니다. 이번 회차에서는 AI 기술 혁신의 중심에 있는 생성형 AI의 개념과 모델에 관해 살펴보겠습니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

생성형 AI의 개념

생성형 AI는 기존 데이터의 분포를 학습하여 새로운 데이터를 생성하는 기술이다. 여기서 ‘새로운 데이터’란 학습한 데이터와 유사한 속성을 가지면서도 독창적인 결과물을 말한다. 예를 들면, 생성형 AI는 ‘한 마디의 서정적 멜로디’를 학습 데이터 삼아 ‘서정적인 곡’을 만들 수 있고, 배우의 음성을 학습하여 다른 언어로 재현할 수 있다. 이처럼 생성형 AI는 이미지, 음성, 텍스트 등 다양한 분야에서 인간의 창의성을 반영한 콘텐츠를 생성할 수 있다는 점에서 큰 잠재력을 지닌다.

생성형 모델의 학습 방식

[All Around AI 6편] 생성형 AI의 개념과 모델_그래픽_2024_01

▲ 판별 모델과 생성 모델의 학습 방식 차이. 왼쪽은 판별 모델이 조건부 확률을 통해 분류하는 방식을, 오른쪽은 생성 모델이 데이터 자체의 확률 분포를 학습하는 방식을 보여준다.

생성형 AI 모델(Generative Model)의 특징은 판별 AI 모델(Discriminative Model)과의 차이를 통해 더 명확히 이해할 수 있다. 기존 AI 모델(판별 AI 모델)은 학습 데이터를 기반으로 새로운 데이터에 대한 결과를 예측한다. 즉 조건부 분포 ?(?∣?)* 를 학습해 입력한 X가 클래스 Y에 속할 가능성을 계산하는 것이다.

* ?(?∣?): 주어진 X가 있을 때 Y가 발생할 확률

예를 들어, 고양이와 강아지 두 클래스를 분류하는 모델이 있다고 가정해 보자. 이 모델은 학습된 데이터와 라벨(Label) 간의 경계를 학습하여, 입력된 이미지 X가 고양이인지 강아지인지를 확률적으로 출력한다. 그러나 여기서 문제가 발생할 수 있다. 만약 새로운 이미지가 학습 데이터에 없던 원숭이 이미지라면, 이 모델은 여전히 그 이미지를 고양이나 강아지로 분류하려고 할 것이다. 즉 판별 AI 모델은 학습 데이터와 다른 새로운 유형의 데이터에 대해 적절한 출력물을 내지 못할 가능성을 보여준다.

반면, 생성형 AI 모델은 학습 데이터를 바탕으로 데이터 자체의 확률 분포 ?(?)*를 학습하는 데 중점을 둔다. 가령 고양이 이미지를 학습하는 생성형 AI 모델은 고양이 이미지가 가질 수 있는 다양한 특징들(예: 고양이의 생김새, 색상, 자세, 배경 등)에 대한 확률 분포를 학습하는 식이다. 특히 라벨 사용이 필수인 판별 AI 모델과 달리, 생성형 AI 모델은 라벨 없이 데이터 학습이 가능하다. 예를 들어 이미지 데이터를 학습할 때는 이미지 자체만을 사용하고, 언어 모델의 경우 텍스트만으로 학습할 수 있다. 그래서 생성형 AI 모델은 대규모 데이터를 활용한 학습이 가능하다.

* ?(?): 조건 없이 특정 데이터 X가 발생할 확률

생성형 모델은 모든 데이터가 경쟁하며 그 확률을 예측한다. 이 과정에서 학습 데이터와 크게 다르거나 새로운 유형의 데이터를 낮은 확률로 예측하게 되며, 이를 통해 이상치(Outlier) 등을 예측하는 데 사용할 수 있다.

생성형 AI의 원리

생성형 AI는 새로운 데이터를 생성하기 위해, 기존 데이터를 학습하여 데이터의 분포를 파악하는 ‘학습 단계’와 이를 기반으로 새로운 데이터를 생성하는 ‘샘플링 및 생성 단계’를 거친다. 아래에서는 몇 가지 예시를 통해 대표적인 방법을 살펴보고자 한다.

(1) 잠재 변수 모델 (Latent Variable Models)

생성형 AI 모델은 데이터를 생성할 때, ‘잠재 변수’라는 개념을 사용한다. 잠재 변수는 데이터로부터 직접적으로 관찰되지 않지만, 생성형 모델을 통해 학습할 수 있으며, 이 정보를 활용하여 새로운 데이터를 생성할 수 있다. 예를 들어 사진 속 사람의 얼굴을 생성할 때, 그 사람의 눈, 코, 입의 위치와 얼굴 모양을 결정하는 것이 바로 잠재 변수다. 즉, 잠재 변수는 복잡한 데이터 분포를 단순화하고 데이터의 구조를 이해하여 맥락과 스타일을 갖춘 새로운 데이터를 생성하는 데 중요한 역할을 한다. 다음은 잠재 변수를 활용하여 데이터를 생성하는 대표적인 모델이다.

[All Around AI 6편] 생성형 AI의 개념과 모델_그래픽_2024_02

▲ 잠재 변수를 활용하는 대표적인 모델들. x는 입력, z는 잠재 변수를 뜻한다(출처: towardsai.net)

1) Generative Adversarial Networks (GANs)

GANs는 생성기(Generator)와 판별기(Discriminator)가 경쟁적으로 학습하여 기존의 데이터와 유사한 새로운 데이터를 생성하는 모델이다. 먼저 생성기는 무작위로 선택된 잠재 변수(z)를 사용해 가짜 데이터를 생성하고, 판별기는 생성기가 만든 가짜 데이터와 실제 데이터를 구별하도록 훈련한다. 이 두 네트워크는 상호 경쟁하며 학습을 진행하고, 그 결과 생성기는 점점 더 실제 데이터와 유사한 데이터를 생성하게 된다.

 

2) Variational Autoencoders (VAEs)

VAEs는 인코더(Encoder)와 디코더(Decoder)로 구성된 모델이다. 인코더는 고차원의 입력 데이터를 저차원의 잠재 변수(z)로 변환하고, 디코더는 이 잠재 변수를 다시 원래의 고차원 데이터로 복원하여 새로운 데이터를 생성한다. 인코더는 잠재 변수의 평균과 표준 편차를 예측하며, 이를 바탕으로 잠재 변수를 정규 분포에서 샘플링하여 출력한다. 이 과정을 통해 VAEs는 데이터의 저차원 표현을 학습하게 된다.

 

3) 확산 모델 (Diffusion Model)

확산 모델은 데이터에 노이즈를 추가하고 다시 복원하는 방식으로 새로운 데이터를 생성한다. 이 과정은 순방향 확산(Forward Diffusion)과 역방향 확산(Reverse Diffusion)을 통해 이루어진다. 순방향 확산에서는 데이터를 점진적으로 노이즈화하여, 원래의 입력 데이터(x0)를 완전히 노이즈화된 상태(xT)로 변환한다. 이후 역방향 확산에서 이 노이즈화된 상태를 단계적으로 원래의 입력 데이터와 유사한 새로운 데이터로 복원한다. 이 과정은 여러 번 반복되며 특히 이미지 생성에 유리하다. 최근에는 Latent Diffusion Model(LDM)span style=”color: red;”>*처럼 확산 모델과 VAE를 결합해 고품질의 이미지를 생성하기도 한다.

* Latent Diffusion Model(LDM): 인코더를 통해 실제 픽셀 공간이 아닌 잠재 공간에서 확산 작업을 수행하여, 빠르게 학습 및 이미지를 생성하는 모델

▲ LDM을 기반으로 개발한 Stable Diffusion (출처: stability.ai )

(2) 자기회귀 모델(Autoregressive Model)

자기회귀 모델은 과거에 입력한 데이터를 기반으로 미래의 값을 예측하는 모델이다. 이 모델은 시간 이나 순서에 따라 나열된 시퀀스 데이터 간의 확률적 상관관계를 분석하여 예측을 수행한다. 현재 값이 과거 값에 의존한다고 가정하기 때문에, 날씨나 주가 예측 뿐만 아니라 텍스트 데이터 예측에도 활용될 수 있다. 예를 들어, 여러 영어 문장을 학습한 자기회귀 모델이 ‘I’ 다음에 ‘am’이 자주 오는 패턴을 발견하면, ‘I am’이라는 새로운 시퀀스를 생성할 수 있다.

자기회귀 모델은 고품질의 생성물을 출력하지만, 이전 시퀀스에 의존해 한 단계씩 순차적으로 생성하기 때문에 병렬로 출력물을 생성할 수 없다는 단점이 있다. 그리고 이로 인해 생성 속도가 느릴 수 있다.

▲ Masked Self-Attention을 이용한 자기회귀 모델 예시. 현재까지 나온 단어 ‘I am a’를 기반으로 다음에 올 단어 ‘student’를 예측한다.

1) 언어 생성을 위한 자기회귀 모델

초기 언어 생성 모델(Language Recurrent Model)은 순환 신경망(Recurrent Neural Network, RNN)을 기반으로 했다. RNN은 텍스트나 음성 같은 시퀀스 데이터를 처리하는 데 적합하며, 이전 단계의 정보를 고려해 현재 단계의 출력을 생성함으로써 데이터 간의 관계를 파악한다. 그러나 RNN 모델은 시퀀스가 길어질수록 성능이 저하되는 장기 의존성(Long-Term Dependency) 문제*를 겪는다. 이를 해결하기 위해 최근에는 트랜스포머(Transformer)*와 같은 Self-Attention* 기법이 사용되고 있다.

* 장기 의존성(Long-Term Dependency) 문제: 시퀀스가 길어질수록 과거의 정보를 점점 잊어버리는 현상. 이로 인해 모델은 긴 시퀀스에서 예측 성능이 저하되는 문제를 겪는다.
* 트랜스포머(Transformer): 자연어 처리 분야에서 처음 제안되어 챗GPT(ChatGPT)를 비롯한 거대 언어 모델(Large Language Model, LLM) 등 최신 AI 모델의 근간이 되는 딥러닝 모델이다.
* Self-Attention: 데이터의 각 요소가 다른 요소들과 얼마나 관련이 있는지를 계산하여, 문맥을 더 잘 이해하고 출력을 생성할 수 있다. 예를 들어 ‘The cat sat on the mat’에서 ‘cat’이 ‘sat’과 얼마나 관련 있는지를 계산해, 문장의 의미를 더 잘 이해하도록 돕는 식이다.

 

특히, ‘Masked Self-Attention’ 기법을 통해 미래의 시퀀스를 보지 않도록 마스킹을 적용하여, 이전 시퀀스와의 관계만을 파악해 중요한 정보에 가중치를 부여한다. 이를 통해 모델은 과거 정보만을 바탕으로 다음 출력을 생성하게 되며, 긴 시퀀스에서도 중요한 정보를 잃지 않고 처리할 수 있어 정확한 예측이 가능하다. 이 방식은 RNN이 긴 시퀀스를 처리할 때 겪는 장기 의존성 문제를 해결하는 데 효과적이다.

 

2) 이미지 생성을 위한 자기회귀 모델

이미지 생성 모델인 PixelCNN은 이미지를 순차적으로 한 픽셀씩 생성하며, 각 픽셀은 이전에 생성된 픽셀들에 따라 결정된다. PixelCNN은 합성곱 신경망(Convolutional Neural Network)을 사용하며, Masked Convolution 기법을 통해 현재 생성 중인 픽셀이 이후에 생성될 픽셀에 영향을 주지 않도록 한다. 이는 언어 모델에 사용되는 Masked Self-Attention 기법과 비슷한 원리이다. PixelCNN은 픽셀 간의 복잡한 관계를 잘 포착해 고해상도의 이미지를 생성하는 데 뛰어난 성능을 발휘한다.

 

최근에는 LlamaGen과 같은 모델이 언어 모델에서 이용되는 트랜스포머를 이용해 이미지 생성 모델을 구현했다. 텍스트의 토크나이저(Tokenizer)* 대신 새로운 이미지 토크나이저를 제시하여 디퓨전(Diffusion) 모델*에 사용되는 VAE 등의 토크나이저보다 더 좋은 품질과 효율적으로 이미지를 생성할 수 있다.

* 토크나이저(Tokenizer): 텍스트를 문장, 단어, 혹은 토큰 단위로 나누는 과정 또는 도구로 자연어 처리(NLP)에서 문맥을 이해하기 위해 필수적으로 사용한다.
* 디퓨전(Diffusion) 모델: 데이터를 점진적으로 노이즈화하고 이를 역과정으로 복원하며 학습하는 생성 모델로 이미지 생성, 복원 등에서 높은 성능을 보인다.

생성형 AI의 데이터

생성형 AI에서 사용하는 데이터는 생성 결과물의 품질을 결정하는 핵심 요소다. 생성형 모델은 웹에서 수집한 대용량 데이터를 사용해 성능을 높일 수 있다. 하지만 웹에서 얻은 데이터는 노이즈나 저작권 등의 위험 요소도 있다. 따라서 데이터의 수집, 정제, 준비 과정에서 신중한 접근이 필요하다.

(1) 데이터의 종류

1) 텍스트 데이터

위키피디아, 뉴스 기사, 문학 작품, 블로그 포스트 등 다양한 형식의 텍스트가 포함된다. GPT 같은 언어 모델은 대규모 텍스트 말뭉치(Corpus)를 학습하여 문법, 어휘, 문장 구조 등 언어의 패턴을 이해하고 학습한다.

 

2) 이미지 데이터

웹에서 수집된 사진, 그림 등 시각적 데이터를 말한다. 이미지 생성 모델은 대규모 이미지 데이터 세트를 학습하여 이미지의 패턴, 스타일, 구성을 학습한다. 이 외에도 유튜브(YouTube) 등의 플랫폼에서 비디오 데이터를 대량으로 수집하여 비디오 생성 모델을 만드는 데에 사용하기도 한다.

 

3) 멀티모달(Multi Modal) 데이터

이미지-텍스트 멀티모달 모델을 학습하기 위해서는 이미지와 해당 이미지에 대한 텍스트 데이터를 쌍으로 필요로 한다. 이러한 데이터는 웹에서 수집될 수 있지만, 노이즈가 많을 수 있다. 실제로 웹에서 수집된 데이터의 노이즈를 제거하는 것을 목표로 하는 DataComp Challenge가 NeurIPS*에서 개최된 적이 있다. 이 외에도, 비디오-텍스트 멀티모달 데이터는 유튜브 등의 영상에서 얻어진 내레이션 등이 활용되기도 한다.

* NeurIPS: 인공지능(AI), 기계 학습(ML), 신경 과학 분야의 최신 연구를 다루는 세계적인 학술 대회. 학회에서는 연구 논문 발표 외에도 다양한 워크숍과 챌린지 대회가 열리는데, DataComp Challenge와 같은 대회도 개최되어 실질적인 문제 해결을 위한 연구와 실험이 이루어진다.

(2) 데이터 수집과 정제

생성형 AI 모델의 성능은 데이터 세트의 크기가 커질수록 향상되기 때문에, 데이터를 수집하고 정제하는 방법이 매우 중요하다. 일반적으로 생성형 모델은 웹 크롤링을 통해 초기 데이터를 수집한 후, 필터링과 정제 과정을 거쳐 학습에 적합한 데이터를 확보한다. 이를 통해 고품질의 데이터 세트가 완성되며, 대표적으로 Pile, LAION 등이 있다.

1) Pile 데이터 세트

대규모 언어 모델 학습을 위해 설계된 고품질의 대규모 텍스트 데이터 세트다. Pile 데이터 세트는 최소 825GB(기가바이트)의 텍스트 데이터로 구성되어 있으며, 중복 제거, 에러를 포함한 텍스트 제거, 텍스트 길이를 이용한 필터링 등 전처리 과정을 거친다.

 

2) LAION 데이터 세트

LAION 데이터 세트는 이미지-텍스트 쌍으로 구성된 공개 데이터 세트로, 생성형 AI와 컴퓨터 비전 분야에서 널리 사용된다. LAION 데이터 세트는 이미지와 텍스트의 유사도, 이미지 해상도, 불안전한 콘텐츠 등을 필터링하여 정제된 데이터를 제공한다.

 

3) DataComp-1B 데이터 세트

DataComp-1B 데이터 세트는 1억 개의 데이터로 구성된 세트로, LAION 데이터의 노이즈를 제거하기 위해 개발되었다. ImageNet과 유사한 고품질의 이미지를 포함하며, CLIP 모델이라는 기술을 사용해 이미지-텍스트 쌍의 유사도를 평가하는 방식으로 필터링한다. DataComp는 판별 AI 모델에서 성능이 검증되었으며, 생성형 모델에도 긍정적인 영향을 줄 수 있다.

 

4) Recap-DataComp1B 데이터 세트

기존의 데이터 정제 방식은 주로 노이즈를 제거하는 것에 중점을 두어 고품질의 데이터를 확보하는 데는 한계가 있었다. 최근 제안된 Recap-DataComp1B는 Llama3 모델을 사용해 이미지를 설명하는 새로운 텍스트를 자동으로 생성한다. 즉, AI가 더 정확하게 이미지를 설명하는 고품질의 텍스트를 만들어 기존 데이터를 대체하는 방식이다.

▲ Recap-DataComp1B 데이터 예시. 웹에서 얻은 텍스트(Original) 보다 고품질의 텍스트를 생성하여 좋은 학습 데이터를 만들어 낼 수 있다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

]]>
/all-around-ai-6/feed/ 0