본문 바로가기

[AI 특집] AI를 손 안에 담다: 온디바이스 최적화 기술의 혁신

2025/11/21

과거 SF 영화 속 인공지능은 거대한 컴퓨터 장비나 초대형 서버로 묘사되곤 했지만, 오늘날 AI는 손 안의 기기에서도 바로 사용하는 일상의 기술이 됐다. 삼성전자는 모바일 기기, 가전 등 다양한 기기에 외부 서버나 클라우드 없이 자체적으로 AI를 구동하는 ‘온디바이스 AI(On-Device AI)’ 기술을 적극 도입하며, 빠르고 안전한 AI 경험을 실현하고 있다.

서버 환경과 달리 온디바이스에서는 메모리와 연산 자원의 제약이 크다. 따라서 AI 모델의 크기를 줄이고, 기기 환경에 맞게 실행 효율을 높이는 온디바이스 AI 최적화 기술이 필수적이다. 삼성리서치 AI 센터는 이를 위해 모델 압축, 실행 소프트웨어 최적화, 새로운 아키텍처 개발 등 핵심 기술 전반에서 연구를 선도하고 있다.

온디바이스 AI의 현재와 미래, 그리고 이를 가능케 하는 최적화 기술에 대해 더 자세히 듣기 위해 삼성전자 뉴스룸이 삼성리서치 AI센터 함명주 마스터를 만나봤다.

삼성리서치 AI센터 함명주 마스터.
▲ 삼성리서치 AI센터 함명주 마스터

‘크기는 DOWN, 효율은 UP’ 온디바이스 AI의 시작, 모델 압축

사용자 언어를 이해하고 자연스러운 답변을 만들어내는 생성형 AI의 중심에는 거대언어모델(Large Language Model, LLM)이 있다. 온디바이스 AI의 첫 단계는 이 거대한 모델이 모바일 기기 안에서도 잘 작동할 수 있도록 작게, 효율적으로 만드는 일이다.

함명주 마스터는 “수십억 개의 연산을 수행하는 초고도 지능 모델을 모바일 기기나 노트북에서 그대로 구동한다면 배터리가 빠르게 소모되고, 기기 발열이 심해지거나 응답 속도가 느려져 사용자 경험이 크게 저하될 것”이라며 이를 해결하기 위해 등장한 것이 ‘모델 압축’ 기술이라고 소개했다.

거대언어모델은 본래 매우 복잡한 숫자로 연산을 수행한다. 모델 압축 기술은 이 숫자를 보다 효율적으로 표현하기 위해 단순한 정수 형태로 바꾸는데, 이 과정을 ‘양자화(Quantization)’라고 한다. 함 마스터는 “고해상도 사진을 압축해 용량은 줄였지만 육안으로는 화질 차이가 거의 없는 상태를 유지하는 것과 비슷하다”며 “예를 들어, 32비트 부동소수점 실수로 계산하던 것을 8비트나 4비트 정수로 단순화하면 메모리 용량과 연산량이 크게 줄어 응답 속도가 빨라진다”고 설명했다.

모델 가중치를 양자화해 성능은 유지하면서 용량을 줄이고 속도를 높이는 모델 압축 기술.
▲ 모델 가중치를 양자화해 성능은 유지하면서 용량을 줄이고 속도를 높이는 모델 압축 기술

양자화 과정에서 숫자의 정밀도가 낮아지면, 모델의 정확도가 떨어질 수 있다. 삼성리서치는 속도와 정확성의 균형을 잡기 위해 압축 이후의 성능을 세밀하게 측정하고 보정하는 알고리즘과 개발 도구를 함께 설계하고 있다.

함명주 마스터는 “모델 압축의 핵심은 단순히 작게 만드는 것이 아니라, 작지만 정확하고 빠른 모델을 만드는 것”이라고 강조했다. 그는 “최적화 알고리즘을 통해 압축 과정에서 모델의 손실 함수를 세밀하게 분석하고, 원래 결과값과 거의 근접한 값이 나올 때까지 학습시키거나 오차가 큰 구간을 부드럽게 다듬는다”며 “모델의 가중치마다 중요도가 다르므로, 중요한 가중치는 정밀하게 유지하고 덜 중요한 부분은 과감하게 압축하는 방식으로 효율을 극대화하면서도 정확도를 유지할 수 있다”고 말했다.

삼성리서치는 모델 압축 기술을 연구 수준에서 구현하는 데 그치지 않고, AI 폰과 가전 등 실제 제품 환경에 맞춰 직접 개발하고 상용화한다. 함 마스터는 “기종마다 메모리 구조나 연산 성능이 모두 다르기 때문에, 일반적인 접근으로는 클라우드 기반 AI 수준의 성능을 내기 어렵다”며 “삼성리서치는 제품 중심(Product-driven) 연구를 통해 자체 설계한 압축 알고리즘으로 사용자의 손 안에서 직접 체감되는 AI 경험 개선을 목표로 하고 있다”고 설명했다.

“AI 성능을 끌어올리는 숨은 엔진” AI 실행 소프트웨어

AI 모델을 아무리 잘 압축하더라도, 기기 안에서 어떻게 구동되는지에 따라 체감 성능은 크게 달라진다. 삼성리서치는 모델이 실제로 작동하는 단계에서 기기의 메모리와 연산 자원을 가장 효율적으로 활용할 수 있는 ‘AI 실행기’를 개발하고 있다.

함명주 마스터는 “AI 실행기는 모델의 ‘엔진 제어장치’와 같다”며 “모델이 CPU, GPU, NPU 등 서로 다른 연산 장치에서 동시에 작동할 때, 어떤 연산을 어느 칩에서 처리할지 자동으로 배분하고 메모리 접근을 최소화해 AI의 성능을 높인다”고 설명했다.

AI 실행기는 동일한 기종의 기기 내에서 더 크고 정교한 모델도 같은 속도로 실행할 수 있게 해 준다. AI 서비스의 응답 지연 시간이 줄어들 뿐만 아니라, 더 높은 정확도와 자연스러운 대화, 정교한 이미지 처리 등 AI 품질 자체가 향상되는 것.

함 마스터는 “온디바이스 AI에서 가장 큰 병목은 메모리 대역폭과 저장장치 접근 속도”라며 “메모리와 연산 간의 균형을 지능적으로 조정하는 최적화 기술을 개발하고 있다”고 말했다. 예를 들어, 모든 데이터를 메모리에 올려두지 않고 필요한 시점에만 불러올 수 있도록 설계해 효율을 높이는 방식이다. 함 마스터는 “삼성리서치는 모델 크기가 16GB 이상인 300억 파라미터 규모의 생성형 모델도 3GB 이하의 메모리로 구동할 수 있는 수준의 기술력을 갖췄다”고 덧붙였다.

AI 실행 소프트웨어가 가중치 연산 시점을 예측해 메모리를 최소화하고 속도를 높이는 AI 최적 실행 기술.
▲ AI 실행 소프트웨어가 가중치 연산 시점을 예측해 메모리를 최소화하고 속도를 높이는 AI 최적 실행 기술

“더 가볍고 똑똑한 AI 모델 설계” 새로운 아키텍처 연구

AI의 설계도 역할을 하는 아키텍처(Architecture) 연구도 활발하게 진행되고 있다.

함명주 마스터는 ““온디바이스 환경에서는 연산 자원과 메모리가 제한적이기 때문에, 모델이 기기에서 원활하게 동작할 수 있도록 구조 자체를 재설계해야 한다”며 “삼성리서치의 아키텍처 연구는 하드웨어 효율을 극대화하는 모델 설계에 집중하고 있다”고 설명했다. 다시 말해, 설계 단계부터 모델과 기기의 하드웨어 자원이 서로 조화롭게 작동할 수 있도록 디바이스 친화적인 모델 구조를 만드는 것.

큰 모델의 지식을 작은 모델에 전달해 성능을 유지하면서 연산 효율을 높이는 AI 아키텍처 최적화 연구.
▲ 큰 모델의 지식을 작은 모델에 전달해 성능을 유지하면서 연산 효율을 높이는 AI 아키텍처 최적화 연구

거대언어모델의 학습에는 막대한 시간과 비용이 투입되는데, 초기에 모델 구조를 잘못 설계하면 이 비용이 크게 늘어날 수 있다. 삼성리서치는 학습 과정에서의 자원 낭비를 최소화하기 위해 학습 이전 단계에서 하드웨어 효율을 미리 예측하고, 구조적으로 최적화된 아키텍처를 설계하고 있다. 함명주 마스터는 “온디바이스 AI 시대에서 핵심 경쟁력은 같은 자원으로 얼마나 높은 효율을 끌어낼 수 있느냐에 있다”며 “작은 칩 안에서 최대의 지능을 구현하는 것이 우리가 지향해야 할 기술적 방향성”이라고 생각을 전했다.

현재 대부분의 거대언어모델은 ‘트랜스포머(Transformer)’ 아키텍처를 기반으로 한다. 트랜스포머 아키텍처는 문장 전체를 한 번에 확인하며 단어 간 관계를 계산하는 방식으로, 문맥 이해에는 뛰어나지만 문장이 길어질수록 계산량이 기하급수적으로 증가한다는 한계가 있다. 함명주 마스터는 “트랜스포머 아키텍처의 한계를 극복하기 위해 다양한 기술적 접근 방식을 검토하는 동시에, 실제 기기 환경에서 얼마나 효율적으로 작동할 수 있는지를 중심으로 평가하고 있다”며 “단순히 기존 방법을 개선하는 수준을 넘어 새로운 방법론을 도입한 ‘다음 단계의 아키텍처’를 만드는 데 집중하고 있다”고 힘주어 말했다.

“언제 어디서나 빠르고 안전하게” 온디바이스 AI의 진화

온디바이스 AI의 현재와 미래에서 가장 중요한 과제가 무엇일까? 함명주 마스터는 “핵심은 클라우드 수준의 성능을 기기 안에서 구현하는 것”이라고 답했다. 클라우드에 연결하지 않아도 빠르고 정확하게 AI가 작동하려면, 모델 최적화와 하드웨어 효율화가 긴밀하게 맞물려야 한다는 것이다. 그는 “속도, 정확도, 전력 효율을 동시에 개선하는 것이 더욱 중요해질 것”이라고 덧붙였다.

함명주 마스터는 "온디바이스 AI 최적화로 언제 어디서나 빠르고 안전하며 개인화된 AI 경험을 만들어간다"고 말했다.

온디바이스 AI 기술의 발전으로 사용자는 언제 어디서나 빠르고 안전하며 개인화된 AI 기능을 누릴 수 있게 됐다. 함명주 마스터는 “AI가 기기 안에서 실시간으로 학습하고 사용자 환경에 적응하는 능력이 강화될 것”이라며 “데이터 프라이버시를 지키면서도 자연스럽고 개인화된 서비스를 제공하는 것이 앞으로의 방향”이라고 말했다.

삼성전자는 온디바이스 AI의 최적화를 통한 한층 진화된 기술 경험을 제공하기 위해 끊임없는 혁신을 이어가고 있다. 이를 통해 더욱 놀라운 사용자 경험을 선사해 나갈 것이다.

top