[인터뷰] 내 손 안의 사운드 스튜디오 ‘오디오 지우개’ 선행연구 스토리
버스킹 공연을 촬영했는데 노래 소리보다 차 경적 소리가 더 크게 담겼다면?
카페 브이로그에서 주변 소음이 심해 대화 소리가 잘 들리지 않는다면?
갤럭시 S25 시리즈에서 선보인 동영상 ‘오디오 지우개’는 이런 난감했던 순간을 위해 탄생했다. 불필요한 소음은 줄이고 원하는 소리는 키워, 더욱 몰입감 있는 영상을 만들 수 있도록 돕는다.[1] 사용자의 마음을 읽은 새로운 갤럭시 AI 기능인 오디오 지우개는 삼성리서치와 MX사업부의 선제적 기술 확보를 통해 세상에 나왔다. 뉴스룸이 삼성리서치 AI 솔루션팀의 음향 기술 담당자들을 만나 개발 여정을 따라가 봤다.

▲ (사진 왼쪽부터) 삼성리서치 AI 솔루션팀 민경보, 양희정, 성호상, 김지원 프로
“이 소리만 빼고 들을 수 없을까?” 차세대 오디오 기술의 핵심 ‘음원 분리’
오디오 지우개는 갤럭시 S25 시리즈에서 영상 속 다양한 소리를 조절해 불필요한 소음을 제거하고, 원하는 소리를 강조할 수 있는 기술이다. 영상 속 소리를 빠른 시간 안에 유형별로 탐색하고 분리하며, 직접 촬영한 영상뿐 아니라 공유 받은 영상에서도 활용할 수 있는 것이 특징이다.
갤럭시 S21 시리즈에 처음 도입한 AI 지우개 기능이 이미지 편집 경험과 사용성을 강화한 것처럼, 오디오와 동영상 등 멀티미디어 전반으로 차별화된 경험을 확대하기 위해 오디오 지우개 개발이 시작됐다.

▲ 영상 속 소리를 유형별로 조정할 수 있는 ‘오디오 지우개’ 기능
“직접 발로 뛰며 바람 소리 녹음” 음원 탐색·분리 모델 개발
오디오 지우개는 음성, 음악, 바람, 자연, 군중, 소음 등 6종의 유형을 탐색한다. 영상에서 어떤 소리가 어디에 있는지 ‘음원 탐색’ 기술을 통해 빠르게 파악하고, 섞여 있는 소리들을 ‘음원 분리’ 기술을 통해 각각의 유형으로 나눠서 보여준다.
이렇게 음원을 탐색, 분리할 수 있는 AI 모델을 개발하기 위해 연구진은 우선 학습 데이터 확보에 매진했다. 동영상을 촬영하는 수많은 상황을 가정해 다양한 음향 데이터를 합성하는 것은 물론이고, 발로 뛰며 생활 속 소리들도 수집했다. 양희정 프로는 “바람 소리를 다루기가 특히 어려웠다”며 “바람 시뮬레이션 기술을 고도화하는 한편, 퇴근 이후나 주말에도 강한 바람을 만나면 야외에서 직접 녹음하며 데이터를 강화했다”고 설명했다.
또한 연구진은 수많은 영상을 ‘듣고 또 들으며’ 음원 분리 성능을 높이는 데 집중했다. 김지원 프로는 “다양한 샘플 영상을 여러 조건으로 계속 실험해 보면서 개발자마다 매주 1,000여 개의 영상을 비교 분석했다”며 “안정적인 품질을 위해 최적의 음원 분리 모델을 찾아 나갔다”고 말했다.

▲ 삼성전자 연구진이 오디오 기술을 개발하는 모습
“새로운 청취 경험 제공” 사용자 중심의 기술 개발
오디오 지우개는 갤럭시 S25 시리즈에서 온디바이스 AI로 동작하기 때문에 실시간 편집으로 사용성이 크게 향상되고 개인정보 보호에도 유리하다. 다양한 기능에서 온디바이스 AI 경쟁력을 높여온 삼성전자의 노하우가 오디오 지우개에도 적용됐다.
성호상 프로는 “기기 내에서 빠르게 동작할 수 있는 AI 모델과 알고리즘을 연구했다”며 “저전력으로 원활하게 동작하는 최적화된 AI 솔루션을 구현하기 위해 많은 노력을 기울였다”고 설명했다.
삼성리서치는 탄탄한 AI 연구 인프라를 바탕으로 오디오 분야 선행연구에서 역량을 강화해 왔다. AI 솔루션팀장 조훈영 상무는 “모바일 기기에서 새로운 사용성을 제공할 수 있는 선행기술 개발에 힘쓰고 있다”며 “음원 제어 및 고품질화 기술을 통해 ‘선택적 청취’ 경험을 지원할 수 있도록 하겠다”고 밝혔다.
“한 팀처럼 손발을 맞췄어요” 제품 개발진과의 팀워크
선행기술을 실제 소비자가 사용할 솔루션으로 구현하는 과정에서 새로운 과제들도 등장했다. 예를 들어, 동영상 편집을 위해 비디오와 오디오를 동시에 처리하는 경우 재생 화면이 끊어지지 않도록 해야 했고, 한 시간이 넘는 긴 분량의 동영상도 동일 시간 내 처리 가능한 특별한 기술이 필요했다.
이 과정에서 삼성리서치와 MX사업부는 사용자 관점의 다양한 아이디어 제안에서부터 SW 최적화 기술 실험과 음질 평가를 반복하며, 함께 해결책을 찾고 최선의 방안을 만들어 나갔다.
연구소와 사업부의 협업은 앞서 갤럭시 버즈3 시리즈(버즈3, 버즈3 프로)에서도 이뤄졌다. 시끄러운 환경에서도 음악과 영상에 몰입하거나 통화 수신 음성을 잘 들을 수 있게 해주는 ANC(Active Noise Cancellation) 기능은 무선 이어폰에서 중요성이 날로 커지고 있다. 삼성전자는 이를 더욱 강화해 ‘적응형 ANC’ 기술을 자체 개발했다. 갤럭시 버즈3 시리즈에서 사용자마다 다른 착용 상태 및 장시간 착용에 따라 변화되는 착용 상태에 실시간 적응해 최적의 ANC 기능을 제공하는 것이다.
귀에 직접 착용하는 이어버즈의 특성상 하드웨어와 소프트웨어 개발 간의 긴밀한 협력이 필수적이었다. 제품 사양이 확정돼야 최적의 ANC 기술도 완성할 수 있기 때문이다. 민경보 프로는 “다양한 하드웨어 조건에 맞는 여러 알고리즘을 미리 개발하고, 수많은 시뮬레이션을 통해 어떤 칩셋과 하드웨어에도 빠르게 적용 가능한 기술을 준비해왔다”며 “개발 과정은 수정, 개선의 연속이지만 선행기술과 제품 담당자들의 긴밀한 협력을 통해 신속한 상품화가 가능했다”고 말했다.
음원 분리는 차세대 오디오 기술의 핵심적인 분야이며, 삼성전자는 혁신적인 기반 기술을 발전시켜 나가고 있다. 삼성전자는 음원 분리의 장점을 십분 활용한 오디오 지우개를 시작으로 다양한 애플리케이션을 준비할 계획이다. 소비자에게 더욱 유용하고 사용하기 쉬운 기능을 제공할 갤럭시 AI의 진화가 기대된다.
[1]영상 내 존재하는 소리에 따라 결과는 다를 수 있다. 음성, 음악, 바람, 자연, 군중, 소음과 같은 특정 유형의 소리만 감지할 수 있으며, 실제 감지되는 소리는 오디오 소스 및 영상의 상태에 따라 다를 수 있다.
삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>