[인터뷰] “AI 조기 도입의 효과”… 완전히 달라진 2023 삼성TV 사운드

2023/07/13
본문듣기 AUDIO Play
공유 레이어 열기/닫기
주소가 복사되었습니다.

글로벌 TV 시장에서 17년 연속 판매 1위를 달성한 삼성전자는 사운드바 시장에서도 9년 연속 글로벌 시장 점유율 1위 자리를 지키고 있다. 그 중심엔 AI 기술력이 있다. 사운드의 중요성과 하드웨어 혁신을 다룬 지난 1편에 이어 이번에는 삼성전자 영상디스플레이사업부 사운드랩의 김선민 랩장, 김기범 프로, 박성수 프로와 사운드 혁신을 이끄는 삼성전자의 AI 기술력에 대해 소개한다.

▲ SpaceFit Sound, AVA, OTS, Q-Symphony 등 AI를 통해 한층 강화된 삼성TV의 사운드 기능을 소개하는 영상 (Piano)

 

화면 속 상황과 시청 공간에 알아서 맞추는 삼성만의 AI 기술

“사운드를 하는 사람들이 초기에는 AI에 별 관심이 없었어요영상디스플레이사업부 사운드랩 김선민 랩장의 고백이다. 하지만 그는 콘텐츠와 시청 환경 분석 등 AI를 활용해 시청 경험을 개선할 수 있다는 확신이 있었다. 이에 사운드랩은 약 6년 전부터 사운드와 AI를 접목할 기회를 모색했다. 그러다 TV 제품에 AI 알고리즘 처리에 최적화된 뉴럴 프로세서(Neural Processing Unit, NPU)가 채용되면서부터 본격적으로 빛을 보기 시작했다.

"사용자를 편하게 하자’는 목표로 AI 기술을 사운드에 도입하게 됐다”는 김선민 랩장

▲ “사용자를 편하게 하자’는 목표로 AI 기술을 사운드에 도입하게 됐다”는 김선민 랩장

과정은 이렇다. 먼저 딥러닝(Deep Learning) 알고리즘을 개발해 수많은 장면에서 나오는 사운드의 성격을 분석해 메인 목소리를 분리해낼 수 있는 기술을 확보했다. 단순히 20~20,000Hz의 가청 주파수 대역 중 저음, 중음, 고음 구간별 출력만 조정하는 이퀄라이저 기능에서 한발 나아가 주인공 목소리, 음악, 사운드 효과 등 원하는 오디오 객체(Audio object)를 선택적으로 강조할 수 있게 된 것. 여기에 오디오 장면을 자동으로 인식해 최적화하는 과정을 거치고 나면, 소비자가 수동으로 음향 설정을 조정하지 않아도 TV가 알아서 최적의 사운드를 구현한다.

이제 입체적인 사운드를 즐겨볼 차례다. 음향이 상하좌우전후 전면(全面)에 배치된 TV 스피커에 알맞게 분배되어 보다 공간감 있는 사운드를 경험할 수 있다. 삼성TV가 돌비 애트모스(Dolby ATMOS)나 무빙 사운드(OTS, Object Tracking Sound)도 차원이 다르게 강조할 수 있는 이유이다.

 

공간까지 배려하는 스페이스핏 사운드

소비자의 시청 공간 분석에도 AI 기술이 활용된다. ‘스페이스핏 사운드(SpaceFit Sound, 공간 맞춤 사운드)’ 기능은 TV 내장 마이크를 통해 TV 재생 음질의 반사음(reflection)을 측정해 TV와 벽과의 거리, 공간의 흡음 특성 등을 분석한다. 이를 토대로 주파수 대역별 부족한 부분을 알맞게 보상하는 과정을 통해 원작자의 의도가 반영된 사운드가 출력되도록 돕는다.

스페이스핏 사운드는 TV에 내장된 마이크를 통해 공간의 특성을 자동으로 파악해 표준 청취 환경에서 듣는 것과 유사하게 사운드를 보정한다.

▲ 스페이스핏 사운드는 TV에 내장된 마이크를 통해 공간의 특성을 자동으로 파악해 표준 청취 환경에서 듣는 것과 유사하게 사운드를 보정한다.

김기범 프로는 카펫, 벽 등 시청 환경 내의 여러 요소가 소리에 영향을 미치는데, 다양한 분석을 통해 소비자의 시청 환경에 따라 공통적으로 변하는 주파수 패턴을 찾아냈다, “내장된 마이크를 통해 공간의 음향 특성을 파악하고 보정해 주기 때문에 TV가 어디에 위치하더라도 최적화된 사운드를 즐길 수 있다고 말했다.

가장 큰 장점은 역시 편리성이다. 사용자가 별도로 테스트를 실행하는 등 별도 작업이 필요 없다. 스페이스핏 사운드가 사용자 공간을 자동으로 분석하고 알아서 최적의 사운드를 구현한다.

김기범 프로는 보통은 TV에서 측정용 테스트 음을 내보내고 이 소리를 다시 마이크로 확인해 소리를 보정하지만 스페이스핏 사운드는 실제 사용자가 시청하고 있는 콘텐츠의 소리를 사용해 환경을 분석, 공간에 최적화된 사운드를 제공한다스스로 TV 시청 환경을 확인해 자동으로 세팅하는 기술로 사용자를 편하게 하는 배려의 마음에서 탄생한 기술이다고 설명했다.

삼성전자 ‘스페이스핏 사운드’ 기술은 업계 최초로 독일 인증 기관 VDE(Verband Deutscher Elektrotechniker)의 ‘공간 최적화 사운드(Spatial Sound Optimization)’ 인증을 받았다.

▲삼성전자 ‘스페이스핏 사운드’ 기술은 업계 최초로 독일 인증 기관 VDE(Verband Deutscher Elektrotechniker)의 ‘공간 최적화 사운드(Spatial Sound Optimization)’ 인증을 받았다.

사용자를 배려한 혁신 기술로 업계 최초라는 타이틀도 얻었다. 삼성전자는 스페이스핏 사운드 기능으로 2년전 독일 인증 기관 VDE(Verband Deutscher Elektrotechniker)로부터 공간 최적화 사운드(Spatial Sound Optimization)’ 인증을 받았다.

 

초연결성으로 더욱 역동적인 사운드 완성, ‘Q-Symphony 3.0’

Q심포니는 TV의 모든 스피커와 사운드바가 동시에 사운드를 구현하는 기능이다. Q심포니의 핵심 포인트는 여러 악기가 협주를 하는 이름처럼 조화’. TV와 사운드가 역할 분담을 해 입체감 있는 음질을 구현한다. 목소리를 포함한 메인 사운드는 사운드바에서만 나오고 TV 스피커는 효과음 위주의 서라운드를 재생한다. 사운드의 명료성을 강조하고 입체감을 구현하기 위해서다.

Q심포니는 사운드바와 TV가 단순히 소리를 함께 내는 것이 아닌 각자의 역할을 나눠 조화롭게 확장된 사운드를 구현한다.

▲Q심포니는 사운드바와 TV가 단순히 소리를 함께 내는 것이 아닌 각자의 역할을 나눠 조화롭게 확장된 사운드를 구현한다.

간단해 보여도 AI 사운드 기술이 모두 집약됐다. 기기가 다르면 소리의 강도와 크기가 달라 소리 레벨의 편차를 동일하게 맞춰야 하고 동시에 소리가 나오도록 시간 차를 정밀하게 조정해야 한다. 소리가 재생되는 타이밍이 어긋나면 동굴에 있는 듯 울리는 소리가 연출되기 때문이다.

세대를 거칠수록 혁신은 더해졌다. TV의 탑 스피커만 사용했던 Q심포니 1세대에 비해 2세대에서는 TV의 모든 스피커를 제어할 수 있게 됐다. 특히 2세대부터는 사운드 분리 기술이 개선돼 모든 스피커를 통해 사운드가 재생되면서 더욱 풍성한 사운드를 구현할 수 있게 됐다.

올해 공개된 Q심포니 3세대는 뉴럴 프로세서에 AI 기반의 실시간 음성 분리 기술이 탑재되며 더욱 고도화됐다. 대사, 배경음, 효과음 등 모든 사운드 객체 분리는 물론 콘텐츠 특성과 사용자 볼륨 설정에 최적화된 사운드 리믹싱이 가능해 원작자가 의도한 대사 명료도와 입체감을 제공한다.

, 다양한 콘텐츠를 보다 몰입감 있게 경험할 수 있게 됐다. AI 알고리즘이 입력 신호를 분리해 사운드바와 TV의 모든 스피커를 통해 사운드를 재생한다. 2개의 신호도 20여 개로 분리가 가능해 돌비 애트모스(Dolby Atmos)5.1 채널 콘텐츠가 아닌 일반 스테레오 콘텐츠도 더욱 실감나게 즐길 수 있다.

”소리 크기, 타이밍, 알고리즘이 모두 조화를 이루는 Q심포니는 삼성전자만이 선보일 수 있는 혁신 기술이다”는 김기범 프로

▲”소리 크기, 타이밍, 알고리즘이 모두 조화를 이루는 Q심포니는 삼성전자만이 선보일 수 있는 혁신 기술이다”는 김기범 프로

김기범 프로는야외에서 촬영된 예능 프로그램을 볼 때도 현장의 배경음이 더 퍼져서 들리기 때문에 마치 촬영 공간에 들어와 있는 듯한 현장감을 느낄 수 있다, “Q심포니로 소리 크기, 타이밍, 알고리즘이 조화를 이뤄 여러 기기도 하나의 기기처럼 소리를 낸다고 설명했다.

 

화질과 음질, 상생의 시너지

AI가 본격적으로 사운드에 적용되면서 다양한 응용 기능이 개발됐다. TV 안팎의 소리를 분리한 뒤 소음과 화자의 위치에 따라 영상 속 화자의 목소리를 조정하는 액티브 보이스(Active Voice Amplifier)’휴먼 트래킹 사운드(Human Tracking Sound)’나 영상 내 물체의 움직임에 따라 입체적 사운드를 구현해 주는 무빙 사운드 Pro (OTSPro)’가 그것.

이때 필요한 AI 기술은 영상을 분석하는 모델과 사운드를 분리하는 모델로 두 기술 뉴럴 프로세서 상에서 동시 동작해 시너지를 낸다. 문제는 뉴럴 프로세서가 음질뿐 아니라 화질과 같은 다른 영역에서도 함께 사용해야 하는 자원이라는 점이다.

이를 위해 삼성전자에서는 매년 각 분야의 개발자들이 모인 협의체를 구성해 어플리케이션의 사양을 공유하고 조정한다. 화질과 음질, 각 기능들이 어느 정도 리소스가 필요한지 확인하고 동작 시점에 서로 영향을 받지 않도록 최적화 작업을 진행한다. 협력이 필요한 좋은 아이디어가 있으면 구체적으로 논의하기도 한다. 공존을 위해 선택한 협의체는 결과적으로 17년 연속 글로벌 TV 판매 1위라는 시너지를 만들어냈다.

 

초연결 경험 강화다양한 사운드 디바이스와의 결합을 통해 더 깊고 풍부한 사운드

시청 환경에 맞춰서 최적의 사운드를 구현해 최대한 원음의 ‘좋은 소리’를 전하고 싶다는 (왼쪽부터)박성수 프로, 김선민 랩장, 김기범 프로

▲시청 환경에 맞춰서 최적의 사운드를 구현해 최대한 원음의 ‘좋은 소리’를 전하고 싶다는 (왼쪽부터)박성수 프로, 김선민 랩장, 김기범 프로

사운드 혁신을 이뤄내고 있는 사운드랩의 목표는 한결같다. 원작자의 의도를 살린 사운드를 전하는 것. 핵심은 AI를 통한 자동화다. 김선민 랩장은 사운드 자체도 중요하지만 그 중심엔 사용자가 있다. 시청 환경에 맞춰 세팅하는 번거로운 과정이 있으면 안 된다, “AI를 통해 사용자의 편의성을 더욱 높여갈 예정이다고 설명했다.

박성수 프로도 “TV 사운드는 TV의 능력이 70%라고 하면 나머지 30%는 공간에 의해서 완성된다, “다양한 측정 시스템과 AI 알고리즘을 통해 예측된 공간에 대한 정보들을 가지고 사용자 맞춤형 사운드를 전달하고 싶다고 전했다.

Q심포니로 시작된 사운드 멀티 디바이스 시대에 맞춘 포부도 전했다. 김기범 프로는 “Q심포니는 단순히 두 기기를 연결한 것에서 나아가 음향적으로 콜라보레이션을 한다기기 간 연결성을 높여 더욱 좋은 소리를 만들어낼 수 있도록 기술 개발에 힘쓸 것이라고 말했다.

최상의 시청 경험을 제공하기 위해 사운드 혁신을 이어가고 있는 삼성 TV가 전할 다음 소리는 무엇일지 기대가 커졌다.

삼성전자 뉴스룸의 직접 제작한 기사와 이미지는 누구나 자유롭게 사용하실 수 있습니다.
그러나 삼성전자 뉴스룸이 제공받은 일부 기사와 이미지는 사용에 제한이 있습니다.
<삼성전자 뉴스룸 콘텐츠 이용에 대한 안내 바로가기>

TOP