サムスン日本研究所のあくなき挑戦
~Galaxy AI日本語音声認識エンジン開発秘話~
【SRJ ソフトウェア開発Lab設立の経緯と紹介】
私たちは、サムスン日本研究所(以下SRJ)のなかで日本向けのGalaxy AI機能の開発を担っているArtificial Intelligence Part長の赤迫貴行(あかさこ たかゆき)さんにSRJでの開発内容についてインタビューしました。
SRJでは、生活家電やディスプレイなどハードウェア関連の研究開発を中心に行っていましたが、昨年末にソフトウェア開発のLabを発足させ、日本向けのGalaxy AI機能開発や【Samsung Wallet】を開発しています。今年の4月から本格的にサムスン中国北京研究所(SRCB)で担っていたGalaxy AI機能の1つである【リアルタイム通訳】の日本語音声認識エンジンをSRJに移管・開発始動させ、日本語音声認識エンジンパッケージを定期リリースしています。元々SRCBで日本語音声認識エンジンの開発を行っていたころは、日本語ネイティブの人が開発チームにいなかったため、すぐに音声認識の問題に気づけず、サムスン電子ジャパン(SEJ)のSupplier Quality Engineer のバグレポートが報告されてから対応しており、どうしても時間がかかっていました。このような開発スピードの向上と洗練さを高めるため、日本のSRJで開発することになりました。
【音声認識エンジンの開発で苦労したことは】
日本語は音の数が少ないため同音異義語が多いと言われ、例えば、「箸」と「橋」(はし)であればアクセントの違いによって区別がつきやすいですが、「観光」や「慣行」(かんこう)、「公共」や「好況」(こうきょう)などは前後の文脈などによってどちらの意味なのか判断されます。さらに漢字が一つ違うだけでも全く異なる意味になってしまうため、膨大な学習データの収集が必要となります。その他にも、地名、人名、固有名詞、方言、数字などが含まれていてかつ前後の文脈が曖昧な時は判断が難しくなります。例えば、日本には数字を漢数字として表記する場合があります。また、漢数字が人名に入っている場合も多く、それらを声だけで区別することは容易ではありません。その為、音声認識の精度を上げるためには、常に終わりなく多くのデータが必要となるのです。
しかし、以前までは、取集した膨大な量のスクリプトに対し、人が直接録音した音声データのみを機械学習に使用していたため、データ収集効率が良くありませんでした。現在は、スクリプトの収集にもSamsungのLLM(大規模言語モデル)である、Samsung Gaussを利用し、シナリオに関する単語やフレーズが使用されている文章を集めています。また、Samsung Gaussで集めたデータを人が直接録音するだけではなく、TTS(音声合成)ツールで音声に起こし、生成された音声データの中から人によるチェックを通じて選ばれた正しいデータを利用することによりデータ収集の効率性が画期的に上がりました。データ収集の効率性と問題分析と解決へ至る速さを高め続けた結果、現在の単語認識率はあらゆる評価で99%を超えています。TTSを使用することになって音声データの収集の効率性は改善されましたが、音声認識エンジンで1つ誤認識の問題が検出された時は、問題解決の方法は1つではなく、どのような学習データを集めればいいのかをテキスト情報から推測し、何万件というデータ検証作業を繰り返すため、スケジュール管理が難しく、骨の折れる作業となります。赤迫さんは、問題を特定・解決し、音声認識の精度が上がるたびにやりがいも大きくなり、今後はオリンピック対応に代表されるように、さまざまなシナリオに対して高い認識率をサポートし続けていくことがSRJのミッションであると語りました。
【今後の目標】
SRJでは今年7月に開催される「パリ2024オリンピック・パラリンピック」での使用想定単語とスクリプトに注力して準備しています。実際に、Galaxy AIを搭載した初の最新折りたたみAIフォン「Galaxy Z Fold6」「Galaxy Z Flip6」が発売される時期は、世界的なビックイベントである「パリ2024オリンピック・パラリンピック」が開催される時期なので、日本語だけではなく、全言語で旅行先を想定したシナリオの開発を進めています。
【リアルタイム通訳】は、旅行でのシナリオに特に優れていますが、競技名やフランス国内の地名など、オリンピック観戦とともに観光する人々を想定し、音声認識プログラムを構築しています。また、韓国本社とSRCBのサポートを受けながら、【リアルタイム通訳】の日本語音声認識の開発だけでなく、Galaxy AIに関するさまざまな日本語機能の開発、韓国本社が担う【機械翻訳】、【音声合成】のサポートも行っています。
赤迫さんは「音声認識をはじめとした日本語機能が多様なシーンや幅広い生活環境に対応できるよう、今後、日本語の方言や、親しい間柄での口調なども強化していきたいと考えています。」と語りました。
お問い合わせは Samsungカスタマーサポートセンター < samsung.com/jp/support > まで。
報道関係・メディアの方のお問い合わせ・取材のお申し込みはSamsung PR担当 < sej.press@samsung.com > までお問い合わせください。