O firmie > Technologia
[Ku przyszłości dzięki badaniom Samsung②] Samsung R&D Institute Poland: tworzenie technologii napędzanych sztuczną inteligencją w celu zapewnienia nowego poziomu wygody
Tym razem Samsung Newsroom przedstawia ekspertów ds. technologii z centrów badawczo-rozwojowych Samsung z całego świata, by przybliżyć czytelnikom wykonywaną przez nich pracę i to, jak bezpośrednio wpływa ona na użytkowników.
(Kontynuacja tematyki poruszonej w części 1)
Drugim prezentowanym w naszej serii ekspertem jest Łukasz Słabiński, szef zespołu ds. sztucznej inteligencji w Samsung R&D Institute Poland (SRPOL). Dołączył on do SRPOL w roku 2013 jako starszy inżynier i dziś, po 8 latach pracy, przewodzi zespołowi AI. Poniżej przedstawiamy ekscytujące innowacje, nad jakimi Łukasz i jego zespół pracują w SRPOL.
Pyt.: Wiadomo, że opracowywanie rozwiązań w dziedzinie rozpoznawania mowy jest ogromnie skomplikowane. Z jakimi wyzwaniami zetknąłeś się podczas pracy nad technologiami związanymi z językiem i jak sobie z nimi poradziłeś?
Odp.: Uważam, że technologie związane z językiem są znacznie bardziej złożone niż pozostałe. Ludzie porozumiewają się za pomocą niemal 7000 wciąż ewoluujących języków, z których każdy obejmuje rozliczne akcenty i dialekty. Co więcej, język jest znacznie mniej obiektywny niż np. obraz, który można opisać przy pomocą formuł matematycznych. Ludzie „kodują” swoje myśli, przekładając je na zestaw dźwięków czy znaków, które tworzą komunikat – ten z kolei musi następnie zostać „rozszyfrowany” i zinterpretowany. Ponieważ każda faza tego procesu jest indywidualna, kreatywna i niedeterministyczna, oparta na języku komunikacja pomiędzy ludźmi jest ogromnie złożona i wieloznaczna. Dlatego z jednej strony możemy cieszyć się piękną poezją i świetnymi żartami, a z drugiej – doświadczać nieporozumień.
Specjaliści R&D pracujący nad przetwarzaniem języka naturalnego (NLP – Narutal Language Processing) często zmagają się z własnymi, czysto ludzkimi ograniczeniami. Nawet my miewamy bowiem trudności z jasną komunikacją ze współpracownikami czy członkami rodziny. Zatem jak inżynier znający 2 języki może wymyślić i zaprogramować system maszynowego tłumaczenia obejmujący 40 języków? Aby poradzić sobie z tym problemem, używamy technologii maszynowego uczenia się.
Podczas procesu zwanego „szkoleniem” na bazie przykładów z naszych zestawów danych automatycznie identyfikujemy ogólne wzorce i zapamiętujemy je w formie modelu. By stworzyć system maszynowego tłumaczenia, szkolimy sieć neuronową, by mapowała zdanie w różnych językach w oparciu o miliony przykładów, które wcześniej zebraliśmy i „oczyściliśmy”. Brzmi to łatwo, ale mamy tu do czynienia z trzema zasadniczymi trudnościami.
Pierwsza z nich wiąże się z opracowaniem odpowiedniej architektury modelu maszynowego uczenia się, która będzie w stanie zapamiętać i zgeneralizować wystarczająco wiele wzorców językowych dla danych aspektów, takich jak maszynowe tłumaczenie, analiza sentymentu czy podsumowanie tekstu.
Druga trudność dotyczy przygotowania wystarczającej ilości danych szkoleniowych, ponieważ systemy uczenia się maszynowego mogą rozpoznać i zapamiętać tylko wzorce zaprezentowane w szkoleniowym zbiorze danych.
Zaś ostatnia trudność ma związek z implementacją „przeszkolonego” modelu maszynowego uczenia się na dedykowanej chmurze bądź platformie znajdującej się w na urządzeniu.
Powyższym wyzwaniom stawiamy czoła, wykorzystując dogłębną ekspercką wiedzę naszych inżynierów i zaawansowane podejścia do zabierania danych, a także nieustannie eksperymentując z najnowszymi architekturami maszynowego uczenia się.
Pyt.: Czy możesz pokrótce przedstawić nam swój zespół ds. sztucznej inteligencji, centrum Samsung R&D Institute Poland (SRPOL), a także realizowane tam prace?
Odp.: SRPOL to jedno z największych międzynarodowych centrów badawczo-rozwojowych zajmujących się oprogramowaniem w Polsce. Mamy dwie lokalizacje: w Warszawie, stolicy kraju, oraz w Krakowie, który jest technologicznym hubem swojego regionu. Blisko współpracujemy z lokalnymi startupami, uniwersytetami i instytucjami badawczymi.
Misją zespołu ds. AI w SRPOL jest tworzenie opartych na sztucznej inteligencji funkcji, narzędzi i usług mogących uprościć i wzbogacić życie użytkowników. Skupiamy się głównie na dziedzinach NLP i Audio Intelligence, posiadamy jednak ekspercką wiedzę w zakresie wielu różnych zagadnień, w tym systemów rekomendacji, pozycjonowania wewnętrznego, analityki wizualnej czy rzeczywistości rozszerzonej.
Pyt.: Od 2018 roku jesteś w SRPOL szefem zespołu ds. sztucznej inteligencji, nadzorowałeś więc mnóstwo projektów zarówno z dziedziny NLP, jak i innych. Nad czym obecnie pracujesz ze swoim zespołem?
Odp.: Jeśli chodzi o NLP, kontynuujemy działania rozpoczęte ponad 10 lat temu wraz z opracowaniem rozwiązań takich jak tłumaczenie maszynowe, systemy dialogowe (w tym odpowiadające na pytania) i analityka tekstu. Pracujemy zarówno nad skalowalnymi, potężnymi usługami opartymi na chmurze, jak i nad szybkimi i działającymi offline aplikacjami na urządzenia.
Audio Intelligence to dla nas nowsza dziedzina. Kilka lat temu dostrzegliśmy, że jej znaczenie rośnie, postanowiliśmy więc bliżej ją zbadać. Obecnie pracujemy nad rozpoznawaniem, rozdzielaniem, wzmacnianiem i analizą dźwięku. Bierzemy tu pod uwagę wszystkie poziomy przetwarzania audio – od rozumienia środowiska akustycznego po szczegółowe dopracowywanie algorytmów dźwiękowych oferowanych przez urządzenia o bardzo niewielkich zasobach sprzętowych, takich jak bezprzewodowe słuchawki douszne.
Pyt.: W zakresie technologii skupiacie się m.in. na NLP, pozyskiwaniu tekstu i danych oraz Audio Intelligence. Czy Wasze badania w sposób bezpośredni wpłynęły na opracowanie konkretnych urządzeń bądź usług Samsung? Z jakich korzyści mogą cieszyć się użytkownicy dzięki Twojemu zespołowi?
Odp.: SRPOL od dawna komercjalizuje technologie AI, nie jest to jednak tylko nasza zasługa. Jesteśmy dumni, że stanowimy część większej całości, w ramach której SRPOL blisko współpracuje z innymi centrami R&D Samsung, by uczestniczyć w komercjalizacji.
Przyczyniliśmy się na przykład do opracowania kilku inteligentnych funkcji wprowadzania tekstu na urządzeniach mobilnych Samsung, w tym klawiatury ekranowej, funkcji hashtagu, rekomendacji tytułów Samsung Note i inteligentnych odpowiedzi tekstowych na smartwatchach.
Wnieśliśmy również wkład w system rekomendacji sklepu Galaxy, który sugeruje użytkownikom najciekawsze gry na podstawie ich preferencji.
Pyt.: Jako gorący zwolennik nowych dziedzin sztucznej inteligencji, takich jak Audio Intelligence, jakie zidentyfikowałbyś dziś w tej branży główne trendy? I jak ta technologia wpłynie na codzienność użytkowników?
Odp.: Uważam, że Audio Intelligence okaże się kolejnym przełomowym rozwiązaniem, które wpłynie na wszystkie urządzenia elektroniczne przeznaczone do indywidualnego użytku. Praca nad analityką audio jest niezwykle ważna – to brakujące ogniwo, które pozwoli stworzyć zaawansowane, prawdziwie skupione na ludziach systemy oparte na AI.
Potężne systemy NLP analizują intencje użytkownika wyrażane w formie tekstu pisanego bądź mówionego. Algorytmy rozpoznawania obrazów kryją się praktycznie w każdym aparacie fotograficznym i urządzeniu prezentującym treści wizualne. Większość z nas nie wyobraża już sobie prowadzenia samochodu bez nawigacji, pisania wiadomości bez korekty błędów czy wyszukiwania informacji bez użycia internetu. Jednak – z kilkoma wyjątkami w postaci zastosowań specjalistycznych – jak dotąd bardzo rzadko korzystamy z technologii inteligentnego rozpoznawania dźwięku, by udoskonalić nasz słuch. Myślę, że już niedługo to się zmieni.
Wyobraźmy sobie, że dysponujemy powszechnie dostępną technologią, która pozwala użytkownikom określić, co i jak chcą słyszeć. Na przykład podczas lunchu jedzonego z przyjacielem w parku zlokalizowanym w gwarnym centrum miasta moglibyśmy wybrać, że chcemy słyszeć jedynie dźwięki pochodzące z natury oraz głos osoby, z którą rozmawiamy. A teraz zwizualizujmy sobie zaawansowany system wirtualnej bądź rozszerzonej rzeczywistości, określany ostatnio mianem Metaverse, generujący wciągające, trójwymiarowe wrażenia audio bezpośrednio w głowie użytkownika. Już te dwa przykłady dają nam setki możliwych zastosowań, a to jeszcze nie koniec. Szansa na to, by słyszeć to, co obecnie niesłyszalne? Dziś ludzie słyszą tylko dźwięki mieszczące się w wąskim spektrum. Ale nasz świat pełen jest dźwięków, z którymi bieżące technologie AI zasadniczo nie mają do czynienia. Jestem przekonany, że rozwój Audio Intelligence sprawi, że wszystko to znacząco wpłynie na nasze życie.
▲ Badacze z Samsung R&D Institute Poland pracują nad technologią aktywnego wygłuszania hałasu (ANC – Active Noise Cancellation), wykorzystując symulator głowy i tułowia HATS w pomieszczeniu bezodbiciowym.
Pyt.: W jaki sposób wykorzystujecie bieżące trendy w badaniach prowadzonych w Samsung R&D Institute Poland?
Odp.: Poza działaniami w zakresie NLP i audio pracujemy też nad wynalezieniem najskuteczniejszych sposobów budowania prawdziwie multimodalnych systemów. W tym celu prowadzimy badania i analizujemy przypadki użycia z różnych perspektyw. Analiza taka jest możliwa dzięki naszemu zróżnicowanemu, interdyscyplinarnemu zespołowi, w skład którego wchodzą m.in. inżynierowie, lingwiści i naukowcy specjalizujący się w tematyce danych.
Pyt.: Co było Waszym największym jak dotąd osiągnięciem w SRPOL?
Odp.: Zdecydowanie nasze rozwiązanie umożliwiające tłumaczenie maszynowe. Przez pięć lat z rzędu zbierało laury na różnych konkursach: International Workshop on Spoken Language Translation (IWSLT) w latach 2017–2020, Workshop on Machine Translation (WMT) w roku 2020, a także Workshop on Asian Translation (WAT) w roku 2021. Zaliczają się one do najbardziej prestiżowych międzynarodowych konkursów w tej dziedzinie.
Szczególnie satysfakcjonujące było tegoroczne zwycięstwo na WAT, ponieważ dla nas – polskich inżynierów – dostosowanie rozwiązania do języków azjatyckich stanowiło początkowo nie lada wyzwanie. Nagroda ta dowodzi jednak prawdziwej potęgi tej technologii, która sprawdza się nie tylko podczas zwykłej demonstracji pokazowej.
Kolejnym osiągnięciem, z którego jestem bardzo dumny, jest prędkość wzrostu, jaką osiągnął zespół ds. Audio Intelligence i opracowana przez niego technologia. Choć zaczynaliśmy praktycznie od zera, wystarczyło kilka lat, abyśmy dwa lata z rzędu – w roku 2019 i 2020 – stawali na podium warsztatu Detection and Classification of Acoustic Scenes and Events. Opublikowaliśmy ponadto kilka artykułów naukowych i patentów w tej dziedzinie. Nie mam wątpliwości, że to dopiero początek sukcesów, jakie osiągniemy.
[Ku przyszłości dzięki badaniom Samsung]Ekspert ds. AI rozmawia z ekspertem z dziedziny uczenia się maszynUczenie się maszyn (ML – Machine Learning) to jeden z fundamentów, na których opierają się rozwiązania AI – do tego stopnia, że określeń „AI” i „ML” często używa się zamiennie. Zakładam, że także podczas opracowywania nowych algorytmów ML trzeba stawić czoła licznym wyzwaniom. Czy możesz opowiedzieć o niektórych innowacyjnych wyzwaniach i działaniach zmierzających do ich pokonania, z jakimi zetknąłeś się w swoim centrum badawczo-rozwojowym? |
W kolejnej części przedstawimy wywiad z Bin Dai, ekspertem od maszynowego uczenia się z Samsung Research Institute China w Pekinie.
W tematach związanych ze wsparciem dla produktów zapraszamy na stronę samsung.com/pl/support. Kontakt dla mediów: samsungmedia.pl/contacts.