Қиғаштап оқыту, 1 бөлім: Неліктен ЖИ-тің жаңа тілдерге оқытуы мәліметтерден басталады?
Samsung компаниясының Индонезиядағы зерттеулері – мобильді ЖИ демократиялаудың артында тұрған адамдар және инновациялар туралы мақалар сериясының бір бөлігі.
Samsung жасанды интеллектпен бірге бірінші дәрежелі мобильдік құрылғыларды жасап шығаруды жалғастырып жатқан уақытта, біз Samsung-тың барлық әлем бойынша зерттеу орталықтарына Galaxy AI тұтынушылардың көптеген бөлігіне өзінің қабылетін кеңінен ашуға мүмкіндік беріп жатқанын білу үшін барамыз. Galaxy AI -да енді 16 тіл қолданыста, сондықтан енді бұрынғыға қарағанда көп адам өзінің тілдік мүмкіндіктерінің аясын құрылғыдағы Live Translate, Interpreter, Note Assist және Browsing Assist секілді функциялардың арқасында аударманы автономды тәртіпте кеңейте алады. Бірақ ЖИ тілін дайындауға тағы не кіреді? Бұл серияда біз мобильді ЖИ жұмыс істеуіндегі қиындықтарды және оларды шешу әдістерін қарастыратын боламыз. Алдымен біз ЖИ жаңа тілге оқыту неден басталатынын білу үшін Индонезияға аттанамыз.
Samsung R&D Institute Indonesia (SRIN) командасының пікірі бойынша, алғашқы қадам-мақсаттарды айқындау. «Өте жақсы ЖИ сапалы және орынды мәліметтерден басталады. Әр тіл өзінің жеке өңдеуін талап етеді, сондықтан біз тілдік ортаға біздің елдің тілдік қажеттіліктерін және бірегей шарттарын түсіну үшін тереңінен енеміз», – Джунайдилла Фадлил (Junaidillah Fadlil), SRIN ЖИ бөлімінің басшысы, оның командасы жақында Galaxy AI -ға индонезия тілін қолдауды қосты. «Жергілікті тілдерді дамыту түйсік және ғылымның басшылығмен орын алуы тиіс, сол себепті Galaxy AI-ға тілдерді қосудың әр процесі, қандай ақпарат бізге керек және қайсысын біз заңды және этикалық жолмен ала аламыз деген жоспарлаудан басталады».
Galaxy AI -дың Live Translate секілді функциялары, негізгі үш процесті: сөйлеуді автоматты тануды (ASR), нейромашиналық аударманы (NMT) және мәтінді сөйлеуге түрлендіруді (TTS) орындайды. Әр процесс ақпаратты бөлек теруді талап етеді.
ASR, мысалы, олардың әрқайсысы мәтіннің нақты транскрипциясымен жүретін әртүрлі жағдайлардағы сөйлеудің кең жазбаларын талап етеді. Фондық шу деңгейін вариациялау қоршаған ортаның әртүрлі жағдайларын ескеруге мүмкіндік береді. «Жазбаларға шуларды қоса салу жеткіліксіз», – деп түсіндіреді ASR тобының басшысы Мучлисин Ади Сапутра (Muchlisin Adi Saputra). «Авторландырылған бөгде тараптардан біз алатын тілдік мәліметтерге қосымша, бізге өз дауыстарымызды жазу үшін кофеханалар және жұмыс орындарына шығуға тура келеді. Бұл бізге мысалы, адамдардың дауыстары немесе пернетақтаның тарсылы секілді, нақты өмірдегі бірегей дыбыстарды дәлме-дәл жеткізуге мүмкіндік береді».
Сонымен бірге тілдердің үнемі өзгеріп отыратын табиғатын ескеру қажет. Сапутра: «Біз жаңа сленг және оның қалай қолданылатындығы туралы хабардар болуымыз керек, және біз оны көбінесе әлеуметтік желілерден табамыз!»,- деп қосып қойды.
Бұдан әрі NMT аудармаға оқыту үшін мәліметтер керек болады. «Индонезия тіліне аудару- күрделі тапсырма», дейді NMT тобының басшысы Мухамад Файсал (Muhamad Faisal). «Ол әлеуметтік және жағдаяттық еске түсірулерге сүйене отырып, контекстік және айқын емес мағыналарды кең қолданады, сол себепті бізге оларда ЖИ жаңа, шет тілдерін, меншіктік зат есімдерін және идиомаларды- ЖИ мән мәтінді және тілдесу тәртібін түсінуге көмектесетін, кез-келген ақпаратты іздей алатын көптеген аударылған мәтіндер қажет».
TTS үшін сөздердің бөліктері әртүрлі жағдайларда естілетіндігі туралы қосалқы мән мәтінмен, дауыстар және үндер диапазонын қамтитын жазбалар талап етіледі. «Дауыстың жақсы жазбасы жұмыстың жарты бөлігін жасай алады және ЖИ үлгісі үшін барлық қажетті фонемаларды (сөз сөйлеудегі дыбыс бірлігі) жаба алады», – TTS тобының басшысы Харитс Абдуррохман (Harits Abdurrohman). «Егер дыбыстау актері алдыңғы кезеңдегі өз жұмысын жақсы орындаған болса, нақты сөздердің анық айтылуы үшін ЖИ үлгісін жетілдіруге назар аударылады».
Бірге күштірек
Мәліметтердің үлкен көлемін жоспарлау үшін орасан зор ресурстар талап етіледі, сондықтан SRIN лингвистика саласындағы сарапшылармен тығыз жұмыс істеп келеді. «Бұл мәселе шығармашылық тәсілдемені, өнертапқыштықты және индонезия тілі саласында да және сондай-ақ машиналық оқыту саласында да білімді талап етеді», –деп ойлайды Фадлил. «Samsung-тың ашық серіктестік философиясы, және біздің қызметтің ауқымы және ЖИ даму тарихы секілді қойылған мақсатқа жетуде үлкен рөл атқарды».
Бар әлем бойынша Samsung компаниясының басқа зерттеу орталықтарымен жұмыс істей отыра, SRIN командасы үздік тәжірибені жылдам үйрене алды және мақсатты мәліметтерді жасаумен байланысты қиыншылықарды жеңе алды. Одан бөлек, серіктестік технологияның ғана емес және мәдениеттің дамуына жағдай жасады. SRIN командасы Бангалор, Үндістандағы өздерінің әріптестеріне қосылған кезде, тереңірек байланыстарды жасай отыра және өздерінің әртүрлі мәдениеттер туралы түсінігін кеңейте отыра, олар жергілікті ғибадаттық салттарды бақылады.
Команда үшін Galaxy AI тілін кеңейту бойынша жоба жаңа мағынаға ие болды. «Бұл біздің ЖИ саласындағы алғашқы жобамыз болғандықтан, біз өзіміздің жетістіктерімізді ерекше мақтан етеміз, және біз өзіміздің үлгілерді жетілдіруді және нәтижелердің сапаларын жақсартуды жалғастыратын болғандықтан, бұл соңғы болып қалмайды», – деп Фадлил қорытындылады. «Бұл кеңейту біздің ашықтық құндылықтарымызды көрсетіп қана қоймай, сонымен бірге тіл арқылы біздің мәдениеттік өзіндік ерекшелігімізді құрметтейді және ескереді».
The Learning Curve бағдарламасының келесі шығарылымында біз араб тілін зерттеу бойынша Galaxy AI жобасын басқаратын командамен әңгімелесу үшін Иорданиядағы Samsung-тың ғылыми-зерттеу институтына аттанамыз. Әртүрлі диалектерден тұратын тіл үшін ЖИ үлгісін жасау және үйретудің қиындылықтары туралы білетін боламыз.
Компанияның жаңалықтары > Технологиялар
Өнімдер > Ұялы құрылғылар
Сервистік қызмет көрсетуге байланысты туындаған кез келген сұрақтар бойынша samsung.com/kz_kz/support сайтына хабарласуыңызды сұраймыз.
БАҚ өкілдерімен ынтымақтастық сұрақтары бойынша info.kz@samsung.com сайтына жазуыңызды сұраймыз.