Oʻrganish sikli, 3-qism: AI maʼlumotlarini yaxshidan aʼlo darajaga olib chiqish

30/05/2024
Share open/close
Havola nusxalandi.

Vyetnamdagi Samsung Research kompaniyasi hayot sifatini yanada yaxshilash uchun mobil sunʼiy intellektni qoʻllab-quvvatlovchi odamlar va innovatsiyalar haqidagi toʻplamning bir qismidir.

 

 

Samsung premium mobil AI sohasining kashfiyotchisidir. Galaxy AI foydalanuvchilar salohiyatini qanday oshirayotganini bilish uchun biz butun dunyo boʻylab Samsung tadqiqot markazlariga tashrif buyurmoqdamiz. Hozirda 16 ta tilni qoʻllab-quvvatlaydigan Galaxy AI Live Translate Jonli Tarjima), Interpreter (Og’zaki Tarjima), Note Assist (Eslatma Yordami) va Browsing Assist (Ko’rib chiqish yordami) kabi funksiyalarning qurilma ichida tarjima qilish imkoni tufayli koʻplab odamlar hatto oflayn rejimda ham til toʻsiqlarini yengib oʻtmoqda. Biz yaqinda Iordaniyaga tashrif buyurib, koʻplab dialektlarga ega boʻlgan arab tili uchun sunʼiy intellekt modelini ishlab chiqish qanchalik murakkab ekanligini tushundik. Bu safar biz AI modellarini oʻqitishda foydalaniladigan maʼlumotlar qanday tayyorlanishini oʻrganish uchun Vyetnamga yoʻl olamiz.

 

Vyetnam tilida arvoh, qabr va ona soʻzlari oʻrtasida qanchalik farq bor? Dunyo boʻylab 97 million kishi foydalanadigan til sifatida deyarli hech qancha. Har bir soʻz mos ravishda “ma”, “mả” va “má” deb yoziladi va faqat ohanglar bilan farqlanishi mumkin. Bu esa sunʼiy intellekt modellari uchun til oʻrganish qanchalik qiyin ekanligini koʻrsatadi, chunki ular suhbatlardagi kontekst, his-tuygʻular va niyatlarni bevosita aniqlay olmaydi.

 

Samsung R&D Institute Vietnam (SRV) oʻzining sunʼiy intellekt modeliga tildagi eng nozik farqlarni ham toʻgʻri aniqlay olishi uchun uchun puxta qayta ishlangan maʼlumotlardan foydalangan.

 

Ishlatiladigan maʼlumotlar sifati nutqni avtomatik aniqlash (ASR), neyron mashina tarjimasi (NMT) va matndan nutqqa oʻgirish (TTS) funksiyalari aniqligiga bevosita taʼsir qiladi. Oʻz oʻrnida bular til toʻsiqlarini yengishga yordam beruvchi Live Translate, Interpreter, Chat Assist va Browsing kabi Galaxy AI funksiyalarning tashkiliy qismlaridir.

 

Toʻfondek qiyinchiliklarni yengib

 

“Vyetnam tili murakkab va serqirra til boʻlib, u turli ifodalarga boydir. Ularning koʻpini ilgʻay olish qiyin”, deydi Ngô Hồng Thái, SRV’dagi NMT rahbari. Galaxy AI qoʻllab-quvvatlaydigan 16 ta tildan Vyetnam tilini ishlab chiqish eng qiyini edi.

 

 

“Shaxsan, Vyetnamliklar uchun sunʼiy intellekt modelini yaratish mamlakatimizdagi tayfunlardan-da tahlikali edi!”, deya yaratish jarayonida duch kelgan toʻsiqlarni tushuntirishdan oldin qoʻshimcha qilib.

 

 

Vyetnam tili — olti xil ohangga ega tonal tildir. Yuqoridagi “ma” misolida koʻrinib turganidek, vokalizatsiyadagi kichik nyuanslar soʻzlarning maʼnosini keskin oʻzgartirib yuborishi mumkin. Shuning uchun bunga ehtiyotkorlik va puxta yondashuv zarur edi.

 

“Oʻxshash tovushli soʻzlar boʻlaklarga boʻlinganda, bir soʻz bir nechta qisqa boʻlaklardan yoki ‘freymlar toʻplamidan’ iborat boʻladi”, deydi SRV’dagi ASR rahbari Bui Ngoc Tung. “AI modeli maʼlum bir ketma-ket freymlar toʻplamiga qaysi soʻzlar mos kelishini aniqlash uchun taxminan 20 millisekundlik qisqa audio boʻlaklarni farqlaydi. Shu sababli sunʼiy intellektni oʻrgatish jarayonining dastlabki bosqichlarida katta kuch sarflash juda muhim”.

 

 

Bundan tashqari, omofonlar va omonimlar vyetnam tilida keng tarqalgan. Odamlar odatda bir xil tovushli yoki yozilishi bir xil, ammo turli maʼnoga ega boʻlgan soʻzlarni farqlash uchun suhbatlarda kontekst va noverbal elementlarga tayanishi mumkin. Biroq AI modellariga ohanglar va shunga oʻxshash soʻzlarni yuqori aniqlik bilan tanish va farqlashni oʻrgatish kerak.

 

“Bu oddiy vazifa emas”, deb tushuntiradi Thái. “Maʼlumot miqdoridan tashqari, vyetnam tilida mavjud boʻlgan lingvistik nyuanslarni farqlay olishi uchun maʼlumot aniq va sifatli ham boʻlishi kerak”.

 

 

Qattiq tayyorgarlik

 

Maʼlumotlarni qayta ishlash jarayoni uch bosqichdan iborat. Avvalo AI modelini oʻrgatish uchun ishlatiladigan audio va matnni koʻrib chiqish va tuzatish kerak. Soʻng ushbu maʼlumotlar toʻplami umumiy sifat tekshiruvi uchun turli xil testlardan oʻtadi. Nihoyat maʼlumotlar toʻplamini oʻrgatishda foydalanishdan oldin u normallashtiriladi va tozalanadi.

 

 

“Biz maʼlumotlar toʻplamining qanchalik aniqligini tekshirish uchun uni bir qator sinovlardan oʻtkazdik”, deydi maʼlumotlar omborini yaratishni nazorat qiluvchi SRV’dagi TTS rahbari Nguyen Manh Duy. “Biz bir qator kutilmagan muammolarga duch keldik. Jumladan, skriptdagi imloviy xato yozilgan soʻzlar, fon shovqini yoki audio yozuvlar paytidagi notoʻgʻri talaffuzlar. Biz oʻquv maʼlumotlarimizni toʻgʻrilab chiqish va takomillashtirishga koʻp vaqt sarfladik”.

 

 

Vyetnam tilidagi noyob lingvistik masalalarga qoʻshimcha sifatida, keng tarqalgan tillarga qaraganda unda foydalanish uchun ochiq universal manbalarning yetishmasligi toʻsiq boʻlib turardi. “Mana nega maʼlumotlarni toʻgʻrilab chiqish bosqichi juda muhim hisoblanadi”, deya qoʻshimcha qiladi u. “Bizda manbalar cheklanganligi tufayli har bir maʼlumot toʻliq ishonchli boʻlishi kerak edi. Xato qilishga haqqimiz yoʻq edi”.

 

 

Bundan tashqari, vyetnam tili uchun AI modeli ham tonal, ham mintaqaviy farqlarni hisobga olishi kerak. AI modelining aniqligini oshirish uchun jamoa tilning shimoliy, markaziy va janubiy aksentlari bilan katta hajmdagi maʼlumotlarni toʻpladi. Natijada tekshirib, toʻgʻrilab chiqish kerak boʻlgan maʼlumotlar hajmi o‘ta ulkan bo‘lib ketdi.

 

 

Uzluksiz takomillashtirish

 

SRV ishlab chiquvchilari bir necha oylik mashaqqatli mehnatdan soʻng loyihani yakunladilar va vyetnam tili Galaxy AI tomonidan dastlab qoʻllab-quvvatlanadigan tillardan biriga aylandi. Ushbu muvaffaqiyatga qaramay, jamoa Galaxy AI’dagi vyetnam tilini takomillashtirish ustida tinimsiz ishlamoqda.

 

“Biz foydalanuvchilarning Galaxy AI’dagi soʻz va iboralarning qanchalik toʻgʻri ekanligi haqidagi fikr-mulohazalarini hisobga olgan holda sunʼiy intellekt modelini takomillashtirishda davom etmoqdamiz”, deydi SRV’dagi AI tilini rivojlantirish loyihasi rahbari Tran Tuan Minh. “Biz bu yangi AI dunyosiga endigina birinchi qadamni tashladik va birgalikda bu dunyoni oʻrganish chogʻida koʻplab yangi ilmlarni kashf etishga ishonchimiz komil”.

 

 

“Oʻrganish sikli” toʻplamining navbatdagi sonida biz AI modellari qanday oʻqitilishi va sozlanishi bilan tanishish uchun Xitoyga tashrif buyuramiz.

Qurilmalar > Mobil

Korporativ > Texnologiyalar

Mijozlarga xizmat koʻrsatishga aloqador har qanday masala boʻyicha yordam uchun https://www.samsung.com/uz_uz/info/contactus/ ga kiring.
Media fayllar soʻrovi boʻyicha u.nargiza@samsung.com ga kiring.

Samsung haqidagi oxirgi maqolalar bilan tanishing

Batafsil
Yuqoriga