Corporativo > Tecnología
The Learning Curve, parte 2: Cómo crear una IA para distintos dialectos
https://bit.ly/3WPXG2O
Registrado a ►Costa Rica ►Ecuador ►El Salvador ►Guatemala ►Honduras ►Nicaragua ►Panamá ►Puerto Rico ►República Dominicana ►Venezuela
Cuentos de Oriente Medio sobre la complejidad de crear herramientas de IA para el árabe, un idioma con muchas facetas
Galaxy AI es ahora compatible con 16 idiomas, lo que ayuda a más personas a reducir las barreras lingüísticas con la traducción en tiempo real y en el dispositivo. Samsung abrió la puerta a una nueva era de la IA móvil, por lo que estamos visitando los centros de investigación de Samsung en todo el mundo para aprender cómo Galaxy AI cobró vida y lo que se necesitó para superar los desafíos del desarrollo de la IA. Mientras que la primera parte de la serie examina la tarea de determinar qué datos se necesitan, esta entrega analiza la compleja tarea de tener en cuenta los dialectos.
Enseñar un idioma a un modelo de IA es un proceso complejo, pero ¿y si no se trata de un idioma singular, sino de una recopilación de dialectos diferentes? Ese fue el reto al que se enfrentó el equipo de Samsung I+D Institute Jordan (SRJO). Aunque se añadió el “árabe” como opción de idioma para funciones de IA de Galaxy como Live Traslate, el equipo tuvo que atender a los distintos dialectos árabes que se extienden por Oriente Medio y el norte de África, cada uno de los cuales varía en pronunciación, vocabulario y gramática.
El árabe es uno de los seis idiomas más hablados del mundo, utilizado a diario por más de 400 millones de personas[1]. El idioma se clasifica en dos formas: Fus’ha (árabe moderno estándar) y Ammiya (los dialectos del árabe). Fus’ha se utiliza normalmente en actos públicos y oficiales, así como en los informativos, mientras que Ammiya es más común en las conversaciones cotidianas. Más de 20 países utilizan el árabe, y actualmente hay unos 30 dialectos en la región.
Reglas no escritas
El equipo del SRJO, consciente de las variantes que presentan estos dialectos, empleó una serie de técnicas para discernir y procesar los rasgos lingüísticos únicos inherentes a cada uno de ellos. Este enfoque fue crucial para garantizar que Galaxy AI pudiera entender y responder de una forma que reflejara con precisión los matices regionales.
“A diferencia de otros idiomas, la pronunciación del objeto en árabe varía en función del sujeto y el verbo de la frase”, explica Mohammad Hamdan, jefe de proyecto del equipo de desarrollo del idioma árabe. “Nuestro objetivo es desarrollar un modelo que entienda todos estos dialectos y pueda responder en árabe estándar”.
TTS es el componente de la función Live Traslate de Galaxy AI que permite a los usuarios interactuar con personas de diferentes idiomas traduciendo palabras habladas a texto escrito y reproduciéndolas después por voz. El equipo de TTS se enfrentó a un reto único, causado por una peculiaridad del trabajo con el árabe.
El árabe utiliza diacríticos, que son guías para la pronunciación de las palabras en algunos contextos, como textos religiosos, poesía y libros para estudiantes de idiomas. Los diacríticos son ampliamente comprendidos por los parlantes nativos, pero están ausentes en la escritura cotidiana. Esto dificulta que una máquina convierta el texto en bruto en fonemas, las unidades básicas de sonido que forman el habla.
“Faltan conjuntos de datos fiables y de alta calidad que representen con precisión el uso correcto de los diacríticos”, explica Haweeleh. “Teníamos que diseñar un modelo neuronal que pudiera predecir y restaurar esos diacríticos perdidos con gran precisión”.
Los modelos neuronales funcionan de forma similar a los cerebros humanos. Para predecir los diacríticos, un modelo tiene que estudiar muchos textos árabes, aprender las reglas del idioma y entender cómo se usan las palabras en distintos contextos. Por ejemplo, la pronunciación de una palabra puede variar mucho según la acción o el género que describa. La exhaustiva capacitación del equipo fue la clave para mejorar la precisión del modelo TTS árabe.
Mejorar la comprensión
El equipo del SRJO también tuvo que recopilar distintas grabaciones de audio de los dialectos procedentes de varias fuentes, que hubo que transcribir, centrándose en los sonidos, palabras y frases únicos. “Reunimos a un equipo de nativos en los dialectos que conocían bien los matices y variantes”, dice Ayah Hasan, cuyo equipo se encargó de la creación de la base de datos. “Escuchaban las grabaciones y convertían manualmente las palabras habladas en texto”.
Este trabajo fue fundamental para mejorar el proceso de reconocimiento automático del habla (ASR) de modo que Galaxy AI pudiera manejar la rica variedad de dialectos árabes. ASR es fundamental para que Galaxy AI pueda comprender y responder en tiempo real.
“Construir un sistema ASR que admita varios dialectos en un único modelo es una empresa compleja”, afirma Mohammad Hamdan, responsable de ASR en el proyecto. “Exige un conocimiento profundo de las complejidades del idioma, una cuidadosa selección de datos y técnicas avanzadas de modelado”.
La culminación de la innovación
Tras meses de planificación, construcción y pruebas, el equipo estaba listo para lanzar el árabe como opción lingüística para Galaxy AI, lo que permitiría a muchas más personas comunicarse más allá de las fronteras. Este único equipo ha conseguido que los servicios de IA de Galaxy sean accesibles para los que hablan árabe, reduciendo las barreras lingüísticas y culturales entre ellos y las personas de todo el mundo. Al hacerlo, han establecido nuevas buenas prácticas que se pueden extender a todo el mundo. Este éxito es sólo el principio: el equipo sigue perfeccionando sus modelos y mejorando la calidad de las capacidades lingüísticas de Galaxy AI.
En el próximo episodio, iremos a Vietnam para ver cómo el equipo mejora los datos lingüísticos. Además, ¿qué se necesita para entrenar un modelo de IA eficaz?
El árabe es solo una parte de los idiomas y dialectos que admite Galaxy AI y que se pueden descargar desde la aplicación Ajustes. Las funciones lingüísticas de Galaxy AI, como Live Traslate e Interpreter, están disponibles en los dispositivos Galaxy que ejecutan la actualización One UI 6.1 de Samsung[2].
[1] UNESCO, Día Mundial de la Lengua Árabe 2023, https://www.unesco.org/en/world-arabic-language-day
[2] One UI 6.1 se lanzó por primera vez en los dispositivos de la serie Galaxy S24 con un despliegue más amplio a otros dispositivos Galaxy incluyendo las series S23, S23 FE, S22, S21, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Flip4, Z Flip3, Tab S9 y Tab S8
Para cualquier problema relacionado con servicio al cliente, por favor comuníquese a samsung.com/latin/info/contactus para obtener ayuda. Para consultas de medios, por favor contacte a prensa.sela@samsung.com.