The Learning Curve, parte 2: cómo crear una IA para las distintas variaciones del árabe

25-06-2024
Share open/close
URL copiada.

Historias de Oriente Medio sobre la complejidad de crear herramientas de IA para el árabe, un idioma con muchas facetas

Galaxy AI es ahora compatible con 16 idiomas, lo que ayuda a más personas a reducir las barreras lingüísticas con la traducción en tiempo real y en el dispositivo. Con estos avances Samsung abrió la puerta a una nueva era de la Inteligencia Artificial (IA) móvil, por lo que estamos visitando los centros de investigación de Samsung en todo el mundo para aprender cómo Galaxy AI cobró vida y lo que se necesitó para superar los desafíos del desarrollo de la IA. Mientras que la primera parte de la serie examinó la tarea de determinar qué datos se necesitan, esta entrega reflexiona sobre la compleja labor de tener en cuenta los dialectos. 

 

Enseñar un idioma a un modelo de IA es un proceso complejo, pero ¿y si no se trata de un idioma singular, sino de una recopilación de dialectos diferentes? Ese fue el reto al que se enfrentó el equipo de Samsung de Investigación y Desarrollo (I+D) Institute Jordan (SRJO). Aunque se añadió el “árabe” como opción de idioma para funciones de IA de Galaxy como Live Translate, el equipo tuvo que estudiar los distintos dialectos árabes que se extienden por Oriente Medio y el norte de África, cada uno de los cuales varía en pronunciación, vocabulario y gramática. 

 

El árabe es uno de los seis idiomas más hablados del mundo, utilizado a diario por más de 400 millones de personas [1]. El idioma se clasifica en dos formas: Fus’ha (árabe moderno estándar) y Ammiya (los dialectos del árabe). Fus’ha se utiliza normalmente en actos públicos y oficiales, así como en los informativos, mientras que Ammiya es más común en las conversaciones cotidianas. Más de 20 países utilizan el árabe y actualmente hay unos 30 dialectos en la región.  

 

 

Reglas no escritas 

El equipo del SRJO, consciente de las variantes que presentan estos dialectos, empleó una serie de técnicas para discernir y procesar los rasgos lingüísticos únicos, inherentes a cada uno de ellos. Este enfoque fue crucial para garantizar que Galaxy AI pudiera entender y responder de una forma que reflejara con precisión los matices regionales. 

 

A diferencia de otros idiomas, la pronunciación del objeto en árabe varía en función del sujeto y el verbo de la frase“, explica Mohammad Hamdan, jefe de proyecto del equipo de desarrollo del idioma árabe. “Nuestro objetivo es desarrollar un modelo que entienda todos estos dialectos y pueda responder en árabe estándar“. 

 

TTS es el componente de la función Live Translate de Galaxy AI, que permite a los usuarios interactuar con personas de diferentes idiomas traduciendo palabras habladas a texto escrito y reproduciéndolas después por voz. El equipo de TTS se enfrentó a un reto único debido a una peculiaridad de trabajar con el árabe. 

 

 

El árabe utiliza diacríticos, que son guías para la pronunciación de las palabras en algunos contextos, como textos religiosos, poesía y libros para estudiantes de idiomas. Los diacríticos son ampliamente comprendidos por los hablantes nativos, pero están ausentes en la escritura cotidiana. Esto dificulta que una máquina convierta el texto en bruto en fonemas, las unidades básicas de sonido que forman el habla. 

 

Faltan conjuntos de datos fiables y de alta calidad que representen con precisión el uso correcto de los diacríticos“, explica Haweeleh. “Teníamos que diseñar un modelo neuronal que pudiera predecir y restaurar esos diacríticos perdidos con gran precisión“. 

 

Los modelos neuronales funcionan de forma similar a los cerebros humanos. Para predecir los diacríticos, un modelo tiene que estudiar muchos textos árabes, aprender las reglas del idioma y entender cómo se usan las palabras en distintos contextos. Por ejemplo, la pronunciación de una palabra puede variar mucho según la acción o el género que describa. La exhaustiva capacitación del equipo fue la clave para mejorar la precisión del modelo TTS árabe. 

 

Mejorar la comprensión 

El equipo del SRJO también tuvo que recopilar distintas grabaciones de audio de los dialectos procedentes de varias fuentes, que hubo que transcribir, centrándose en los sonidos, palabras y frases únicos. “Reunimos a un equipo de nativos en los dialectos que conocían bien los matices y variantes“, dice Ayah Hasan, cuyo equipo se encargó de la creación de la base de datos. “Escuchaban las grabaciones y convertían manualmente las palabras habladas en texto“.  

 

 

Este trabajo fue fundamental para mejorar el proceso de reconocimiento automático del habla (ASR) de modo que Galaxy AI pudiera manejar la gran variedad de dialectos árabes. ASR es fundamental para que Galaxy AI pueda comprender y responder en tiempo real. 

 

Construir un sistema ASR que admita varios dialectos en un único modelo es una empresa compleja“, afirma Mohammad Hamdan, responsable de ASR en el proyecto. “Exige un conocimiento profundo de las complejidades del idioma, una cuidadosa selección de datos y técnicas avanzadas de modelado“.  

 

 

La culminación de la innovación 

Tras meses de planificación, construcción y pruebas, el equipo estaba listo para lanzar el árabe como opción lingüística para Galaxy AI, lo que permitiría a muchas más personas comunicarse más allá de las fronteras. Este equipo único consiguió que los servicios de IA de Galaxy estén disponibles para los que hablan árabe, reduciendo las barreras lingüísticas y culturales entre ellos y las personas de todo el mundo. Al hacerlo, estableció nuevas buenas prácticas que se pueden extender a todo el mundo. Este éxito es sólo el principio: el equipo sigue perfeccionando sus modelos y mejorando la calidad de las capacidades lingüísticas de Galaxy AI. 

 

 

En el próximo episodio, iremos a Vietnam para ver cómo se mejoran los datos lingüísticos. Además, ¿qué se necesita para entrenar un modelo de IA eficaz?  

 

El árabe es uno de los idiomas y dialectos disponibles con Galaxy AI y que se pueden descargar desde la aplicación Ajustes. Las funciones lingüísticas de Galaxy AI, como Traducción Simultánea e Intérprete, están disponibles en los dispositivos Galaxy que cuentan con la actualización One UI 6.1 de Samsung[2].  

 

 

[1] UNESCO, Día Mundial de la Lengua Árabe 2023, https://www.unesco.org/en/world-arabic-language-day 

[2] One UI 6.1 se lanzó por primera vez en los dispositivos de la serie Galaxy S24 con un despliegue más amplio a otros dispositivos Galaxy incluyendo las series S23, S23 FE, S22, S21, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Flip4, Z Flip3, Tab S9 y Tab S8. 

 

Para cualquier tema relacionado con servicio al cliente, por favor ingresa a samsung.com/mx/support. para recibir asistencia.
Para cualquier petición relevante a medios, favor de contactar a prensa.mex@samsung.com.

Revise las últimas historias sobre Samsung

Aprende más
Inicio