Productos > Celulares y Accesorios

Materiales de prensa > Comunicados

Corporativo > Tecnología e Innovación

¿Cómo crear una IA para distintos dialectos?

02-07-2024
COMPARTIR

Cuentos de Oriente Medio sobre la complejidad de crear herramientas de IA para el árabe, un idioma con muchas facetas

Galaxy AI es ahora compatible en 16 idiomas, lo que ayuda a más personas a reducir las barreras lingüísticas con la traducción en tiempo real y en el dispositivo.

 

 

Samsung abrió la puerta a una nueva era de la IA móvil, así como la de sus centros de investigación en todo el mundo para aprender cómo Galaxy AI cobró vida y lo que se necesitó para superar los desafíos del desarrollo de la IA.

 

Enseñar un idioma a un modelo de IA es un proceso complejo, pero ¿y si no se trata de un idioma singular, sino de una recopilación de dialectos diferentes? Ese fue el reto al que se enfrentó el equipo de Samsung I+D Institute Jordan (SRJO).

 

Aunque se añadió el “árabe” como opción de idioma para funciones de IA de Galaxy como Traducción Simultánea, el equipo tuvo que atender los distintos dialectos árabes que se extienden por Oriente Medio y el norte de África, cada uno de los cuales varía en pronunciación, vocabulario y gramática.

 

El árabe es uno de los seis idiomas más hablados del mundo, utilizado a diario por más de 400 millones de personas[1]. El idioma se clasifica en dos formas: Fus’ha (árabe moderno estándar) y Ammiya (los dialectos del árabe). Fus’ha se utiliza normalmente en actos públicos y oficiales, así como en los informativos, mientras que Ammiya es más común en las conversaciones cotidianas. Más de 20 países utilizan el árabe, y actualmente hay unos 30 dialectos en la región.

 

Reglas no escritas

El equipo del SRJO, consciente de las variantes que presentan estos dialectos, empleó una serie de técnicas para discernir y procesar los rasgos lingüísticos únicos inherentes a cada uno de ellos. Este enfoque fue crucial para garantizar que Galaxy AI pudiera entender y responder de una forma que reflejara con precisión los matices regionales.

 

“A diferencia de otros idiomas, la pronunciación del objeto en árabe varía en función del sujeto y el verbo de la frase. Nuestro objetivo es desarrollar un modelo que entienda todos estos dialectos y pueda responder en árabe estándar”, explica Mohammad Hamdan, jefe de proyecto del equipo de desarrollo del idioma árabe.

 

 

TTS es el componente de la función Traducción Simultánea de Galaxy AI que permite a los usuarios interactuar con personas de diferentes idiomas traduciendo palabras habladas a texto escrito y reproduciéndolas después por voz. El equipo de TTS se enfrentó a un reto único, causado por una peculiaridad del trabajo con el árabe.

 

El árabe utiliza diacríticos, que son guías para la pronunciación de las palabras en algunos contextos, como textos religiosos, poesía y libros para estudiantes de idiomas. Los diacríticos son ampliamente comprendidos por los parlantes nativos, pero están ausentes en la escritura cotidiana. Esto dificulta que una máquina convierta el texto en bruto en fonemas, las unidades básicas de sonido que forman el habla.

 

“Faltan conjuntos de datos fiables y de alta calidad que representen con precisión el uso correcto de los diacríticos. Teníamos que diseñar un modelo neuronal que pudiera predecir y restaurar esos diacríticos perdidos con gran precisión”, explica Haweeleh.

 

Los modelos neuronales funcionan de forma similar al cerebro humano. Para predecir los diacríticos, un modelo tiene que estudiar muchos textos árabes, aprender las reglas del idioma y entender cómo se usan las palabras en distintos contextos. Por ejemplo, la pronunciación de una palabra puede variar mucho según la acción o el género que describa. La exhaustiva capacitación del equipo fue clave para mejorar la precisión del modelo.

 

Mejorar la comprensión

El equipo del SRJO también tuvo que recopilar distintas grabaciones de audio de los dialectos procedentes de varias fuentes, que hubo que transcribir, centrándose en los sonidos, palabras y frases únicos. “Reunimos a un equipo de nativos en los dialectos que conocían bien los matices y variantes. Escuchaban las grabaciones y convertían manualmente las palabras habladas en texto”, dice Ayah Hasan, cuyo equipo se encargó de la creación de la base de datos.

 

 

Este trabajo fue fundamental para mejorar el proceso de reconocimiento automático del habla (ASR) de modo que Galaxy AI pudiera manejar la rica variedad de dialectos árabes. ASR es fundamental para que Galaxy AI pueda comprender y responder en tiempo real.

 

“Construir un sistema ASR que admita varios dialectos en un único modelo es una empresa compleja. Exige un conocimiento profundo de las complejidades del idioma, una cuidadosa selección de datos y técnicas avanzadas de modelado”, afirma Mohammad Hamdan, responsable de ASR en el proyecto.

 

La culminación de la innovación

Tras meses de planificación, construcción y pruebas, el equipo estaba listo para lanzar el árabe como opción lingüística para Galaxy AI, lo que permitiría a muchas más personas comunicarse más allá de las fronteras. Este único equipo ha conseguido que los servicios de IA de Galaxy sean accesibles para los que hablan árabe, reduciendo las barreras lingüísticas y culturales entre ellos y las personas de todo el mundo. Al hacerlo, han establecido nuevas buenas prácticas que se pueden extender a todo el mundo. Este éxito es sólo el principio: el equipo sigue perfeccionando sus modelos y mejorando la calidad de las capacidades lingüísticas de Galaxy AI.

 

 

[El árabe es solo una parte de los idiomas y dialectos que admite Galaxy AI y que se pueden descargar desde la aplicación Ajustes. Las funciones lingüísticas de Galaxy AI, como Traducción Simultánea e Intérprete, están disponibles en los dispositivos Galaxy que ejecutan la actualización One UI 6.1 de Samsung[2].]

 

 

[1] UNESCO, Día Mundial de la Lengua Árabe 2023, https://www.unesco.org/en/world-arabic-language-day
[2] One UI 6.1 se lanzó por primera vez en los dispositivos de la serie Galaxy S24 con un despliegue más amplio a otros dispositivos Galaxy incluyendo las series S23, S23 FE, S22, S21, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Flip4, Z Flip3, Tab S9 y Tab S8

Para temas relacionados a servicio de atención al cliente, por favor ingrese a samsung.com/co/support
Para consultas sobre medios y prensa, favor de contactar a colombia.pr@samsung.com.

Mapa del sitio

Inicio