[Recopilación] The Learning Curve: cómo los Institutos de Investigación y Desarrollo de Samsung de todo el mundo trabajaron en Galaxy AI

15-08-2024
Share open/close
URL copiada.

 Galaxy AI ya ha ayudado a millones de usuarios de todo el mundo a conectarse y comunicarse. Las funciones de inteligencia artificial (AI) en el dispositivo basadas en grandes modelos lingüísticos (LLM), como Live Translate, Interpreter, Note Assist y Browsing Assist (Asistente de navegación) — son compatibles con 16 idiomas, a los que se sumarán otros cuatro a finales de este año. 

 

El proceso de creación de funciones lingüísticas para Galaxy AI requirió mucho tiempo y esfuerzo, ya que cada idioma presenta una estructura y cultura única. En este contexto, investigadores de Samsung de todo el mundo (Brasil, China, India, Indonesia, Japón, Jordania, Polonia y Vietnam) compartieron los retos y los logros del desarrollo de Galaxy AI. A continuación, Samsung Newsroom muestra un resumen de estas historias.  

 

Desarrollo de un modelo de traducción 

Las funciones de Galaxy AI, como Live Translate, realizan tres procesos básicos: reconocimiento automático de voz (ASR), traducción automática neuronal (NMT) y conversión de texto a voz (TTS). 

  

▲ El reconocimiento automático del habla (ASR), la traducción automática neuronal (NMT) y la conversión de texto a voz (TTS) requieren distintos conjuntos de información para su entrenamiento.

 

El Instituto de Investigación y Desarrollo de Samsung de Vietnam (SRV) se enfrentó a obstáculos con los modelos de reconocimiento automático del habla (ASR) porque el vietnamita es un idioma con seis tonos distintos. Los idiomas con tonos pueden ser difíciles de reconocer para la AI debido a la complejidad que los tonos añaden a los matices lingüísticos. SRV respondió al reto con un modelo que diferencia entre fotogramas de audio más cortos, de unos 20 milisegundos. 

  

El Instituto de Investigación y Desarrollo de Samsung de Polonia (SRPOL) se enfrentó al gigantesco reto de entrenar modelos de traducción automática neural (NMT) para un continente tan variado como Europa. Aprovechando su amplia experiencia en proyectos que abarcan más de 30 idiomas en cuatro zonas horarias, SRPOL fue capaz de sortear la dificultad de traducir ciertas frases y manejar expresiones idiomáticas que pueden no tener equivalentes directos en otros idiomas. 

  

El Instituto de Investigación y Desarrollo de Samsung de Jordania (SRJO) adaptó el árabe (que se habla en más de 20 países en unos 30 dialectos) para Galaxy AI. Crear un modelo de texto a voz (TTS) no fue tarea fácil, ya que los diacríticos y las guías de pronunciación son ampliamente comprendidos por los hablantes nativos de árabe, pero están ausentes en la escritura. Basándose en un sofisticado modelo de predicción de los diacríticos ausentes, SRJO pudo crear un modelo lingüístico que entiende los dialectos y puede responder en árabe estándar. 

 

La importancia de la data 

A lo largo del proceso de adaptación de Galaxy AI en cada idioma, un tema general fue la importancia de una colaboración abierta con instituciones locales. La calidad de los datos utilizados impacta directamente a la precisión del ASR, NMT y TTS. Por eso, Samsung trabajó con varios socios para obtener y revisar datos que reflejaran la jerga, los dialectos y otras variantes de cada región. 

 

▲ Cada idioma tiene sus propias cualidades, que dificultan la creación de un modelo lingüístico de inteligencia artificial. En el caso de lenguas tonales como el vietnamita, los tonos aumentan la complejidad.

 

El Instituto de Investigación y Desarrollo de Samsung en India-Bangalore (SRI-B) colaboró con el Instituto de Tecnología de Vellore para obtener casi un millón de líneas de datos de audio segmentados y procesados sobre conversaciones, palabras y comandos. Los estudiantes obtuvieron experiencia práctica en un proyecto de la vida real, así como la guía de expertos de Samsung; el basto número de datos ayudó a SRI-B a entrenar Galaxy AI en hindi, cubriendo más de 20 dialectos regionales y sus respectivas inflexiones de tono, puntuación y expresiones coloquiales. 

  

Para el modelo del español latinoamericano era imprescindible contar con conocimientos lingüísticos locales, ya que la variedad del idioma se refleja en la diversidad de su base de usuarios. Por ejemplo, la palabra piscina puede ser alberca (México), piscina (Colombia, Bolivia, Venezuela) o pileta (Argentina, Paraguay, Uruguay) según la región de la que una persona sea originaria. El Instituto Samsung de Investigación y Desarrollo de Brasil (SRBR) trabajó con los institutos de ciencia y tecnología SiDi y Sidia para recopilar y gestionar cantidades masivas de datos, así como para perfeccionar y mejorar las fuentes de audio y texto para el modelo de español latinoamericano de Galaxy AI. 

  

El Instituto Samsung de Investigación y Desarrollo de China-Pekín (SRC-B) y el Instituto de Investigación y Desarrollo Samsung China-Guangzhou (SRC-G) se asociaron con las empresas chinas Baidu y Meitu para aprovechar su experiencia en el desarrollo de grandes modelos lingüísticos (LLM) como ERNIE Bot y MiracleVision, respectivamente. Como resultado, Galaxy AI admite los dos modos principales de chino mandarín y cantonés. 

  

Además de la cooperación externa, también fueron fundamentales la diligencia debida y los recursos internos. 

  

El bahasa indonesio es un idioma famoso por su amplio uso de significados contextuales e implícitos que se basan en claves sociales y situacionales. Los investigadores del Instituto Samsung de Investigación y Desarrollo de Indonesia (SRIN) salieron a grabar conversaciones en cafeterías y entornos de trabajo para captar ruidos ambientales auténticos que pudieran distorsionar la entrada de datos. Esto ayudó al modelo a aprender a reconocer la información necesaria a partir de la entrada verbal, mejorando en última instancia la precisión del reconocimiento del habla. 

  

En el japonés hay muchos homónimos, ya que el número de sonidos es limitado. Por lo tanto, muchas palabras se deben determinar en función del contexto. El Instituto Samsung de Investigación y Desarrollo de Japón (SRJ) utilizó Samsung Gauss, el LLM interno de la empresa, que estructura oraciones contextuales con palabras o frases relevantes para cada escenario para ayudar al modelo de IA a diferenciar entre homónimos. 

    

Red mundial de investigación de Samsung 

Los profesionales de varios institutos de Investigación y Desarrollo de Samsung aprovecharon al máximo la red mundial de investigación de Samsung. 

  

Antes de abordar el hindi, SRI-B colaboró con equipos de todo el mundo para desarrollar modelos lingüísticos de AI para el inglés británico, indio y australiano, así como para el tailandés, el vietnamita y el indonesio. Ingenieros de otros centros de investigación de Samsung visitaron Bangalore (India) para llevar el vietnamita, el tailandés y el indonesio a Galaxy AI. 

  

▲ Personal y colaboradores posan delante del Samsung I+D Institute India-Bangalore (SRI-B)

 

SRPOL tenía una amplia experiencia en el desarrollo de modelos ASR, NMT y TTS para una gran variedad de idiomas. SRPOL, protagonista clave en la expansión lingüística de Galaxy AI, colaboró en todos los continentes para apoyar SRJO con dialectos árabes y SRBR con portugués brasileño y español latinoamericano. 

  

Los desarrolladores de Samsung en cada uno de estos lugares aprendieron a colaborar a través de fronteras y husos horarios. Los desarrolladores de SRIN incluso observaron las costumbres locales de ayuno en India cuando se reunieron con sus colegas de SRI-B. Muchos reflexionaron sobre su trabajo con orgullo y gratitud, dándose cuenta del impacto duradero que este proyecto tiene en el idioma, la cultura, el patrimonio y la identidad. 

 

Esfuerzos continuos a medida que avanza el proceso 

Recientemente Samsung presentó Galaxy AI en sus últimos dispositivos plegables y portátiles. Desde su lanzamiento a principios de este año, Galaxy AI ya se ha utilizado en más de 100 millones de dispositivos. “Esperamos alcanzar los 200 millones de dispositivos a finales de 2024”, declaró Won-joon Choi, Vicepresidente Ejecutivo y Director de la Oficina de Investigación y Desarrollo de Móviles, Mobile eXperience Business de Samsung Electronics, en un reciente panel. 

  

En medio de esta misión de ampliar el acceso a la AI, es importante mirar atrás y celebrar los logros y avances que han llevado a proporcionar esta tecnología segura e inclusiva que beneficiará a la humanidad y mejorará vidas. Al construir el ecosistema Galaxy AI con aún más funciones, idiomas y variantes regionales, Samsung está facilitando los intercambios interculturales de una forma que no tiene precedentes para hacer realidad su visión de AI para Todos. 

Para cualquier tema relacionado con servicio al cliente, por favor ingresa a samsung.com/mx/support. para recibir asistencia.
Para cualquier petición relevante a medios, favor de contactar a prensa.mex@samsung.com.

Revise las últimas historias sobre Samsung

Aprende más
Inicio