[Hacia el futuro con Samsung Research ②] Instituto de I&D de Samsung en Polonia: la creación de tecnologías impulsadas por Inteligencia Artificial para brindar un nuevo mundo de conveniencia
Continúa del Episodio 1
En esta serie, Samsung Newsroom presenta a expertos en tecnología de los centros de I&D de Samsung en todo el mundo para conocer más sobre el trabajo que realizan y las formas en las que están mejorando directamente la vida de los consumidores.
El segundo experto de la serie es Lukasz Slabinski, Líder del Equipo de Inteligencia Artificial del Instituto de I&D de Samsung de Polonia (SRPOL). Slabinski se incorporó a SRPOL en 2013 como Ingeniero Sénior y, tras ocho años de trabajo dedicado, ahora dirige el Equipo de IA del instituto. Continúa leyendo para saber más sobre la emocionante innovación con la que Slabinski y su equipo están involucrados en SRPOL.
Se sabe que diseñar soluciones para el campo del reconocimiento de voz es muy complejo. Al trabajar en tecnologías relacionadas con el lenguaje, ¿qué desafíos han encontrado y cómo los han superado?
R: En mi opinión, las tecnologías relacionadas con el lenguaje son mucho más complejas que cualquier otra. La humanidad se comunica en casi 7.000 idiomas en constante evolución y están subdivididos en un sinfín de acentos y dialectos. Además, el lenguaje humano es menos objetivo que una imagen, la cual puede describirse en fórmulas matemáticas. Las personas codifican sus pensamientos como un conjunto de sonidos o caracteres en un mensaje, que luego debe ser decodificado e interpretado por otros. Debido a que cada fase de este proceso es personal, creativa y no determinista, la comunicación humana basada en el lenguaje es muy compleja y ambigua. Así, por un lado, podemos disfrutar de hermosas poesías y chistes divertidos, y por otro, sufrir ocasionalmente con malentendidos.
Las personas de I&D que trabajan en el Procesamiento del Lenguaje Natural (NLP) a menudo alcanzan sus propias limitaciones humanas. Incluso nos encontramos con problemas para comunicarnos claramente con los compañeros en el trabajo o la familia en casa. Entonces, ¿cómo un ingeniero que habla dos idiomas puede diseñar y codificar un sistema de traducción automática para 40 idiomas diferentes? Resolvemos esta paradoja utilizando tecnologías de aprendizaje automático.
Durante el proceso conocido como “entrenamiento”, automáticamente extraemos estándares generales basados en ejemplos de nuestros conjuntos de datos y los memorizamos en forma de modelo. Para construir un sistema de traducción automática, entrenamos a una red neuronal para mapear una oración en diferentes idiomas con base en millones de ejemplos, todos cuidadosamente recopilados y refinados de antemano. Suena fácil, pero aquí nos enfrentamos a tres desafíos fundamentales.
El primero es el diseño de una arquitectura de modelo de aprendizaje automático adecuada capaz de memorizar y generalizar suficientes estándares de lenguaje para problemas determinados, como traducción automática, análisis de sentimientos, resumen de texto y otros.
El segundo desafío es la preparación de una cantidad suficiente de datos de entrenamiento, ya que los sistemas de aprendizaje automático pueden reconocer y memorizar sólo los estándares presentados en el conjunto de datos de entrenamiento.
El reto final es la implementación de un modelo de aprendizaje automático ya capacitado en una nube dedicada o en una plataforma en el dispositivo.
Abordamos estos desafíos aprovechando la vasta experiencia de nuestros ingenieros, los enfoques sofisticados para la recopilación de datos y mediante la constante experimentación con las arquitecturas de aprendizaje automático de última generación.
P: ¿Podría presentar brevemente a su Equipo de IA, el Instituto de I&D de Samsung en Polonia (SRPOL) y el tipo de trabajo que se lleva a cabo allí?
R: El SRPOL es uno de los centros internacionales de I&D de software más grandes de Polonia. Está ubicado en dos ciudades: Varsovia, la capital de Polonia, y Cracovia, que es un importante centro tecnológico en su región. Colaboramos estrechamente con startups, universidades e instituciones de investigación locales.
La misión del Equipo de IA en SRPOL es crear funciones, herramientas y servicios basados en IA capaces de facilitar y enriquecer vidas humanas. Nos centramos en las áreas de NLP e Inteligencia de Audio, pero también poseemos experiencia en muchas especialidades diferentes, incluyendo los sistemas de recomendación, el posicionamiento en interiores, el análisis visual y la realidad aumentada (AR).
P: Como Líder del Equipo de IA del Instituto de Polonia desde 2018, ha supervisado una gran cantidad de proyectos con y sin el enfoque de NLP. ¿En qué está trabajando ahora con su equipo?
R: Con respecto al área de NLP, continuamos nuestra trayectoria que comenzó hace más de 10 años con el desarrollo de sistemas como la Traducción Automática y los Sistemas de Diálogo, incluida la Respuesta a Preguntas y el Análisis de Texto. Trabajamos tanto en servicios escalables y potentes basados en la nube como en aplicaciones de dispositivos que funcionan rápidamente y sin conexión.
Inteligencia de audio es un área más novedosa para nosotros. Comenzamos a enfocar nuestras capacidades de investigación en este rubro hace varios años, pues ha comenzado a ganar importancia. Actualmente trabajamos en el reconocimiento, separación, mejora y análisis de sonido. Durante nuestro trabajo, tenemos en cuenta todos los niveles de procesamiento de audio, desde la comprensión de la escena acústica hasta el ajuste fino de los algoritmos de audio integrados en dispositivos con recursos de hardware muy limitados, como los audífonos inalámbricos.
P: Sus enfoques tecnológicos incluyen NLP, la extracción de datos y texto, inteligencia de audio y más. ¿Su investigación ha impactado directamente el desarrollo de algún producto o servicio específico de Samsung? ¿Qué beneficio la contribución de su equipo ha llegado a los usuarios?
R: El SRPOL tiene un largo historial de comercialización de tecnologías de IA, pero no las hicimos solos. Estamos orgullosos de ser parte de un panorama más amplio, en el que SRPOL trabaja en estrecha colaboración con otros centros de I&D de Samsung y contribuye a la comercialización.
Por ejemplo, hemos contribuido al desarrollo de varias funciones de entrada de texto inteligente para los dispositivos móviles de Samsung, incluyendo el teclado en pantalla, la función de hashtag, la recomendación de título de Samsung Notes y las respuestas de texto inteligente en smartwatches.
También hemos contribuido al Sistema de Recomendación de Galaxy Store, que sugiere los juegos más interesantes según las preferencias del usuario.
P: Como defensor de los nuevos campos de IA, como la inteligencia de audio, ¿cuáles considera como las principales tendencias dentro de su industria en este momento? ¿Cómo esta tecnología afectará a la vida diaria de las personas?
R: Creo que la inteligencia de audio será el próximo actor de cambio para todos los dispositivos electrónicos de consumo. Trabajar en análisis de audio es extremadamente importante, ya que es la parte que falta en los sistemas avanzados basados en IA verdaderamente centrados en el ser humano.
Los potentes sistemas de Procesamiento del Lenguaje Natural (NLP por sus siglas en inglés) analizan la intención que el usuario expresa por texto y voz, mientras que los algoritmos de visión por computadora están detrás de casi todas las cámaras y la salida de contenido visual. Para la mayoría de nosotros, es difícil imaginarse conduciendo un automóvil sin navegación, escribiendo un mensaje sin correctores ortográficos o buscando información sin Internet. Sin embargo, a excepción de algunas aplicaciones profesionales, hasta ahora, rara vez usamos tecnología de audio inteligente para mejorar nuestra audición. En mi opinión, esto cambiará pronto.
Imaginemos que tenemos una tecnología ampliamente disponible que permite a las personas seleccionar qué y cómo quieren escuchar. Por ejemplo, durante un almuerzo con un amigo en un parque ubicado en un concurrido centro de la ciudad, alguien podría elegir escuchar solo los sonidos de la naturaleza y la persona con la que está hablando. Igualmente, pensemos en un sistema avanzado de realidad virtual (RV) o realidad aumentada (RA), recientemente denominado Metaverso, que crea una experiencia de audio 3D inmersiva directamente en la cabeza de las personas. Solo estos dos conceptos generan cientos de nuevos casos de uso posibles, pero vayamos más allá. ¿Qué tal escuchar cosas que actualmente son inaudibles para la gente? Ahora los humanos solo pueden escuchar un espectro reducido de sonidos diferentes. Nuestro mundo está lleno de sonidos significativos en los que, en su mayor parte, las tecnologías de IA actuales no están involucradas. Creo que el desarrollo de las tecnologías de inteligencia de audio afectará enormemente la vida de las personas.
P: ¿Cómo ha incorporado las tendencias actuales en la investigación que realiza en el Instituto de I&D de Samsung en Polonia?
R: Aparte del NPL y el audio, también estamos trabajando para encontrar las formas más efectivas de construir sistemas verdaderamente multimodales. Para ello, iniciamos con la investigación y el análisis de casos de uso desde diferentes perspectivas. Dicho análisis es posible gracias a nuestro equipo diverso e interdisciplinario que está integrado por ingenieros, lingüistas, científicos de datos y más.
P: ¿Cuál ha sido su logro más importante en SRPOL hasta ahora?
R: Sería nuestra solución de Traducción Automática. Nuestra solución ha recibido varios premios en concursos durante cinco años consecutivos: el Taller Internacional sobre Traducción de Lenguas Habladas (IWSLT) de 2017 a 2020; el Taller sobre Traducción Automática (WMT) en 2020; y el Taller sobre Traducción Asiática (WAT) en 2021. Estos se encuentran entre los concursos internacionales más prestigiosos en nuestro campo.
Ganar el reconocimiento en WAT este año fue un hito particularmente satisfactorio, ya que desarrollar nuestra solución para los idiomas asiáticos fue en principio una hazaña difícil para nosotros como ingenieros polacos, pero este logro ha demostrado el verdadero poder de nuestra tecnología, que va más allá de una simple demostración.
Otra meta de la que estoy muy orgulloso es la velocidad de crecimiento que ha logrado el equipo de inteligencia de audio y su desarrollo tecnológico. En solo unos años, después de comenzar prácticamente desde cero, logramos estar en el podio del taller sobre Detección y Clasificación de Escenas y Eventos Acústicos durante dos años consecutivos, 2019 y 2020. También publicamos varios artículos científicos y patentes en esta área. Estoy seguro de que este es solo el comienzo de nuestras actividades prolíficas en este campo.
En el siguiente episodio de esta serie se podrá consultar una entrevista con Bin Dai, un experto en aprendizaje automático del Instituto de Investigación de Samsung, Instituto de China – Beijing.
Corporativo > Tecnología e Innovación
Para cualquier tema relacionado con servicio al cliente, por favor ingresa a samsung.com/mx/support. para recibir asistencia.
Para cualquier petición relevante a medios, favor de contactar a prensa.mex@samsung.com.