[Entrevista] La tecnología detrás de la inteligencia de nivel nube en la IA en el dispositivo
En las películas clásicas de ciencia ficción, la IA solía representarse como imponentes sistemas informáticos o servidores masivos. Hoy, es una tecnología cotidiana, accesible al instante en los dispositivos que las personas sostienen en sus manos. Samsung Electronics amplía el uso de IA en el dispositivo (on-device AI) a través de productos como smartphones y electrodomésticos, lo que permite que la IA funcione localmente, sin depender de servidores externos ni de la nube, para ofrecer experiencias más rápidas y seguras.
A diferencia de los sistemas basados en servidor, los entornos en el dispositivo operan con limitaciones estrictas de memoria y capacidad de cómputo. Por ello, reducir el tamaño del modelo de IA y maximizar la eficiencia de ejecución resulta fundamental. Para superar este desafío, el Centro de IA de Samsung Research lidera el desarrollo de tecnologías esenciales, que abarcan desde la compresión de modelos y la optimización de software hasta el diseño de nuevas arquitecturas.
Samsung Newsroom conversó con el Dr. MyungJoo Ham, Master del AI Center en Samsung Research, para analizar el futuro de la IA en el dispositivo y las tecnologías de optimización que la hacen posible.

▲ Dr. MyungJoo Ham.
El primer paso hacia la IA en el dispositivo
En el corazón de la IA generativa, que interpreta el lenguaje del usuario y produce respuestas naturales, se encuentran los grandes modelos de lenguaje (Large Language Models, LLMs). El primer paso para habilitar la IA en el dispositivo consiste en comprimir y optimizar estos modelos masivos para que se ejecuten correctamente en celulares u otros dispositivos portátiles.
“Ejecutar un modelo altamente avanzado que realiza miles de millones de cálculos directamente en un smartphone o una laptop agotaría rápidamente la batería, aumentaría la temperatura y ralentizaría los tiempos de respuesta, lo que degradaría notablemente la experiencia del usuario”, dijo el Dr. Ham. “La tecnología de compresión de modelos se desarrolló para resolver estos problemas”.
Los LLMs realizan cálculos mediante representaciones numéricas sumamente complejas. La compresión de modelos simplifica estos valores en formatos enteros más eficientes mediante un proceso denominado cuantificación. “Es como comprimir una foto de alta resolución para reducir el tamaño del archivo sin perder calidad visual apreciable”, detalló. “Por ejemplo, convertir cálculos de punto flotante de 32 bits a enteros de 8 bits o incluso de 4 bits disminuye significativamente el uso de memoria y la carga computacional, lo que acelera los tiempos de respuesta”.

▲ La compresión del modelo cuantifica los pesos del modelo para reducir el tamaño, aumentar la velocidad de procesamiento y mantener el rendimiento.
Una caída en la precisión numérica durante la cuantificación puede afectar la precisión general de un modelo. Para equilibrar la velocidad y la calidad del rendimiento, Samsung Research desarrolla algoritmos y herramientas que miden y calibran cuidadosamente el desempeño después del proceso de compresión.
“El objetivo de la compresión de modelos no es solo reducir su tamaño, sino mantenerlos rápidos y precisos”, explicó el Dr. Ham. “Mediante algoritmos de optimización, analizamos la función de pérdida del modelo durante la compresión y lo reentrenamos hasta que sus resultados se mantienen cerca de los originales, corrigiendo las áreas con errores significativos. Como cada peso del modelo tiene un nivel diferente de importancia, preservamos con mayor precisión los pesos críticos y comprimimos de forma más agresiva los menos relevantes. Este enfoque maximiza la eficiencia sin comprometer la precisión”.
Además de desarrollar la tecnología de compresión de modelos en su fase de prototipo, Samsung Research la adapta y aplica a productos reales, como smartphones y electrodomésticos. “Cada modelo de dispositivo tiene una arquitectura de memoria y un perfil de cómputo propios, por lo que un enfoque genérico no puede ofrecer un rendimiento de IA equivalente al de la nube”, señaló. “A través de una investigación orientada al producto, diseñamos nuestros propios algoritmos de compresión para mejorar las experiencias de IA que los usuarios perciben directamente en sus manos”.
El motor oculto que impulsa el rendimiento de la IA
Incluso con un modelo bien comprimido, la experiencia del usuario depende, en última instancia, de cómo se ejecuta en el dispositivo. Samsung Research desarrolla un motor de tiempo de ejecución de IA (AI runtime engine) que optimiza el uso de la memoria y los recursos de cómputo del dispositivo durante la ejecución.
“El tiempo de ejecución de IA es, esencialmente, la unidad de control del motor del modelo”, explicó el Dr. Ham. “Cuando un modelo se ejecuta en varios procesadores, como la unidad central de procesamiento (CPU), la unidad de procesamiento de gráficos (GPU) y la unidad de procesamiento neuronal (NPU), el tiempo de ejecución asigna automáticamente cada operación al chip más adecuado y reduce al mínimo el acceso a la memoria para aumentar el rendimiento general de la IA”.
El tiempo de ejecución de IA también permite que modelos más grandes y complejos se ejecuten a la misma velocidad en el mismo dispositivo. Esto reduce la latencia de respuesta y mejora la calidad general de la IA, al ofrecer resultados más precisos, conversaciones más naturales y procesamiento de imágenes más detallado.
“Los mayores cuellos de botella en la IA en el dispositivo son el ancho de banda de la memoria y la velocidad de acceso al almacenamiento”, señaló. “Estamos desarrollando técnicas de optimización que equilibran de forma inteligente la memoria y la capacidad de cómputo”. Por ejemplo, cargar solo los datos necesarios en cada momento, en lugar de mantener todo en memoria, aumenta la eficiencia. “Samsung Research ya cuenta con la capacidad de ejecutar un modelo generativo de 30 mil millones de parámetros, que normalmente supera los 16 GB de tamaño, en menos de 3 GB de memoria”, destacó.

▲ El software de tiempo de ejecución de IA predice cuándo se producen los cálculos de peso para minimizar el uso de memoria y aumentar la velocidad de procesamiento.
La próxima generación de arquitecturas de odelos de IA
La investigación sobre arquitecturas de modelos de IA, los planos fundamentales de los sistemas de inteligencia artificial, también muestra un avance significativo. “Debido a que los entornos en el dispositivo tienen memoria y recursos de cómputo limitados, es necesario rediseñar las estructuras de los modelos para que operen de forma eficiente en el hardware”, explicó el Dr. Ham. “Nuestra investigación en arquitectura se enfoca en crear modelos que maximicen la eficiencia del hardware”. En resumen, el objetivo es construir arquitecturas compatibles con el dispositivo desde cero, de modo que el modelo y el hardware trabajen en armonía desde el principio.
Entrenar LLMs requiere una inversión considerable de tiempo y recursos, y una estructura mal diseñada puede aumentar aún más esos costos. Para reducir las ineficiencias, Samsung Research evalúa el rendimiento del hardware con anticipación y diseña arquitecturas optimizadas antes de iniciar el entrenamiento. “En la era de la IA en el dispositivo, la clave de la ventaja competitiva radica en cuánta eficiencia se puede obtener de los mismos recursos de hardware”, señaló. “Nuestro objetivo es alcanzar el nivel más alto de inteligencia dentro del chip más pequeño posible: esa es la dirección técnica que seguimos”.
Hoy, la mayoría de los LLMs se basan en la arquitectura transformer. Los transformers analizan una oración completa para determinar las relaciones entre las palabras, un método eficaz para comprender el contexto, aunque con una limitación clave: las demandas computacionales aumentan drásticamente a medida que las oraciones se vuelven más extensas. “Estamos explorando una amplia variedad de enfoques para superar estas limitaciones, evaluando cada uno según su eficiencia en entornos de dispositivos reales”, explicó el Dr. Ham. “Nos enfocamos no solo en mejorar los métodos actuales, sino también en desarrollar la próxima generación de arquitecturas basadas en metodologías completamente nuevas”.

▲ La investigación sobre optimización arquitectónica transfiere el conocimiento de un modelo grande a uno más pequeño, mejorando la eficiencia computacional y manteniendo el rendimiento.
El camino a seguir para la IA en el dispositivo
¿Cuál es el desafío más crítico para el futuro de la IA en el dispositivo? “Alcanzar un rendimiento equivalente al de la nube directamente en el dispositivo”, respondió el Dr. Ham. Para hacerlo posible, la optimización del modelo y la eficiencia del hardware deben trabajar de forma conjunta para ofrecer una IA rápida y precisa, incluso sin conexión de red. “Mejorar simultáneamente la velocidad, la precisión y la eficiencia energética será aún más importante en el futuro”, agregó.

Los avances en la IA en el dispositivo permiten que los usuarios disfruten de experiencias rápidas, seguras y altamente personalizadas, en cualquier momento y lugar. “La IA mejorará su capacidad de aprendizaje en tiempo real dentro del dispositivo y su adaptación al entorno de cada usuario”, afirmó el Dr. Ham. “El futuro radica en ofrecer servicios naturales e individualizados, al mismo tiempo que se protege la privacidad de los datos”.
Samsung continúa ampliando los límites de la innovación para ofrecer experiencias más avanzadas impulsadas por IA en el dispositivo optimizada. Con estos esfuerzos, la compañía busca proporcionar interacciones más fluidas, intuitivas y memorables para cada usuario.
Corporativo > Tecnología e Innovación
Para cualquier tema relacionado con servicio al cliente, por favor ingresa a samsung.com/mx/support. para recibir asistencia.
Para cualquier petición relevante a medios, favor de contactar a prensa.mex@samsung.com.