Samsung presenta TRUEBench: un benchmark para medir la productividad real de la AI

26-09-2025

COMPARTIR Share open/close

Share open/close

URL copiada.

El benchmark propietario respalda escenarios multilingües de productividad y soluciona las limitaciones de los benchmarks de AI existentes

Samsung Electronics presentó hoy TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), un benchmark propietario desarrollado por Samsung Research para evaluar la productividad de la AI.

TRUEBench ofrece un conjunto integral de métricas para medir cómo los Modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se desempeñan en aplicaciones reales de productividad en el lugar de trabajo. Para garantizar una evaluación realista, incorpora diversos escenarios de diálogo y condiciones multilingües.

Basado en el uso interno de AI de Samsung para la productividad, TRUEBench evalúa tareas empresariales de uso común, como generación de contenido, análisis de datos, resumen y traducción en 10 categorías y 46 subcategorías. El benchmark asegura una puntuación confiable mediante evaluación automática impulsada por AI, con criterios diseñados y refinados de manera colaborativa por humanos e inteligencia artificial.

“Samsung Research aporta una profunda experiencia y una ventaja competitiva gracias a su conocimiento en AI aplicada al mundo real”, afirmó Paul (Kyungwhoon) Cheun, CTO de la División DX de Samsung Electronics y director de Samsung Research. “Esperamos que TRUEBench establezca estándares de evaluación para la productividad y consolide el liderazgo tecnológico de Samsung”.

Recientemente, a medida que las empresas adoptan la AI para sus tareas, ha aumentado la demanda de métricas que midan la productividad de los LLMs. Sin embargo, los benchmarks existentes miden principalmente el desempeño general, se centran en el inglés y se limitan a estructuras de preguntas y respuestas de una sola interacción. Esta limitación reduce su capacidad de reflejar entornos laborales reales.

Para abordar estas limitaciones, TRUEBench está compuesto por un total de 2.485 conjuntos de prueba en 10 categorías y 12 idiomas [1], además de incluir escenarios interlingüísticos. Los conjuntos de prueba evalúan lo que los modelos de A realmente pueden resolver, y Samsung Research aplicó pruebas que van desde apenas 8 caracteres hasta más de 20.000 caracteres, lo que refleja tareas que abarcan desde solicitudes simples hasta resúmenes extensos de documentos.

Para evaluar el rendimiento de los modelos de inteligencia artificial, resulta esencial contar con criterios claros que determinen si las respuestas son correctas. En situaciones reales, no todas las intenciones del usuario se expresan de forma explícita en las instrucciones. TRUEBench está diseñado para permitir una evaluación realista al considerar no solo la exactitud de las respuestas, sino también condiciones detalladas que atienden las necesidades implícitas de los usuarios.

Samsung Research verificó los ítems de evaluación mediante un proceso de colaboración entre humanos e inteligencia artificial. En primer lugar, los anotadores humanos crean los criterios de evaluación; posteriormente, la AI los revisa para detectar errores, contradicciones o restricciones innecesarias. Luego, los anotadores humanos refinan nuevamente los criterios y repiten este proceso para aplicar estándares de evaluación cada vez más precisos. Con base en estos criterios verificados de manera cruzada, la evaluación automática de los modelos de inteligencia artificial se lleva a cabo minimizando el sesgo subjetivo y garantizando la consistencia. Además, para cada prueba, todas las condiciones deben cumplirse para que el modelo apruebe. Esto asegura una puntuación más detallada y precisa en todas las tareas.

Las muestras de datos y los rankings de TRUEBench están disponibles en la plataforma global de código abierto Hugging Face, lo que permite a los usuarios comparar hasta cinco modelos y obtener una visión integral del rendimiento de los modelos de AI de un solo vistazo. También se publican datos sobre la longitud promedio de las respuestas, lo que facilita la comparación simultánea del rendimiento y la eficiencia. La información detallada está disponible en la página de TRUEBench en Hugging Face: https://huggingface.co/spaces/SamsungResearch/TRUEBench.

1 Chino, inglés, francés, alemán, italiano, japonés, coreano, polaco, portugués, ruso, español y vietnamita.

TAGSAI Large Language Model TRUEBench Trustworthy Real-world Usage Evaluation Benchmark

Para cualquier tema relacionado con servicio al cliente, por favor ingresa a samsung.com/mx/support. para recibir asistencia.
Para cualquier petición relevante a medios, favor de contactar a prensa.mex@samsung.com.