<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet title="XSL_formatting" type="text/xsl" href="https://news.samsung.com/mx/wp-content/plugins/btr_rss/btr_rss.xsl"?><rss version="2.0"
     xmlns:content="http://purl.org/rss/1.0/modules/content/"
     xmlns:wfw="http://wellformedweb.org/CommentAPI/"
     xmlns:dc="http://purl.org/dc/elements/1.1/"
     xmlns:atom="http://www.w3.org/2005/Atom"
     xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
     xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>
	<channel>
		<title>TRUEBench &#8211; Samsung Newsroom México</title>
		<atom:link href="https://news.samsung.com/mx/tag/truebench/feed" rel="self" type="application/rss+xml" />
		<link>https://news.samsung.com/mx</link>
        <image>
            <url>https://img.global.news.samsung.com/image/newlogo/logo_samsung-newsroom_mx.png</url>
            <title>TRUEBench &#8211; Samsung Newsroom México</title>
            <link>https://news.samsung.com/mx</link>
        </image>
        <currentYear>2025</currentYear>
        <cssFile>https://news.samsung.com/mx/wp-content/plugins/btr_rss/btr_rss_xsl.css</cssFile>
		<description>What's New on Samsung Newsroom</description>
		<lastBuildDate>Mon, 20 Apr 2026 18:37:18 +0000</lastBuildDate>
		<language>en-US</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
					<item>
				<title>Samsung presenta TRUEBench: un benchmark para medir la productividad real de la AI</title>
				<link>https://news.samsung.com/mx/samsung-presenta-truebench-un-benchmark-para-medir-la-productividad-real-de-la-ai?utm_source=rss&amp;utm_medium=direct</link>
				<pubDate>Fri, 26 Sep 2025 13:06:07 +0000</pubDate>
						<category><![CDATA[Tecnología e Innovación]]></category>
		<category><![CDATA[AI]]></category>
		<category><![CDATA[Large Language Model]]></category>
		<category><![CDATA[TRUEBench]]></category>
		<category><![CDATA[Trustworthy Real-world Usage Evaluation Benchmark]]></category>
                <guid isPermaLink="false">https://bit.ly/3IiEiXr</guid>
									<description><![CDATA[&#160; Samsung Electronics presentó hoy TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), un benchmark propietario desarrollado por Samsung]]></description>
																<content:encoded><![CDATA[<p><img class="alignnone size-full wp-image-39787" src="https://img.global.news.samsung.com/mx/wp-content/uploads/2025/09/Samsung-Corporate-Technology-Samsung-Research-TRUEBench_main1.jpg" alt="" width="1000" height="536" srcset="https://img.global.news.samsung.com/mx/wp-content/uploads/2025/09/Samsung-Corporate-Technology-Samsung-Research-TRUEBench_main1.jpg 1000w, https://img.global.news.samsung.com/mx/wp-content/uploads/2025/09/Samsung-Corporate-Technology-Samsung-Research-TRUEBench_main1-768x412.jpg 768w" sizes="(max-width: 1000px) 100vw, 1000px" /></p>
<p>&nbsp;</p>
<p><span data-contrast="auto">Samsung Electronics presentó hoy TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), un benchmark propietario desarrollado por Samsung Research para evaluar la productividad de la AI.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p>&nbsp;</p>
<p><span data-contrast="auto">TRUEBench ofrece un conjunto integral de métricas para medir cómo los Modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se desempeñan en aplicaciones reales de productividad en el lugar de trabajo. Para garantizar una evaluación realista, incorpora diversos escenarios de diálogo y condiciones multilingües.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p>&nbsp;</p>
<p><span data-contrast="auto">Basado en el uso interno de AI de Samsung para la productividad, TRUEBench evalúa tareas empresariales de uso común, como generación de contenido, análisis de datos, resumen y traducción en 10 categorías y 46 subcategorías. El benchmark asegura una puntuación confiable mediante evaluación automática impulsada por AI, con criterios diseñados y refinados de manera colaborativa por humanos e inteligencia artificial.  </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p>&nbsp;</p>
<p><i><span data-contrast="auto">“Samsung Research aporta una profunda experiencia y una ventaja competitiva gracias a su conocimiento en AI aplicada al mundo real”</span></i><span data-contrast="auto">, afirmó Paul (Kyungwhoon) Cheun, CTO de la División DX de Samsung Electronics y director de Samsung Research. </span><i><span data-contrast="auto">“Esperamos que TRUEBench establezca estándares de evaluación para la productividad y consolide el liderazgo tecnológico de Samsung”</span></i><span data-contrast="auto">.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p>&nbsp;</p>
<p><span data-contrast="auto">Recientemente, a medida que las empresas adoptan la AI para sus tareas, ha aumentado la demanda de métricas que midan la productividad de los LLMs. Sin embargo, los benchmarks existentes miden principalmente el desempeño general, se centran en el inglés y se limitan a estructuras de preguntas y respuestas de una sola interacción. Esta limitación reduce su capacidad de reflejar entornos laborales reales. </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p>&nbsp;</p>
<p><span data-contrast="auto">Para abordar estas limitaciones, TRUEBench está compuesto por un total de 2.485 conjuntos de prueba en 10 categorías y 12 </span><span data-contrast="auto">idiomas [</span><span data-contrast="auto">1</span><span data-contrast="auto">], además de incluir escenarios interlingüísticos. Los conjuntos de prueba evalúan lo que los modelos de A realmente pueden resolver, y Samsung Research aplicó pruebas que van desde apenas 8 caracteres hasta más de 20.000 caracteres, lo que refleja tareas que abarcan desde solicitudes simples hasta resúmenes extensos de documentos.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p>&nbsp;</p>
<p><span data-contrast="auto">Para evaluar el rendimiento de los modelos de inteligencia artificial, resulta esencial contar con criterios claros que determinen si las respuestas son correctas. En situaciones reales, no todas las intenciones del usuario se expresan de forma explícita en las instrucciones. TRUEBench está diseñado para permitir una evaluación realista al considerar no solo la exactitud de las respuestas, sino también condiciones detalladas que atienden las necesidades implícitas de los usuarios. </span><span data-ccp-props="{&quot;134233117&quot;:false,&quot;134233118&quot;:false,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:240,&quot;335559739&quot;:240}"> </span></p>
<p>&nbsp;</p>
<p><span data-contrast="auto">Samsung Research verificó los ítems de evaluación mediante un proceso de colaboración entre humanos e </span><span data-contrast="auto">inteligencia artificial</span><span data-contrast="auto">. En primer lugar, los anotadores humanos crean los criterios de evaluación; posteriormente, la AI los revisa para detectar errores, contradicciones o restricciones innecesarias. Luego, los anotadores humanos refinan nuevamente los criterios y repiten este proceso para aplicar estándares de evaluación cada vez más precisos. Con base en estos criterios verificados de manera cruzada, la evaluación automática de los modelos de </span><span data-contrast="auto">inteligencia artificial</span><span data-contrast="auto"> se lleva a cabo minimizando el sesgo subjetivo y garantizando la consistencia. Además, para cada prueba, todas las condiciones deben cumplirse para que el modelo apruebe. Esto asegura una puntuación más detallada y precisa en todas las tareas. </span><span data-ccp-props="{&quot;134233117&quot;:false,&quot;134233118&quot;:false,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:240,&quot;335559739&quot;:240}"> </span></p>
<p>&nbsp;</p>
<p><span data-contrast="auto">Las muestras de datos y los rankings de TRUEBench están disponibles en la plataforma global de código abierto Hugging Face, lo que permite a los usuarios comparar hasta cinco modelos y obtener una visión integral del rendimiento de los modelos de AI de un solo vistazo. También se publican datos sobre la longitud promedio de las respuestas, lo que facilita la comparación simultánea del rendimiento y la eficiencia. La información detallada está disponible en la página de TRUEBench en Hugging Face: </span><a href="https://huggingface.co/spaces/SamsungResearch/TRUEBench" target="_blank" rel="noopener"><span data-contrast="none">https://huggingface.co/spaces/SamsungResearch/TRUEBench</span></a><span data-contrast="auto">.</span><span data-ccp-props="{&quot;134233117&quot;:false,&quot;134233118&quot;:false,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:240,&quot;335559739&quot;:240}"> </span></p>
<p>&nbsp;</p>
<h6><em><strong><span class="TextRun BlobObject DragDrop SCXW225916254 BCX0" data-contrast="auto"><span class="Superscript SCXW225916254 BCX0" data-fontsize="9">1</span></span><span class="TextRun SCXW225916254 BCX0" data-contrast="auto"><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text"> </span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text">Chino, </span><span class="NormalTextRun SpellingErrorV2Themed SCXW225916254 BCX0" data-ccp-parastyle="footnote text">inglés</span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text">, </span><span class="NormalTextRun SpellingErrorV2Themed SCXW225916254 BCX0" data-ccp-parastyle="footnote text">francés</span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text">, </span><span class="NormalTextRun SpellingErrorV2Themed SCXW225916254 BCX0" data-ccp-parastyle="footnote text">alemán</span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text">, ital</span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text">ia</span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text">no, </span><span class="NormalTextRun SpellingErrorV2Themed SCXW225916254 BCX0" data-ccp-parastyle="footnote text">japonés</span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text">, coreano, polaco, </span><span class="NormalTextRun SpellingErrorV2Themed SCXW225916254 BCX0" data-ccp-parastyle="footnote text">portugués</span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text">, </span><span class="NormalTextRun SpellingErrorV2Themed SCXW225916254 BCX0" data-ccp-parastyle="footnote text">ruso</span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text">, </span><span class="NormalTextRun SpellingErrorV2Themed SCXW225916254 BCX0" data-ccp-parastyle="footnote text">español</span><span class="NormalTextRun SCXW225916254 BCX0" data-ccp-parastyle="footnote text"> y vietnamita.</span></span></strong></em></h6>
]]></content:encoded>
																				</item>
			</channel>
</rss>
