<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet title="XSL_formatting" type="text/xsl" href="https://news.samsung.com/tw/wp-content/plugins/btr_rss/btr_rss.xsl"?><rss version="2.0"
     xmlns:content="http://purl.org/rss/1.0/modules/content/"
     xmlns:wfw="http://wellformedweb.org/CommentAPI/"
     xmlns:dc="http://purl.org/dc/elements/1.1/"
     xmlns:atom="http://www.w3.org/2005/Atom"
     xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
     xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>
	<channel>
		<title>Trustworthy Real-world Usage Evaluation Benchmark &#8211; Samsung Newsroom 台灣</title>
		<atom:link href="https://news.samsung.com/tw/tag/trustworthy-real-world-usage-evaluation-benchmark/feed" rel="self" type="application/rss+xml" />
		<link>https://news.samsung.com/tw</link>
        <image>
            <url>https://img.global.news.samsung.com/image/newlogo/logo_samsung-newsroom_tw.png</url>
            <title>Trustworthy Real-world Usage Evaluation Benchmark &#8211; Samsung Newsroom 台灣</title>
            <link>https://news.samsung.com/tw</link>
        </image>
        <currentYear>2025</currentYear>
        <cssFile>https://news.samsung.com/tw/wp-content/plugins/btr_rss/btr_rss_xsl.css</cssFile>
		<description>What's New on Samsung Newsroom</description>
		<lastBuildDate>Thu, 02 Apr 2026 15:30:17 +0000</lastBuildDate>
		<language>en-US</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
					<item>
				<title>三星發表TRUEBench：有效評估實際AI模型應用生產力的基準</title>
				<link>https://news.samsung.com/tw/%e4%b8%89%e6%98%9f%e7%99%bc%e8%a1%a8truebench%ef%bc%9a%e6%9c%89%e6%95%88%e8%a9%95%e4%bc%b0%e5%af%a6%e9%9a%9bai%e6%a8%a1%e5%9e%8b%e6%87%89%e7%94%a8%e7%94%9f%e7%94%a2%e5%8a%9b%e7%9a%84%e5%9f%ba%e6%ba%96?utm_source=rss&amp;utm_medium=direct</link>
				<pubDate>Wed, 01 Oct 2025 11:55:53 +0000</pubDate>
						<category><![CDATA[新聞稿]]></category>
		<category><![CDATA[科技]]></category>
		<category><![CDATA[AI]]></category>
		<category><![CDATA[Large Language Model]]></category>
		<category><![CDATA[TRUEBench]]></category>
		<category><![CDATA[Trustworthy Real-world Usage Evaluation Benchmark]]></category>
                <guid isPermaLink="false">https://bit.ly/3IDxd3K</guid>
									<description><![CDATA[&#160; 三星電子日前發表TRUEBench（Trustworthy Real-world Usage Evaluation Benchmark，真實場景可信度評估基準）－此為三星研究院獨創之AI模型生產力評估基準。 &#160;]]></description>
																<content:encoded><![CDATA[<p><img class="alignnone size-full wp-image-46054" src="https://img.global.news.samsung.com/tw/wp-content/uploads/2025/10/Samsung-Corporate-Technology-Samsung-Research-TRUEBench_main1-1001-2.jpg" alt="" width="1000" height="536" srcset="https://img.global.news.samsung.com/tw/wp-content/uploads/2025/10/Samsung-Corporate-Technology-Samsung-Research-TRUEBench_main1-1001-2.jpg 1000w, https://img.global.news.samsung.com/tw/wp-content/uploads/2025/10/Samsung-Corporate-Technology-Samsung-Research-TRUEBench_main1-1001-2-768x412.jpg 768w" sizes="(max-width: 1000px) 100vw, 1000px" /></p>
<p>&nbsp;</p>
<p>三星電子日前發表TRUEBench（Trustworthy Real-world Usage Evaluation Benchmark，真實場景可信度評估基準）－此為三星研究院獨創之AI模型生產力評估基準。</p>
<p>&nbsp;</p>
<p>TRUEBench提供全面的衡量指標，評估大型語言模型（LLM）在實際工作應用中的表現。結合多元對話情境及多語言條件，確保評估結果具備可信度。</p>
<p>&nbsp;</p>
<p>TRUEBench借鑒三星內部運用AI提升工作效率的實際應用經驗，針對10個類別和46個子類別中常用的企業工作進行評估，例如內容生成、數據分析、摘要和翻譯等。該基準由人類與AI共同設計並不斷優化，透過AI自動評估，確保可靠的評分結果。</p>
<p>&nbsp;</p>
<p>三星電子DX事業群技術長暨三星研究院負責人Paul（Kyungwhoon）Cheun表示：「三星研究院憑藉豐富的實際AI應用經驗，帶來深厚的專業知識和競爭優勢。期盼TRUEBench奠定生產力的評估標準，進而鞏固三星在科技產業的領導地位。」</p>
<p>&nbsp;</p>
<p>近年來，隨著企業工作逐漸採用AI，衡量大型語言模型效率的需求也日益增長。然而，現有基準主要用來衡量整體表現，且多半以英語為中心，並僅限於單回合問答結構。此方式間接限制其反映實際工作環境的能力。</p>
<p>&nbsp;</p>
<p>為突破這些限制，TRUEBench共提供2,485個測試集，其中涵蓋10個類別和12種語言<strong><sup>（註一）</sup></strong>，同時支援跨語言情境。測試集旨在檢驗AI模型的實際解決方案，三星研究院使用的測試集長度範圍，從最短8個字元到超過 20,000個字元，不論簡單要求到冗長文件摘要皆可應用。</p>
<p>&nbsp;</p>
<p>為評估AI模型的表現，必須訂定明確標準判斷AI回應是否正確。在現實世界的情境中，並非所有使用者都會在指令中明確說明其意圖。TRUEBench的設計不僅考量答案的準確性，亦滿足使用者隱性需求的具體條件，進而使評估標準符合現實。</p>
<p>&nbsp;</p>
<p>三星研究院透過人類與AI合作，針對評估項目進行驗證。首先，評估人員會建立一套標準，接著由AI進行審核，檢查是否有錯誤、矛盾或不必要的限制條件。然後，評估人員再次改良基準，重複此流程，使其逐漸精準。藉由上述交叉驗證的標準，對AI模型進行自動評估時，將能最小化主觀偏見，並確保一致性。此外，每一次測試皆須符合所有條件，模型才能通過評估基準。如此得以讓跨工作的評分更加詳盡且精確。</p>
<p>&nbsp;</p>
<p>TRUEBench資料範本與排行榜已於全球開放原始碼平台Hugging Face上發布，使用者最多可針對五種模型進行比較，一目了然地對照AI模型的表現。此外，平台亦公布回應結果的平均長度數據，方便同步對照各模型的表現與效率。詳細資訊請參閱TRUEBench Hugging Face頁面：<span><a href="https://huggingface.co/spaces/SamsungResearch/TRUEBench" target="_blank" rel="noopener">https://huggingface.co/spaces/SamsungResearch/TRUEBench</a></span>。</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p><em> <span style="font-size: small;">註一：中文、英文、法文、德文、義大利文、日文、韓文、波蘭文、葡萄牙文、俄文、西班牙文與越南文</span></em></p>
]]></content:encoded>
																				</item>
			</channel>
</rss>
