<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet title="XSL_formatting" type="text/xsl" href="https://news.samsung.com/th/wp-content/plugins/sw_rss/sw_rss.xsl"?><rss version="2.0"
     xmlns:content="http://purl.org/rss/1.0/modules/content/"
     xmlns:wfw="http://wellformedweb.org/CommentAPI/"
     xmlns:dc="http://purl.org/dc/elements/1.1/"
     xmlns:atom="http://www.w3.org/2005/Atom"
     xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
     xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>
	<channel>
		<title>TRUEBench &#8211; Samsung Newsroom ประเทศไทย</title>
		<atom:link href="https://news.samsung.com/th/tag/truebench/feed" rel="self" type="application/rss+xml" />
		<link>https://news.samsung.com/th</link>
        <image>
            <url>https://img.global.news.samsung.com/image/newlogo/logo_samsung-newsroom_th.png</url>
            <title>TRUEBench &#8211; Samsung Newsroom ประเทศไทย</title>
            <link>https://news.samsung.com/th</link>
        </image>
        <currentYear>2025</currentYear>
        <cssFile>https://news.samsung.com/th/wp-content/plugins/sw_rss/sw_rss_xsl.css</cssFile>
		<description>What's New on Samsung Newsroom</description>
		<lastBuildDate>Thu, 09 Apr 2026 22:44:43 +0000</lastBuildDate>
		<language>en-US</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
					<item>
				<title>Samsung เปิดตัว TRUEBench มาตรฐานใหม่เพื่อวัดประสิทธิภาพของ AI ในการใช้งานจริง</title>
				<link>https://news.samsung.com/th/samsung-%e0%b9%80%e0%b8%9b%e0%b8%b4%e0%b8%94%e0%b8%95%e0%b8%b1%e0%b8%a7-truebench-%e0%b8%a1%e0%b8%b2%e0%b8%95%e0%b8%a3%e0%b8%90%e0%b8%b2%e0%b8%99%e0%b9%83%e0%b8%ab%e0%b8%a1%e0%b9%88%e0%b9%80%e0%b8%9e?utm_source=rss&amp;utm_medium=direct</link>
				<pubDate>Thu, 25 Sep 2025 15:27:12 +0000</pubDate>
						<category><![CDATA[ข่าวประชาสัมพันธ์]]></category>
		<category><![CDATA[เทคโนโลยี]]></category>
		<category><![CDATA[AI]]></category>
		<category><![CDATA[Large Language Model]]></category>
		<category><![CDATA[TRUEBench]]></category>
		<category><![CDATA[Trustworthy Real-world Usage Evaluation Benchmark]]></category>
                <guid isPermaLink="false">https://bit.ly/4o94Hpw</guid>
									<description><![CDATA[  เกณฑ์มาตรฐานที่เป็นกรรมสิทธิ์นี้รองรับการใช้งานที่หลากหลายทางภาษา ช่วยแก้ไขช่องว่างในเกณฑ์มาตรฐาน AI ในปัจจุบัน &#160; ซัมซุง เปิดตัว TRUEBench (Trustworthy]]></description>
																<content:encoded><![CDATA[<p><img class="alignnone size-medium wp-image-19069" src="https://img.global.news.samsung.com/th/wp-content/uploads/2025/10/Samsung-Research_TRUEBench-761x408.png" alt="" width="761" height="408" srcset="https://img.global.news.samsung.com/th/wp-content/uploads/2025/10/Samsung-Research_TRUEBench-761x408.png 761w, https://img.global.news.samsung.com/th/wp-content/uploads/2025/10/Samsung-Research_TRUEBench-768x412.png 768w, https://img.global.news.samsung.com/th/wp-content/uploads/2025/10/Samsung-Research_TRUEBench-1024x549.png 1024w, https://img.global.news.samsung.com/th/wp-content/uploads/2025/10/Samsung-Research_TRUEBench.png 1567w" sizes="(max-width: 761px) 100vw, 761px" /></p>
<p><em> </em></p>
<p><em>เกณฑ์มาตรฐานที่เป็นกรรมสิทธิ์นี้รองรับการใช้งานที่หลากหลายทางภาษา ช่วยแก้ไขช่องว่างในเกณฑ์มาตรฐาน </em><em>AI <span>ในปัจจุบัน</span></em></p>
<p>&nbsp;</p>
<p><em>ซัมซุง เปิดตัว </em><em>TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark) <span>ซึ่งเป็นเกณฑ์มาตรฐานที่เป็นกรรมสิทธิ์ของ </span>Samsung Research <span>ที่พัฒนาขึ้นเพื่อประเมินประสิทธิภาพของ </span>AI</em></p>
<p>&nbsp;</p>
<p><em>TRUEBench <span>มีชุดเกณฑ์วัดที่ครอบคลุมสำหรับประเมินประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ (</span>LLMs) <span>ในการนำไปใช้งานจริงในที่ทำงาน เพื่อให้การประเมินเป็นไปอย่างสมจริง </span>TRUEBench <span>จึงจำลองบทสนทนาที่หลากหลายและรองรับการใช้งานหลายภาษา</span></em></p>
<p>&nbsp;</p>
<p><em>TRUEBench <span>พัฒนาขึ้นจากประสบการณ์ภายในของ </span>Samsung <span>ในการใช้ </span>AI <span>เพื่อเพิ่มประสิทธิภาพการทำงาน โดยจะประเมินงานที่องค์กรนิยมใช้ เช่น การสร้างเนื้อหา การวิเคราะห์ข้อมูล การสรุป และการแปล ซึ่งครอบคลุม </span>10 <span>หมวดหมู่และ </span>46 <span>หมวดหมู่ย่อย นอกจากนี้ เกณฑ์มาตรฐานดังกล่าวยังรับประกันความน่าเชื่อถือของคะแนนด้วยระบบการประเมินอัตโนมัติที่ขับเคลื่อนด้วย </span>AI <span>โดยมีเกณฑ์ซึ่งถูกออกแบบและทำงานร่วมกันระหว่างมนุษย์และ </span>AI</em></p>
<p>&nbsp;</p>
<p><em>&#8220;Samsung Research <span>มีความเชี่ยวชาญเชิงลึกและความได้เปรียบทางการแข่งขันจากประสบการณ์การพัฒนา </span>AI <span>ในสถานการณ์จริง</span>&#8221; <strong>Paul (Kyungwhoon) Cheun, CTO of the DX Division at Samsung Electronics and Head of Samsung Research</strong> <span>กล่าว</span> &#8220;<span>เราหวังว่า </span>TRUEBench <span>จะสร้างมาตรฐานใหม่ในการประเมินประสิทธิภาพการทำงาน และตอกย้ำความเป็นผู้นำด้านเทคโนโลยีของ </span>Samsung <span>ให้แข็งแกร่งยิ่งขึ้น</span>&#8220;</em></p>
<p>&nbsp;</p>
<p><em>ในปัจจุบัน เมื่อบริษัทต่าง ๆ เริ่มนำ </em><em>AI <span>มาใช้ทำงาน จึงมีความต้องการเพิ่มขึ้นในการวัดประสิทธิภาพของ </span>LLMs <span>อย่างไรก็ตาม เกณฑ์มาตรฐานที่มีอยู่ส่วนใหญ่จะวัดเพียงแค่ประสิทธิภาพโดยรวม</span>, <span>เน้นการใช้ภาษาอังกฤษเป็นหลัก และจำกัดอยู่แค่การถาม-ตอบแบบรอบเดียว ทำให้ไม่สามารถสะท้อนสภาพแวดล้อมการทำงานจริงได้</span></em></p>
<p>&nbsp;</p>
<p><em>เพื่อแก้ไขข้อจำกัดเหล่านี้ </em><em>TRUEBench <span>จึงประกอบด้วยชุดทดสอบทั้งหมด </span>2,485 <span>ชุด ครอบคลุม </span>10 <span>หมวดหมู่ และ </span>12 <span>ภาษา</span></em><em><sup>[1]</sup></em><em> <span>พร้อมทั้งรองรับการทำงานข้ามภาษาด้วย ชุดทดสอบนี้จะตรวจสอบว่าแบบจำลอง </span>AI <span>สามารถแก้ไขปัญหาอะไรได้บ้าง และ </span>Samsung Research <span>ได้นำชุดทดสอบที่มีความยาวตั้งแต่ </span>8 <span>ตัวอักษรไปจนถึงกว่า </span>20,000 <span>ตัวอักษรมาใช้ ซึ่งสะท้อนถึงภารกิจที่หลากหลาย ตั้งแต่คำสั่งง่าย ๆ ไปจนถึงการสรุปเอกสารที่มีความยาวมาก</span></em></p>
<p>&nbsp;</p>
<p><em>การประเมินประสิทธิภาพของแบบจำลอง </em><em>AI <span>จำเป็นต้องมีเกณฑ์ที่ชัดเจนเพื่อตัดสินว่าคำตอบของ </span>AI <span>นั้นถูกต้องหรือไม่ ในสถานการณ์จริง ความตั้งใจของผู้ใช้บางส่วนอาจไม่ได้ระบุไว้อย่างชัดเจนในคำสั่ง </span>TRUEBench <span>จึงถูกออกแบบมาเพื่อช่วยให้การประเมินมีความสมจริง ด้วยการพิจารณาไม่เพียงแค่ความถูกต้องของคำตอบ แต่ยังรวมถึงเงื่อนไขเชิงลึกที่ตอบสนองความต้องการโดยนัยของผู้ใช้ด้วย</span></em></p>
<p>&nbsp;</p>
<p><em>Samsung Research <span>ตรวจสอบรายการประเมินผลผ่านความร่วมมือระหว่างมนุษย์และ </span>AI <span>โดยเริ่มจากให้มนุษย์เป็นผู้กำหนดเกณฑ์การประเมิน จากนั้น </span>AI <span>จะตรวจสอบเพื่อหาข้อผิดพลาด ความขัดแย้ง หรือเงื่อนไขที่ไม่จำเป็น หลังจากนั้น มนุษย์จะปรับปรุงเกณฑ์อีกครั้ง และทำซ้ำกระบวนการนี้เพื่อสร้างมาตรฐานการประเมินที่แม่นยำยิ่งขึ้น การประเมินแบบอัตโนมัติจะดำเนินการโดยอิงจากเกณฑ์ที่ผ่านการตรวจสอบร่วมกันนี้ ซึ่งช่วยลดอคติส่วนบุคคลและรับประกันความสอดคล้อง นอกจากนี้ ในการทดสอบแต่ละครั้ง แบบจำลอง </span>AI <span>จะต้องผ่านเงื่อนไขทั้งหมดจึงจะถือว่าผ่าน ซึ่งทำให้สามารถให้คะแนนงานได้อย่างละเอียดและแม่นยำมากขึ้น</span></em></p>
<p>&nbsp;</p>
<p><em>ชุดข้อมูลและตารางอันดับของ </em><em>TRUEBench <span>มีให้บริการบนแพลตฟอร์มโอเพนซอร์สระดับโลก </span>Hugging Face <span>ซึ่งช่วยให้ผู้ใช้สามารถเปรียบเทียบแบบจำลอง </span>AI <span>ได้สูงสุดถึง </span>5 <span>แบบพร้อมกัน ทำให้เห็นผลลัพธ์ได้อย่างครอบคลุมในทันที นอกจากนี้ ยังมีการเผยแพร่ข้อมูลความยาวเฉลี่ยของคำตอบ ทำให้สามารถเปรียบเทียบทั้งด้านประสิทธิภาพและประสิทธิผลได้พร้อมกัน</span></em></p>
<p>&nbsp;</p>
<p><em>สามารถดูรายละเอียดเพิ่มเติมได้ที่หน้า </em><em>TRUEBench <span>บน </span>Hugging Face <span>ตามลิงก์นี้ </span></em><a href="https://huggingface.co/spaces/SamsungResearch/TRUEBench" target="_blank" rel="noopener"><em>https://huggingface.co/spaces/SamsungResearch/TRUEBench</em></a></p>
<p>&nbsp;</p>
<p><strong>เชิงอรรถ</strong></p>
<p><sup>[1]</sup> <span>ภาษาจีน, ภาษาอังกฤษ, ภาษาฝรั่งเศส, ภาษาเยอรมัน, ภาษาอิตาลี, ภาษาญี่ปุ่น, ภาษาเกาหลี, ภาษาโปแลนด์, ภาษาโปรตุเกส, ภาษารัสเซีย, ภาษาสเปน และภาษาเวียดนาม</span></p>
<p>&nbsp;</p>
]]></content:encoded>
																				</item>
			</channel>
</rss>
