แหล่งข้อมูลสำหรับสื่อมวลชน > ข่าวประชาสัมพันธ์

เกี่ยวกับบริษัท > เทคโนโลยี

Samsung เปิดตัว TRUEBench มาตรฐานใหม่เพื่อวัดประสิทธิภาพของ AI ในการใช้งานจริง

25-09-2025
แบ่งปันข่าวสาร

 

เกณฑ์มาตรฐานที่เป็นกรรมสิทธิ์นี้รองรับการใช้งานที่หลากหลายทางภาษา ช่วยแก้ไขช่องว่างในเกณฑ์มาตรฐาน AI ในปัจจุบัน

 

ซัมซุง เปิดตัว TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark) ซึ่งเป็นเกณฑ์มาตรฐานที่เป็นกรรมสิทธิ์ของ Samsung Research ที่พัฒนาขึ้นเพื่อประเมินประสิทธิภาพของ AI

 

TRUEBench มีชุดเกณฑ์วัดที่ครอบคลุมสำหรับประเมินประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ (LLMs) ในการนำไปใช้งานจริงในที่ทำงาน เพื่อให้การประเมินเป็นไปอย่างสมจริง TRUEBench จึงจำลองบทสนทนาที่หลากหลายและรองรับการใช้งานหลายภาษา

 

TRUEBench พัฒนาขึ้นจากประสบการณ์ภายในของ Samsung ในการใช้ AI เพื่อเพิ่มประสิทธิภาพการทำงาน โดยจะประเมินงานที่องค์กรนิยมใช้ เช่น การสร้างเนื้อหา การวิเคราะห์ข้อมูล การสรุป และการแปล ซึ่งครอบคลุม 10 หมวดหมู่และ 46 หมวดหมู่ย่อย นอกจากนี้ เกณฑ์มาตรฐานดังกล่าวยังรับประกันความน่าเชื่อถือของคะแนนด้วยระบบการประเมินอัตโนมัติที่ขับเคลื่อนด้วย AI โดยมีเกณฑ์ซึ่งถูกออกแบบและทำงานร่วมกันระหว่างมนุษย์และ AI

 

“Samsung Research มีความเชี่ยวชาญเชิงลึกและความได้เปรียบทางการแข่งขันจากประสบการณ์การพัฒนา AI ในสถานการณ์จริงPaul (Kyungwhoon) Cheun, CTO of the DX Division at Samsung Electronics and Head of Samsung Research กล่าวเราหวังว่า TRUEBench จะสร้างมาตรฐานใหม่ในการประเมินประสิทธิภาพการทำงาน และตอกย้ำความเป็นผู้นำด้านเทคโนโลยีของ Samsung ให้แข็งแกร่งยิ่งขึ้น

 

ในปัจจุบัน เมื่อบริษัทต่าง ๆ เริ่มนำ AI มาใช้ทำงาน จึงมีความต้องการเพิ่มขึ้นในการวัดประสิทธิภาพของ LLMs อย่างไรก็ตาม เกณฑ์มาตรฐานที่มีอยู่ส่วนใหญ่จะวัดเพียงแค่ประสิทธิภาพโดยรวม, เน้นการใช้ภาษาอังกฤษเป็นหลัก และจำกัดอยู่แค่การถาม-ตอบแบบรอบเดียว ทำให้ไม่สามารถสะท้อนสภาพแวดล้อมการทำงานจริงได้

 

เพื่อแก้ไขข้อจำกัดเหล่านี้ TRUEBench จึงประกอบด้วยชุดทดสอบทั้งหมด 2,485 ชุด ครอบคลุม 10 หมวดหมู่ และ 12 ภาษา[1] พร้อมทั้งรองรับการทำงานข้ามภาษาด้วย ชุดทดสอบนี้จะตรวจสอบว่าแบบจำลอง AI สามารถแก้ไขปัญหาอะไรได้บ้าง และ Samsung Research ได้นำชุดทดสอบที่มีความยาวตั้งแต่ 8 ตัวอักษรไปจนถึงกว่า 20,000 ตัวอักษรมาใช้ ซึ่งสะท้อนถึงภารกิจที่หลากหลาย ตั้งแต่คำสั่งง่าย ๆ ไปจนถึงการสรุปเอกสารที่มีความยาวมาก

 

การประเมินประสิทธิภาพของแบบจำลอง AI จำเป็นต้องมีเกณฑ์ที่ชัดเจนเพื่อตัดสินว่าคำตอบของ AI นั้นถูกต้องหรือไม่ ในสถานการณ์จริง ความตั้งใจของผู้ใช้บางส่วนอาจไม่ได้ระบุไว้อย่างชัดเจนในคำสั่ง TRUEBench จึงถูกออกแบบมาเพื่อช่วยให้การประเมินมีความสมจริง ด้วยการพิจารณาไม่เพียงแค่ความถูกต้องของคำตอบ แต่ยังรวมถึงเงื่อนไขเชิงลึกที่ตอบสนองความต้องการโดยนัยของผู้ใช้ด้วย

 

Samsung Research ตรวจสอบรายการประเมินผลผ่านความร่วมมือระหว่างมนุษย์และ AI โดยเริ่มจากให้มนุษย์เป็นผู้กำหนดเกณฑ์การประเมิน จากนั้น AI จะตรวจสอบเพื่อหาข้อผิดพลาด ความขัดแย้ง หรือเงื่อนไขที่ไม่จำเป็น หลังจากนั้น มนุษย์จะปรับปรุงเกณฑ์อีกครั้ง และทำซ้ำกระบวนการนี้เพื่อสร้างมาตรฐานการประเมินที่แม่นยำยิ่งขึ้น การประเมินแบบอัตโนมัติจะดำเนินการโดยอิงจากเกณฑ์ที่ผ่านการตรวจสอบร่วมกันนี้ ซึ่งช่วยลดอคติส่วนบุคคลและรับประกันความสอดคล้อง นอกจากนี้ ในการทดสอบแต่ละครั้ง แบบจำลอง AI จะต้องผ่านเงื่อนไขทั้งหมดจึงจะถือว่าผ่าน ซึ่งทำให้สามารถให้คะแนนงานได้อย่างละเอียดและแม่นยำมากขึ้น

 

ชุดข้อมูลและตารางอันดับของ TRUEBench มีให้บริการบนแพลตฟอร์มโอเพนซอร์สระดับโลก Hugging Face ซึ่งช่วยให้ผู้ใช้สามารถเปรียบเทียบแบบจำลอง AI ได้สูงสุดถึง 5 แบบพร้อมกัน ทำให้เห็นผลลัพธ์ได้อย่างครอบคลุมในทันที นอกจากนี้ ยังมีการเผยแพร่ข้อมูลความยาวเฉลี่ยของคำตอบ ทำให้สามารถเปรียบเทียบทั้งด้านประสิทธิภาพและประสิทธิผลได้พร้อมกัน

 

สามารถดูรายละเอียดเพิ่มเติมได้ที่หน้า TRUEBench บน Hugging Face ตามลิงก์นี้ https://huggingface.co/spaces/SamsungResearch/TRUEBench

 

เชิงอรรถ

[1] ภาษาจีน, ภาษาอังกฤษ, ภาษาฝรั่งเศส, ภาษาเยอรมัน, ภาษาอิตาลี, ภาษาญี่ปุ่น, ภาษาเกาหลี, ภาษาโปแลนด์, ภาษาโปรตุเกส, ภาษารัสเซีย, ภาษาสเปน และภาษาเวียดนาม

 

พบปัญหาด้านการบริการ ติดต่อ samsung.com/th/support
สื่อมวลชนต้องการข้อมูลเพิ่มเติม กรุณาติดต่อ nawanuch.s@samsung.com

แผนผังเว็บไซต์

กลับสู่ด้านบน