Samsung เปิดตัว TRUEBench มาตรฐานใหม่เพื่อวัดประสิทธิภาพของ AI ในการใช้งานจริง

25-09-2025

เกณฑ์มาตรฐานที่เป็นกรรมสิทธิ์นี้รองรับการใช้งานที่หลากหลายทางภาษา ช่วยแก้ไขช่องว่างในเกณฑ์มาตรฐาน AI ในปัจจุบัน

ซัมซุง เปิดตัว TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark) ซึ่งเป็นเกณฑ์มาตรฐานที่เป็นกรรมสิทธิ์ของ Samsung Research ที่พัฒนาขึ้นเพื่อประเมินประสิทธิภาพของ AI

TRUEBench มีชุดเกณฑ์วัดที่ครอบคลุมสำหรับประเมินประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ (LLMs) ในการนำไปใช้งานจริงในที่ทำงาน เพื่อให้การประเมินเป็นไปอย่างสมจริง TRUEBench จึงจำลองบทสนทนาที่หลากหลายและรองรับการใช้งานหลายภาษา

TRUEBench พัฒนาขึ้นจากประสบการณ์ภายในของ Samsung ในการใช้ AI เพื่อเพิ่มประสิทธิภาพการทำงาน โดยจะประเมินงานที่องค์กรนิยมใช้ เช่น การสร้างเนื้อหา การวิเคราะห์ข้อมูล การสรุป และการแปล ซึ่งครอบคลุม 10 หมวดหมู่และ 46 หมวดหมู่ย่อย นอกจากนี้ เกณฑ์มาตรฐานดังกล่าวยังรับประกันความน่าเชื่อถือของคะแนนด้วยระบบการประเมินอัตโนมัติที่ขับเคลื่อนด้วย AI โดยมีเกณฑ์ซึ่งถูกออกแบบและทำงานร่วมกันระหว่างมนุษย์และ AI

“Samsung Research มีความเชี่ยวชาญเชิงลึกและความได้เปรียบทางการแข่งขันจากประสบการณ์การพัฒนา AI ในสถานการณ์จริง” Paul (Kyungwhoon) Cheun, CTO of the DX Division at Samsung Electronics and Head of Samsung Research กล่าว “เราหวังว่า TRUEBench จะสร้างมาตรฐานใหม่ในการประเมินประสิทธิภาพการทำงาน และตอกย้ำความเป็นผู้นำด้านเทคโนโลยีของ Samsung ให้แข็งแกร่งยิ่งขึ้น“

ในปัจจุบัน เมื่อบริษัทต่าง ๆ เริ่มนำ AI มาใช้ทำงาน จึงมีความต้องการเพิ่มขึ้นในการวัดประสิทธิภาพของ LLMs อย่างไรก็ตาม เกณฑ์มาตรฐานที่มีอยู่ส่วนใหญ่จะวัดเพียงแค่ประสิทธิภาพโดยรวม, เน้นการใช้ภาษาอังกฤษเป็นหลัก และจำกัดอยู่แค่การถาม-ตอบแบบรอบเดียว ทำให้ไม่สามารถสะท้อนสภาพแวดล้อมการทำงานจริงได้

เพื่อแก้ไขข้อจำกัดเหล่านี้ TRUEBench จึงประกอบด้วยชุดทดสอบทั้งหมด 2,485 ชุด ครอบคลุม 10 หมวดหมู่ และ 12 ภาษา^[1] พร้อมทั้งรองรับการทำงานข้ามภาษาด้วย ชุดทดสอบนี้จะตรวจสอบว่าแบบจำลอง AI สามารถแก้ไขปัญหาอะไรได้บ้าง และ Samsung Research ได้นำชุดทดสอบที่มีความยาวตั้งแต่ 8 ตัวอักษรไปจนถึงกว่า 20,000 ตัวอักษรมาใช้ ซึ่งสะท้อนถึงภารกิจที่หลากหลาย ตั้งแต่คำสั่งง่าย ๆ ไปจนถึงการสรุปเอกสารที่มีความยาวมาก

การประเมินประสิทธิภาพของแบบจำลอง AI จำเป็นต้องมีเกณฑ์ที่ชัดเจนเพื่อตัดสินว่าคำตอบของ AI นั้นถูกต้องหรือไม่ ในสถานการณ์จริง ความตั้งใจของผู้ใช้บางส่วนอาจไม่ได้ระบุไว้อย่างชัดเจนในคำสั่ง TRUEBench จึงถูกออกแบบมาเพื่อช่วยให้การประเมินมีความสมจริง ด้วยการพิจารณาไม่เพียงแค่ความถูกต้องของคำตอบ แต่ยังรวมถึงเงื่อนไขเชิงลึกที่ตอบสนองความต้องการโดยนัยของผู้ใช้ด้วย

Samsung Research ตรวจสอบรายการประเมินผลผ่านความร่วมมือระหว่างมนุษย์และ AI โดยเริ่มจากให้มนุษย์เป็นผู้กำหนดเกณฑ์การประเมิน จากนั้น AI จะตรวจสอบเพื่อหาข้อผิดพลาด ความขัดแย้ง หรือเงื่อนไขที่ไม่จำเป็น หลังจากนั้น มนุษย์จะปรับปรุงเกณฑ์อีกครั้ง และทำซ้ำกระบวนการนี้เพื่อสร้างมาตรฐานการประเมินที่แม่นยำยิ่งขึ้น การประเมินแบบอัตโนมัติจะดำเนินการโดยอิงจากเกณฑ์ที่ผ่านการตรวจสอบร่วมกันนี้ ซึ่งช่วยลดอคติส่วนบุคคลและรับประกันความสอดคล้อง นอกจากนี้ ในการทดสอบแต่ละครั้ง แบบจำลอง AI จะต้องผ่านเงื่อนไขทั้งหมดจึงจะถือว่าผ่าน ซึ่งทำให้สามารถให้คะแนนงานได้อย่างละเอียดและแม่นยำมากขึ้น

ชุดข้อมูลและตารางอันดับของ TRUEBench มีให้บริการบนแพลตฟอร์มโอเพนซอร์สระดับโลก Hugging Face ซึ่งช่วยให้ผู้ใช้สามารถเปรียบเทียบแบบจำลอง AI ได้สูงสุดถึง 5 แบบพร้อมกัน ทำให้เห็นผลลัพธ์ได้อย่างครอบคลุมในทันที นอกจากนี้ ยังมีการเผยแพร่ข้อมูลความยาวเฉลี่ยของคำตอบ ทำให้สามารถเปรียบเทียบทั้งด้านประสิทธิภาพและประสิทธิผลได้พร้อมกัน

สามารถดูรายละเอียดเพิ่มเติมได้ที่หน้า TRUEBench บน Hugging Face ตามลิงก์นี้ https://huggingface.co/spaces/SamsungResearch/TRUEBench

เชิงอรรถ

^[1] ภาษาจีน, ภาษาอังกฤษ, ภาษาฝรั่งเศส, ภาษาเยอรมัน, ภาษาอิตาลี, ภาษาญี่ปุ่น, ภาษาเกาหลี, ภาษาโปแลนด์, ภาษาโปรตุเกส, ภาษารัสเซีย, ภาษาสเปน และภาษาเวียดนาม

แหล่งข้อมูลสำหรับสื่อมวลชน ข่าวประชาสัมพันธ์

เกี่ยวกับบริษัท เทคโนโลยี

พบปัญหาด้านการบริการ กรุณาติดต่อ samsung.com/th/support
สื่อมวลชนต้องการข้อมูลเพิ่มเติม กรุณาติดต่อ chinda.a@samsung.com

ดูเพิ่มเติมในหัวข้อล่าสุด