Hành trình tri thức – Phần 8: Xây dựng mạng lưới hội thoại từ Nhật Bản ra khắp thế giới

19/07/2024

Chia sẻ Share open/close

Share open/close

Sao chép URL.

Hãy cùng đến với Samsung Research tại Nhật Bản để tìm hiểu những câu chuyện truyền cảm hứng về con người và công nghệ đã làm nên cuộc cách mạng phổ cập AI trên thiết bị di động

Với nỗ lực tiên phong mang đến trải nghiệm AI cao cấp trên thiết bị di động, chúng tôi đã ghé thăm các Trung tâm Nghiên cứu của Samsung trên khắp thế giới để tìm hiểu cách Galaxy AI hỗ trợ nhiều người dùng khai phóng tiềm năng của mình hơn nữa. Galaxy AI hiện hỗ trợ 16 ngôn ngữ, mở ra cánh cửa giao tiếp không giới hạn ngay cả khi không có kết nối internet, nhờ vào các tính năng dịch thuật trên thiết bị như Phiên dịch trực tiếp, Trợ lý phiên dịch, Trợ lý Note quyền năng, và Hỗ trợ duyệt Web. Nhưng để đạt được những thành tựu ấn tượng đó, quá trình phát triển ngôn ngữ AI đòi hỏi những yếu tố nào? Trong phần trước, chúng ta đã đến với Ba Lan để tìm hiểu cách các nước châu Âu hợp tác để đạt được mục tiêu của họ. Trong phần này, hãy cùng chúng tôi đến với đất nước Nhật Bản để tìm hiểu cách các nhà phát triển không ngừng thích nghi với những tình huống và nhu cầu sử dụng mới của người dùng.

Viện Nghiên cứu và Phát triển Samsung Nhật Bản (SRJ) được thành lập như một trung tâm R&D chuyên về phần cứng như thiết bị gia dụng và màn hình hiển thị. Trước nhu cầu đổi mới AI ngày càng tăng trên toàn cầu, từ cuối năm ngoái, SRJ tại Yokohama đã mở rộng hoạt động với một phòng thí nghiệm phát triển phần mềm để tạo ra tính năng Phiên dịch trực tiếp cuộc gọi của Galaxy AI, giúp tự động dịch các cuộc gọi thoại theo thời gian thực.

“Phiên dịch trực tiếp cuộc gọi là tính năng vô cùng cần thiết cho những chuyến du lịch khám phá, chẳng hạn như những người đến tham dự Thế vận hội Olympic Paris năm nay.” ông Takayuki Akasako, Giám đốc Trí tuệ Nhân tạo tại SRJ, cho biết. “Chúng tôi đang phát triển một chương trình nhận diện giọng nói thông minh, hỗ trợ du khách vừa khám phá thành phố vừa hòa mình vào không khí Thế vận hội. Chương trình này sẽ được huấn luyện để hiểu rõ về các môn thể thao, địa điểm thi đấu và các thông tin hữu ích khác liên quan đến Paris 2024.””

Khả năng am hiểu ngữ cảnh của tính năng Nhận diện giọng nói

Đối với những người đã quen thuộc với các tính năng dịch thuật của Galaxy AI, có thể bạn sẽ thấy nó rất hữu ích, nhưng ít ai biết được những nỗ lực không ngừng của các nhà phát triển đã kiến tạo nên điều kỳ diệu này. Đối với họ, việc giao tiếp dễ dàng khi đi du lịch nước ngoài là một trải nghiệm vô giá mà không phải ai cũng có được.

Một điều mà nhóm đã nhận thấy là trong tiếng Nhật có nhiều từ đồng âm hơn so với một số ngôn ngữ khác. Chẳng hạn, ‘đũa’ (Hashi, 箸) và ‘cầu’ (Hashi, 橋) tương đối dễ phân biệt nhờ sự khác biệt về ngữ điệu. Tuy nhiên, các từ như ‘ngắm cảnh’ (Kankō, 観光), ‘phong tục’ (Kankō, 慣行), ‘công cộng’ (Kōkyō, 公共) và ‘thịnh vượng’ (Kōkyō, 好況) phải được hiểu dựa trên ngữ cảnh.

Akasako cho biết: “Việc nhận diện giọng nói trở nên khó khăn hơn khi ngữ cảnh không rõ ràng, ví dụ như tên địa danh, tên người, danh từ riêng, tiếng địa phương và số. Vì vậy, để cải thiện độ chính xác của công nghệ này, chúng ta cần một lượng dữ liệu khổng lồ.”

Akasako tiếp tục: “Chúng tôi luôn tìm cách tinh chỉnh mô hình AI kịp thời cho các sự kiện và thời điểm quan trọng. Với vô số sự kết hợp giữa tên địa điểm và các hoạt động, điều quan trọng là đảm bảo ngữ cảnh rõ ràng khi người dùng sử dụng Galaxy AI.”

Thách thức trong việc thu thập dữ liệu hiệu quả

Việc xác định đúng loại dữ liệu cần thiết là rất quan trọng, tuy nhiên quá trình thu thập dữ liệu đó cũng là một thách thức không nhỏ.

Trước đây, nhóm SRJ đã sử dụng dữ liệu ghi âm từ con người để huấn luyện công cụ nhận diện giọng nói cho tính năng Phiên dịch trực tiếp cuộc gọi, nhưng phương pháp này chưa mang lại hiệu quả thu thập dữ liệu như mong muốn.

Samsung Gauss, mô hình ngôn ngữ lớn (LLM) của Samsung, sử dụng các kịch bản có cấu trúc để tạo ra các câu văn với từ ngữ phù hợp cho từng ngữ cảnh. Dữ liệu được thu thập không chỉ thông qua quá trình ghi âm giọng nói của con người mà còn được tạo ra bằng công nghệ chuyển văn bản thành giọng nói (TTS), sau đó được kiểm tra chất lượng bởi đội ngũ nhân sự. Nhờ phương pháp này, đội ngũ đã ghi nhận sự cải thiện đáng kể về hiệu quả thu thập dữ liệu.

Akasako cho biết: “Mỗi khi một vấn đề được xác định và giải quyết, độ chính xác của khả năng nhận diện giọng nói được cải thiện đáng kể. Mục tiêu của chúng tôi là kết nối mọi người với nhau mọi lúc mọi nơi, và các công cụ có Galaxy AI sẽ hỗ trợ việc giao tiếp trở nên thú vị và hiệu quả hơn.”

TAGSGalaxy AI Samsung R&D Center

Nếu có thắc mắc liên quan đến dịch vụ khách hàng, xin truy cập https://www.samsung.com/vn/info/contactus để được trợ giúp.
Nếu có các câu hỏi liên quan đến báo chí, xin liên hệ qua địa chỉ xinchao.samsung@samsung.com.