Hành trình tri thức – Phần 5: Vượt qua những khác biệt đa văn hóa và đa ngôn ngữ
Tiếp nối loạt bài về những nhân tài và đổi mới đằng sau quá trình phổ cập AI trên thiết bị di động, câu chuyện lần này sẽ đưa chúng ta đến với Samsung Research tại Brazil.
Với nỗ lực tiên phong mang đến trải nghiệm AI cao cấp trên thiết bị di động, chúng tôi đã ghé thăm các Trung tâm Nghiên cứu của Samsung trên khắp thế giới để tìm hiểu cách Galaxy AI hỗ trợ nhiều người dùng khai phóng tiềm năng của mình hơn nữa. Galaxy AI hiện hỗ trợ 16 ngôn ngữ, mở ra cánh cửa giao tiếp không giới hạn ngay cả khi không có kết nối internet, nhờ vào các tính năng dịch thuật trên thiết bị như Phiên dịch trực tiếp, Trợ lý phiên dịch, Trợ lý Note quyền năng, và Hỗ trợ duyệt Web. Nhưng để đạt được những thành tựu ấn tượng đó, quá trình phát triển ngôn ngữ AI đòi hỏi những yếu tố nào? Trong phần trước, chúng ta đã đến thăm Trung Quốc và tìm hiểu về tầm quan trọng của việc hợp tác với các công ty hàng đầu về AI tại địa phương. Tiếp nối hành trình này, chúng ta sẽ đến với đất nước Brazil để khám phá cách các nhóm nghiên cứu phối hợp xuyên văn hóa và biên giới để mang Galaxy AI đến với nhiều người dùng hơn.
Brazil là một quốc gia đa dạng với hơn 203 triệu dân sử dụng tiếng Bồ Đào Nha Brazil làm ngôn ngữ chính thức, thể hiện nền văn hóa và truyền thống phong phú của đất nước. Trong khi đó, 22 quốc gia láng giềng lại sử dụng tiếng Tây Ban Nha Mỹ Latinh.
Mặc dù tiếng Bồ Đào Nha Brazil và tiếng Tây Ban Nha Mỹ Latinh được sử dụng rộng rãi, nhưng các biến thể phức tạp trong cả hai ngôn ngữ này đã đặt ra vô số thách thức khi dạy Galaxy AI nhận dạng và phân biệt các phương ngữ vùng miền. Do đó, Viện R&D Samsung Brazil (SRBR) hợp tác với các chuyên gia của Samsung từ Mexico và các đối tác bên thứ ba như viện khoa học và công nghệ SiDi và Sidia để xây dựng một đội ngũ đa ngành và có trình độ cao, đủ khả năng giải quyết nhiệm vụ này.
Đẩy lùi rào cản, nâng cao hiểu biết
Nhóm nghiên cứu đã sử dụng hàng nghìn nguồn tài liệu cũng như kết hợp công cụ học máy và xử lý ngôn ngữ để cải thiện khả năng nhận diện giọng nói, văn bản viết và các biến thể vùng miền của mô hình AI. Tuy nhiên, thuật ngữ địa phương và tên của những nhân vật nổi tiếng như tên các đội thể thao, người nổi tiếng và ban nhạc lại có sự khác biệt đáng kể giữa các vùng miền. Ngoài ra, cùng một ý nghĩa có thể được biểu đạt bằng nhiều từ ngữ khác nhau. Tuy các mô hình ngôn ngữ cần dữ liệu địa phương để nâng cao hiểu biết toàn diện về các ngôn ngữ khác cần dịch, những biến thể như vậy chắc chắn sẽ tạo ra nhiều trở ngại trong quá trình phát triển.
Ví dụ: ở Mexico, hồ bơi được gọi là “alberca”, nhưng ở Argentina, Paraguay và Uruguay lại là “pileta”. Trong khi đó, ở Colombia, Bolivia và Venezuela, hồ bơi được gọi là “piscina”. Brazil cũng dùng từ này nhưng có một chút khác biệt về tông giọng. Trong khi người Colombia nói “chévere” để chỉ điều gì đó thú vị thì người Mexico lại dùng “padre”.
Những khác biệt này đặt ra hàng loạt những thách thức lớn đối với việc hiểu và học ngôn ngữ của AI, nhưng nhóm nghiên cứu đã vượt qua chúng bằng cách xây dựng các mô hình ngôn ngữ lớn hơn, tinh chỉnh các công cụ xử lý, cộng tác xuyên biên giới và bất chấp sự khác biệt về múi giờ.
Mateus Pedroso, Quản lý cấp cao kiêm Giám đốc phòng thí nghiệm chất lượng phần mềm, cho biết: “Chúng tôi phải xem xét tiếng lóng địa phương và các cách nói khác nhau trước khi điều chỉnh và thử nghiệm mô hình cho phù hợp. Điều này đòi hỏi sự hợp tác chặt chẽ giữa nhóm phát triển và nhóm đảm bảo chất lượng (QA) tại SRBR. Vì múi giờ ở SRBR đi trước nhóm QA ở Mexico ba giờ và chậm hơn nhóm quản lý ở Hàn Quốc 12 giờ, nên chúng tôi phải tạo các kênh và quy trình liên lạc mới để thống nhất kết quả và chia sẻ tiến trình. Sự hợp tác đa văn hóa này đã tạo ra một loạt các ý tưởng và giải pháp cho Galaxy AI.”
Thành công trong giao tiếp
Trong dự án này, triết lý hợp tác mở của Samsung đã được hiện thực hóa thông qua một quy trình lặp lại, thúc đẩy công nghệ phát triển trên quy mô toàn cầu. Để vượt qua các rào cản về ngôn ngữ và văn hóa, nhóm SRBR cần thu thập và quản lý lượng dữ liệu khổng lồ, liên tục tinh chỉnh và cải tiến các nguồn âm thanh và văn bản.
Các nhóm làm việc đã xác định các lĩnh vực quản lý chính để đảm bảo tận dụng tối đa kỹ năng của tất cả các nhân viên tại các văn phòng của công ty ở khu vực Mỹ Latinh. Nhóm phát triển SRBR đóng vai trò trung gian của dự án, nhận chỉ đạo từ trụ sở chính của Samsung và phát triển các bản cập nhật mới để cải thiện mô hình AI đồng thời thực hiện thử nghiệm cho nhiều tình huống sử dụng khác nhau.
Leandro Flores de Moura, Quản lý nhóm phát triển phần mềm tại SiDi, chia sẻ: “Giai đoạn thử nghiệm yêu cầu giao tiếp và cộng tác rộng rãi với các nhóm QA để tối ưu hóa trải nghiệm người dùng, trong đó mỗi điều chỉnh đều cần thử nghiệm và xem xét thêm”. Nathan Castro, Nhà phát triển thử nghiệm QA tại SiDi cho biết thêm: “Khả năng ngôn ngữ vượt trội của Galaxy AI được xây dựng dựa trên giao tiếp và cộng tác chứ không chỉ chuyên môn kỹ thuật”.
Lộ trình văn hóa
Điều khiến Galaxy AI trở nên đặc biệt thú vị đối với những người tham gia trải nghiệm vì đây không chỉ đơn thuần là một dự án ngôn ngữ. Đối với họ, ngôn ngữ là một kim chỉ nam về văn hóa, cung cấp cái nhìn sâu sắc có giá trị về di sản và bản sắc của con người.
Estefanía Castro Suárez, Nhà phát triển thử nghiệm tại SiDi, cho biết thêm: “Đối với nhóm QA của SiDi, đây là nỗ lực sẽ thay đổi thế giới bằng cách kết nối các nền văn hóa với nhau và vượt qua rào cản ngôn ngữ. Chúng tôi cảm thấy tự hào và có thêm động lực khi là một phần của dự án này.”
Pedroso kết luận: “Cách nhóm SRBR phối hợp làm việc với nhau đã chứng minh cho những gì Galaxy AI hướng đến: thu hẹp khoảng cách địa lý trên thế giới thông qua giao tiếp, chia sẻ và tương tác với mọi người, ngay cả những người nói các ngôn ngữ khác nhau. Với nhiều ngôn ngữ hơn được tích hợp vào Galaxy AI, khả năng này sẽ còn tiến xa hơn nữa.”
Nếu có thắc mắc liên quan đến dịch vụ khách hàng, xin truy cập https://www.samsung.com/vn/info/contactus để được trợ giúp.
Nếu có các câu hỏi liên quan đến báo chí, xin liên hệ qua địa chỉ xinchao.samsung@samsung.com.