Hành trình tri thức – Phần 3: Nâng tầm dữ liệu AI
Tiếp nối câu chuyện về những con người tài năng và công nghệ đột phá, hãy cùng theo dõi cách Trung tâm Nghiên cứu Samsung tại Việt Nam đã giúp AI trên thiết bị di động mang lại cuộc sống tốt đẹp hơn cho người dùng
Samsung luôn tiên phong mang đến những trải nghiệm AI cao cấp trên thiết bị di động. Để hiểu rõ hơn về cách Galaxy AI giúp người dùng khai thác tối đa tiềm năng của mình, hãy cùng chúng tôi đến thăm các trung tâm nghiên cứu của Samsung trên toàn thế giới. Galaxy AI hiện hỗ trợ 16 ngôn ngữ, cho phép nhiều người dùng mở rộng khả năng ngôn ngữ của họ ngay cả khi không có kết nối internet, nhờ vào các tính năng dịch thuật trên thiết bị như Phiên dịch trực tiếp, Trợ lý phiên dịch, Trợ lý Note quyền năng, Hỗ trợ duyệt Web. Chúng ta đã tìm hiểu về quá trình phát triển phức tạp của mô hình AI dành cho tiếng Ả Rập, một ngôn ngữ với nhiều phương ngữ khác nhau tại Jordan. Trong chuyến đi này, chúng ta sẽ đến với Việt Nam để khám phá cách chuẩn bị dữ liệu để huấn luyện các mô hình AI.
Sự khác biệt giữa các từ “ma”, “mả” và “má” trong tiếng Việt là gì? Đối với 97 triệu người trên toàn thế giới sử dụng ngôn ngữ này, ba từ này có thể không quá khác biệt. Các từ “ma”, “mả” và “má” chỉ có thể được phân biệt bằng âm điệu. Điều này minh họa mức độ khó khăn mà các mô hình AI gặp phải khi học một ngôn ngữ, vì chúng không thể nhận thức trực tiếp ngữ cảnh và cảm xúc của các cuộc trò chuyện hay ý định của người nói.
Viện Nghiên cứu và Phát triển Samsung tại Việt Nam (SRV) đã sử dụng dữ liệu được tinh chỉnh kỹ lưỡng để giúp mô hình AI của mình nhận diện chính xác ngay cả những khác biệt nhỏ nhất trong ngôn ngữ.
Chất lượng dữ liệu sử dụng ảnh hưởng trực tiếp đến độ chính xác của khả năng Nhận diện giọng nói tự động (ASR), Dịch máy bằng nơ-ron (NMT) và Chuyển đổi văn bản thành giọng nói (TTS) – 3 quy trình hỗ trợ các tính năng Galaxy AI trong việc phá vỡ rào cản ngôn ngữ như Phiên dịch trực tiếp, Trợ lý phiên dịch, Trợ lý Chat thông minh và Hỗ trợ duyệt Web.
Cơn bão thách thức
Anh Ngô Hồng Thái, trưởng nhóm NMT tại SRV cho biết: “Tiếng Việt là một ngôn ngữ phức tạp và đa dạng với nhiều biểu đạt phong phú, nhiều trong số đó rất khó để nắm bắt”. Trong số 16 ngôn ngữ mà Galaxy AI hỗ trợ, tiếng Việt là một trong số các ngôn ngữ đặc biệt khó phát triển.
“Cá nhân tôi thấy rằng việc tạo ra một mô hình AI cho người Việt còn khó khăn hơn việc đối phó với những cơn bão!”, anh Thái chia sẻ trước khi giải thích những khó khăn gặp phải trong quá trình phát triển.
Tiếng Việt là một ngôn ngữ đầy sắc thái với sáu thanh điệu khác nhau. Từ “ma” là một ví dụ cho điều này, chỉ một thay đổi nhỏ trong âm điệu cũng có thể làm thay đổi hoàn toàn ý nghĩa của từ. Chính vì vậy, việc tiếp cận và xử lý ngôn ngữ này đòi hỏi sự tỉ mỉ và chi tiết đến từng chi tiết nhỏ nhất.
Anh Bùi Ngọc Tùng, trưởng nhóm ASR tại SRV cho biết: “Khi phân tích những từ có âm tương tự, chúng tôi nhận thấy một từ được cấu tạo từ nhiều bộ phận nhỏ, hay còn gọi là ‘bộ khung từ’. Mô hình AI của chúng tôi sẽ phân biệt các khung từ ngắn chỉ khoảng 20 mili giây để xác định xem từ nào tương ứng với chuỗi khung liên tiếp. Do đó, việc đầu tư công sức vào giai đoạn đầu của quá trình huấn luyện AI là vô cùng quan trọng”.
Thách thức chưa dừng lại ở đó, Tiếng Việt còn nổi tiếng với sự phong phú của từ đồng âm và đồng nghĩa. Trong giao tiếp hàng ngày, chúng ta thường dựa vào ngữ cảnh và cả những yếu tố phi ngôn ngữ để phân biệt các từ có âm hoặc cách viết giống nhau nhưng nghĩa hoàn toàn khác biệt. Tuy nhiên, để mô hình AI có thể làm được điều này, chúng cần được huấn luyện để nhận diện chính xác và phân biệt các âm điệu cũng như những từ dễ gây nhầm lẫn.
Anh Thái giải thích thêm: “Đây không phải là một nhiệm vụ dễ dàng vì ngoài số lượng, dữ liệu cần phải thật chính xác để đảm bảo mô hình AI có thể nhận diện các sắc thái tinh tế tồn tại trong ngôn ngữ tiếng Việt.”
Khâu chuẩn bị kỹ lưỡng
Quá trình sàng lọc dữ liệu để tạo nên mô hình AI bao gồm ba bước chính. Đầu tiên, mỗi âm thanh và văn bản dùng để huấn luyện AI đều được xem xét và hiệu chỉnh cẩn thận. Sau đó, tập dữ liệu này trải qua quá trình kiểm tra ngẫu nhiên để đánh giá chất lượng tổng thể. Cuối cùng, tập dữ liệu sẽ được chuẩn hóa và tinh chỉnh trước khi sử dụng cho quá trình huấn luyện.
Anh Nguyễn Mạnh Duy, trưởng nhóm TTS tại SRV, người giám sát việc tạo cơ sở dữ liệu, cho biết: “Chúng tôi đã thực hiện rất nhiều thử nghiệm để đảm bảo độ chính xác của dữ liệu. Quá trình này không hề dễ dàng, chúng tôi phải đối mặt với nhiều thử thách như lỗi chính tả trong văn bản, tiếng ồn xung quanh hay phát âm sai trong các bản ghi âm. Dù vậy, chúng tôi đã không ngừng nỗ lực để tinh chỉnh và hoàn thiện dữ liệu huấn luyện AI mỗi ngày”.
Quá trình sàng lọc và hành trình nâng tầm dữ liệu AI còn có một phần không thể tách rời, đó là công việc được thực hiện bởi nhóm kiểm thử (SQE) tại SRV. Nhóm đóng vai trò quan trọng trong việc thử nghiệm và cải thiện chất lượng dữ liệu ngôn ngữ AI thông qua sự phối hợp chặt chẽ với nhóm dự án phát triển ngôn ngữ AI.
“Bên cạnh những đặc thù ngôn ngữ phức tạp của tiếng Việt, chúng tôi còn đối mặt với với việc thiếu nguồn dữ liệu chất lượng cao”. Anh Mạnh cho biết thêm: “Chính vì vậy, giai đoạn tinh chỉnh dữ liệu trở nên vô cùng quan trọng. Với nguồn dữ liệu hạn chế, mỗi điểm dữ liệu đều phải tuyệt đối chính xác. Chúng tôi không cho phép bất kỳ sai sót nào xảy ra.”
Hơn nữa, mô hình AI cho Tiếng Việt phải xem xét cả sự khác biệt về dấu và vùng miền. Để cải thiện độ chính xác của mô hình AI, nhóm nghiên cứu đã thu thập lượng lớn dữ liệu với giọng nói của ba miền Bắc, Trung và Nam — dẫn đến một khối lượng thông tin khổng lồ cần tinh chỉnh và xác minh.
Nỗ lực cải tiến không ngừng
Sau nhiều tháng miệt mài nghiên cứu và phát triển, các chuyên gia tại SRV đã đưa tiếng Việt trở thành một trong những ngôn ngữ đầu tiên được Galaxy AI hỗ trợ. Dù đạt được một cột mốc đáng tự hào, nhóm vẫn không ngừng nỗ lực cải thiện trải nghiệm Galaxy AI bằng tiếng Việt.
Anh Trần Tuấn Minh, lãnh đạo dự án phát triển ngôn ngữ AI tại SRV cho biết: “Chúng tôi hiện đang tiếp tục nâng cao mô hình AI bằng cách tích hợp phản hồi của người dùng về mức độ liên quan của các từ và cụm từ trong Galaxy AI. Chúng tôi chỉ mới bắt đầu với những bước đầu tiên tiến vào một thế giới rộng mở hơn — và chúng tôi vẫn còn rất nhiều điều nữa để cùng nhau khám phá.”
Trong phần tiếp theo của Hành Trình Tri Thức, chúng ta sẽ đến với đất nước Trung Quốc để tìm hiểu cách các mô hình AI được huấn luyện và tinh chỉnh.
Nếu có thắc mắc liên quan đến dịch vụ khách hàng, xin truy cập https://www.samsung.com/vn/info/contactus để được trợ giúp.
Nếu có các câu hỏi liên quan đến báo chí, xin liên hệ qua địa chỉ xinchao.samsung@samsung.com.