SINGAPORE – Media OutReach – Microsoft Research Asia (MSRA) vừa đoạt được 8 thứ hạng đầu trên 11 danh mục tại cuộc thi dịch máy do Hội nghị dịch thuật máy lần thứ tư năm 2019 (WMT19) tổ chức mới đây. Có tổng cộng 19 danh mục dịch máy tại WMT năm nay.
MSRA giành được vị trí đầu tiên trong các nhiệm vụ dịch máy cho các ngôn ngữ Trung-Anh, Anh-Phần Lan, Anh-Đức, Anh-Litva, Pháp-Đức, Đức-Anh, Đức-Pháp và Nga-Anh. MSRA được xếp thứ hai trong 3 hạng mục khác, bao gồm các ngôn ngữ Anh-Kazakhstan, Phần Lan-Anh và Litva-Anh.
Là một trong những cuộc thi dịch máy hàng đầu trên thế giới , WMT là một nền tảng để các nhà nghiên cứu hàng đầu thể hiện các giải pháp cũng như để hiểu được sự phát triển liên tục của công nghệ dịch máy. Tại cuộc thi năm thứ 14 này, hơn 50 đội đến từ các công ty công nghệ, các tổ chức học thuật và trường đại học hàng đầu trên toàn cầu đã tham gia để chứng minh khả năng dịch máy của họ.
Thông qua cuộc thi, các nhà tổ chức đặt ra mục tiêu đánh giá các kỹ thuật dịch máy hiện tại cho các ngôn ngữ khác ngoài tiếng Anh, cũng như kiểm tra các thách thức giữa các ngôn ngữ châu Âu, bao gồm các thứ tiếng ít người sử dụng cũng như các ngôn ngữ giàu hình thái.
Cải tiến thuật toán đa chiều cho kết quả dịch máy tốt hơn
Tie-Yan Liu, Trợ lý Giám đốc điều hành của MSRA giải thích: “Năm nay, MSRA đã áp dụng các thuật toán cải tiến cho hệ thống, giúp cải thiện đáng kể chất lượng kết quả dịch máy. Các thuật toán này được sử dụng để cải thiện cơ chế học tập, đào tạo trước của nền tảng, tối ưu hóa kiến trúc mạng, tăng cường dữ liệu và các quy trình khác cần thiết để hệ thống có thể hoạt động tốt hơn”.
Các thuật toán sáng tạo đòn bẩy năm nay bao gồm:
MADL:Multi-agent dual learning
MASS:Masked sequence to sequence pre-training
NAO:Automatic neural architecture optimization
SCA:Soft contextual data augmentation
MADL:Multi-agent dual learning (tạm dịch: Học kép đa tác nhân)
MASS:Masked sequence to sequence pre-training (tạm dịch:
Phương pháp huấn luyện trước theo chuỗi liên tiếp)
NAO:Automatic neural architecture optimization (tạm dịch: Tối ưu hóa kiến trúc thần kinh tự động)
SCA:Soft contextual data augmentation (tạm dịch: Tăng dữ liệu theo ngữ cảnh mềm)
Thành tựu này theo sau bước đột phá năm 2018, khi các nhà nghiên cứu trong phòng thí nghiệm của MSRA và Microsoft Research nhận thấy các máy dịch đã đạt được phương thức ngang bằng với con người trong tập hợp các câu chuyện, tin tức thường được sử dụng. Bước đột phá có tên gọi newstest2017, được phát triển bởi một nhóm các đối tác công nghiệp và học thuật và phát hành tại WMT17. Hệ thống có thể dịch câu của các bài báo từ tiếng Trung sang tiếng Anh với chất lượng và độ chính xác như con người.
Tie-Yan Liu cho biết thêm: “Lĩnh vực dịch máy sẽ tiếp tục phát triển với các thuật toán, bộ dữ liệu và công nghệ tốt hơn. Tuy nhiên, phần lớn nghiên cứu của chúng tôi hiện tại được truyền cảm hứng từ cách con người thực hiện mọi thứ. Ngôn ngữ vốn phức tạp và đa sắc thái, bởi vì mọi người có thể sử dụng các từ khác nhau để diễn đạt Do đó, việc phát triển các thuật toán đa chiều rất quan trọng trong việc phát triển các hệ thống dịch máy để chúng có thể mang lại kết quả tốt hơn. Thành tựu của chúng tôi tại WMT19 phục vụ cho sự phát triển hơn nữa của lĩnh vực này, theo đó chúng tôi hy vọng rằng, dịch máy có thể trở nên tốt hơn trong những năm tới
Ví dụ: Microsoft Translator, dịch vụ đám mây dịch máy đa ngôn ngữ, đã tích hợp một số giải pháp trước đây do các nhóm nghiên cứu của Microsoft trên toàn cầu phát triển để nâng cao độ chính xác của công cụ. Hiện tại, các nhóm nghiên cứu có kế hoạch tích hợp các thuật toán mới được sử dụng cho thử thách tại WMT năm nay để cải thiện khả năng dịch.
Microsoft (có mã chứng khoán giao dịch tại Sở giao dịch chứng khoán Nasdaq, New York,.Mỹ là “MSFT” @microsoft) là tập đoàn có sứ mệnh chuyển đổi kỹ thuật số cho kỷ nguyên của đám mây thông minh.
Recent Comments