ĐẶC KHU HÀNH CHÍNH HỒNG KÔNG- Media OutReach Newswire – Liệu con người có thể thực sự hiểu được “hoa” có nghĩa là gì nếu không ngửi một bông hồng, chạm vào một bông cúc hay đi qua một cánh đồng hoa dại? Câu hỏi này là cốt lõi của một cuộc tranh luận sâu sắc trong triết học và khoa học nhận thức (cognitive science). Trong khi các nhà lý thuyết về nhận thức cho rằng, trải nghiệm vật lý, giác quan là điều cần thiết để hình thành khái niệm, thì các nghiên cứu về các mô hình ngôn ngữ lớn (large language model – LLM) đang phát triển nhanh chóng cho thấy rằng, chỉ riêng ngôn ngữ có thể xây dựng các thể hiện sâu sắc, có ý nghĩa về thế giới.

Bằng cách khám phá những điểm tương đồng giữa LLM và các thể hiện của con người, các nhà nghiên cứu tại Đại học Bách khoa Hồng Kông (Hong Kong Polytechnic University – PolyU) và các cộng sự đã làm sáng tỏ mức độ mà ngôn ngữ đơn thuần có thể định hình quá trình hình thành và học tập kiến thức khái niệm phức tạp. Những phát hiện của họ cũng tiết lộ cách sử dụng đầu vào cảm giác để làm cơ sở hoặc hiện thân – kết nối các khái niệm trừu tượng với các khái niệm cụ thể trong quá trình học – ảnh hưởng đến khả năng hiểu các khái niệm phức tạp và hình thành các thể hiện giống con người của LLM.
Nghiên cứu được thực hiện có sự hợp tác với các học giả từ Đại học Bang Ohio, Đại học Princeton và Đại học Thành phố New York, gần đây đã được công bố trên tạp chí Nature Human Behaviour.
Được dẫn đầu bởi Giáo sư LI Ping, Giáo sư Khoa Nhân văn và Công nghệ của Quỹ Sin Wai Kin, Trưởng khoa Nhân văn của PolyU và Phó giám đốc Viện Nghiên cứu Công nghệ và Đổi mới PolyU-Hàng Châu, nhóm các nhà nghiên cứu đã chọn các xếp hạng từ khái niệm do các LLM tiên tiến tạo ra, cụ thể là ChatGPT (GPT-3.5, GPT-4) và Google LLM (PaLM và Gemini). Các nhà nghiên cứu so sánh chúng với các xếp hạng từ do con người tạo ra gồm khoảng 4.500 từ trên các miền không phải cảm giác vận động (ví dụ: giá trị, tính cụ thể, khả năng hình dung), cảm giác (ví dụ: thị giác, khứu giác, thính giác) và vận động (ví dụ: chân/chân, miệng/họng) từ các tập dữ liệu Glasgow Norms và Lancaster Norms có độ tin cậy cao và đã được xác thực.
Nhóm nghiên cứu đầu tiên so sánh các cặp dữ liệu từ từng người và từng lần chạy LLM để khám phá ra điểm tương đồng giữa các xếp hạng từ trên mỗi chiều trong ba miền, sử dụng kết quả từ các cặp người-người làm chuẩn mực. Ví dụ, cách tiếp cận này có thể làm nổi bật mức độ con người và LLM đồng ý rằng một số khái niệm cụ thể hơn những khái niệm khác. Tuy nhiên, các phân tích như vậy có thể bỏ qua cách nhiều chiều cùng nhau đóng góp vào sự thể hiện tổng thể của một từ. Ví dụ, cặp từ “pasta” (món pasta) và “roses” (hoa hồng) có thể nhận được xếp hạng khứu giác cao như nhau, nhưng trên thực tế, “pasta” giống với “noodles” (mỳ) hơn là “roses” khi xét đến hình thức và hương vị. Do đó, nhóm đã tiến hành phân tích độ tương đồng trong thể hiện của từng từ như một vectơ dọc theo nhiều thuộc tính của các chiều không cảm giác vận động, cảm giác và vận động để có sự so sánh hoàn chỉnh hơn giữa con người và LLM.
Phân tích độ tương đồng thể hiện cho thấy, các thể hiện từ do LLM tạo ra giống nhất với các thể hiện của con người trong miền không cảm giác vận động, ít giống hơn đối với các từ trong miền cảm giác và không giống nhất đối với các từ trong miền vận động. Điều này làm nổi bật những hạn chế của LLM trong việc nắm bắt đầy đủ sự hiểu biết về khái niệm của con người. Các khái niệm không phải cảm giác vận động được hiểu rõ, nhưng LLM lại không thể hiện được các khái niệm liên quan đến thông tin giác quan như hình ảnh thị giác và vị giác, và chuyển động cơ thể. Các khái niệm vận động, ít được mô tả bằng ngôn ngữ và phụ thuộc nhiều vào các trải nghiệm cụ thể, thậm chí còn khó khăn hơn đối với LLM so với các khái niệm giác quan như màu sắc, có thể học được từ dữ liệu văn bản.
Dựa trên những phát hiện này, các nhà nghiên cứu đã xem xét liệu việc tiếp đất (grounding: hay còn gọi là chạm đất, hay nối đất thực chất là việc chúng ta kéo ý thức của mình trở lại chiều kích vật lý để bản thân hiện diện đầy đủ với thời khắc hiện tại, qua đó tạo nên sự hợp nhất giữa thân thể, tâm trí và linh hồn) có cải thiện hiệu suất của LLM hay không. Họ đã so sánh hiệu suất của LLM được tiếp đất nhiều hơn được đào tạo về cả ngôn ngữ và đầu vào trực quan (GPT-4, Gemini) với hiệu suất của LLM được đào tạo chỉ dựa trên ngôn ngữ (GPT-3.5, PaLM). Họ phát hiện ra rằng, các mô hình tiếp đất nhiều hơn kết hợp đầu vào trực quan thể hiện mức độ tương đồng cao hơn nhiều với các thể hiện của con người.
Giáo sư Li Ping cho biết: “Sự sẵn có của cả LLM được đào tạo riêng về ngôn ngữ và những người được đào tạo về ngôn ngữ và đầu vào trực quan, chẳng hạn như hình ảnh và video, tạo ra một bối cảnh độc đáo cho nghiên cứu về cách đầu vào cảm giác ảnh hưởng đến khái niệm của con người. Nghiên cứu của chúng tôi minh họa cho những lợi ích tiềm năng của việc học đa phương thức, khả năng của con người trong việc đồng thời tích hợp thông tin từ nhiều chiều trong quá trình học và hình thành các khái niệm và kiến thức nói chung. Việc kết hợp xử lý thông tin đa phương thức trong LLM có khả năng dẫn đến thể hiện giống con người hơn và hiệu suất giống con người hơn trong LLM trong tương lai”.
Điều thú vị là, phát hiện này cũng phù hợp với những nghiên cứu trước đây trên con người chỉ ra sự chuyển giao thể hiện. Con người có được kiến thức về hình dạng vật thể thông qua cả trải nghiệm thị giác và xúc giác, với việc nhìn thấy và chạm vào vật thể kích hoạt cùng một vùng trong não người. Các nhà nghiên cứu chỉ ra rằng – giống như ở con người – LLM đa phương thức có thể sử dụng nhiều loại đầu vào để hợp nhất hoặc chuyển các thể hiện được nhúng trong không gian liên tục, nhiều chiều.
Giáo sư Li Ping cho biết thêm: “Cấu trúc liên tục, mượt mà của không gian nhúng trong LLM có thể là cơ sở cho quan sát của chúng tôi rằng, kiến thức có được từ một phương thức có thể chuyển sang các phương thức liên quan khác. Điều này có thể giải thích tại sao những người mù bẩm sinh và những người có thị lực bình thường có thể có các thể hiện tương tự ở một số vùng. Giới hạn hiện tại trong LLM là rõ ràng về mặt này”.
Cuối cùng, các nhà nghiên cứu hình dung một tương lai, trong đó LLM được trang bị đầu vào cảm giác có cơ sở, ví dụ, thông qua robot hình người, cho phép chúng chủ động diễn giải thế giới vật lý và hành động phù hợp.
Giáo sư Li Ping nhận định: “Những tiến bộ này có thể giúp LLM nắm bắt đầy đủ các thể hiện cụ thể phản ánh sự phức tạp và phong phú của nhận thức con người, và khi đó, thể hiện của LLM sẽ không thể phân biệt được với thể hiện của con người”.
Hashtag: #PolyU #HumanCognition #LargeLanguageModels #LLMs #GenerativeAI
Nguồn phát hành hoàn toàn chịu trách nhiệm về nội dung của thông báo này.
Recent Comments