Mô hình AI đa phương thức
GPT4 của OpenAI, Llama 2 của Meta và Mistral đều là ví dụ về những tiến bộ trong các mô hình ngôn ngữ lớn. Công nghệ này vượt xa văn bản với các mô hình AI đa phương thức, cho phép người dùng trộn và kết hợp nội dung dựa trên văn bản, âm thanh, hình ảnh và video để nhắc nhở và tạo nội dung mới. Cách tiếp cận này bao gồm việc kết hợp dữ liệu, chẳng hạn như hình ảnh, văn bản và giọng nói, với các thuật toán nâng cao để đưa ra dự đoán và tạo ra kết quả.
Vào năm 2024, AI đa phương thức dự kiến phát triển đáng kể, mở ra sự thay đổi về khả năng AI tổng hợp. Các mô hình này đang phát triển vượt ra ngoài các chức năng chế độ đơn truyền thống, kết hợp các loại dữ liệu đa dạng như hình ảnh, ngôn ngữ và âm thanh. Kết quả của quá trình chuyển đổi sang các mô hình đa phương thức này là AI sẽ trở nên trực quan và năng động hơn.
Mô hình ngôn ngữ nhỏ mạnh mẽ
Nếu 2023 là năm của các mô hình ngôn ngữ lớn (LLM) thì năm 2024 sẽ chứng kiến sức mạnh của các mô hình ngôn ngữ nhỏ (SLM). LLM được đào tạo trên các bộ dữ liệu lớn như Common Crawl và The Pile, với hàng terabyte dữ liệu bao gồm các bộ dữ liệu này được trích xuất từ hàng tỷ trang web có thể truy cập công khai.
Mặc dù dữ liệu thực sự có lợi trong việc dạy LLM tạo ra nội dung có ý nghĩa và dự đoán từ tiếp theo, song nó cũng thừa hưởng những tính chất dựa trên nội dung chung trên Internet.
Bởi vậy, các SLM được đào tạo trên các bộ dữ liệu hạn chế hơn nhưng vẫn bao gồm các nguồn chất lượng cao như sách giáo khoa, tạp chí và nội dung có thẩm quyền, có thể được chú trọng hơn. Những mô hình này nhỏ hơn về số lượng tham số cũng như yêu cầu về bộ nhớ và lưu trữ, cho phép chúng chạy trên phần cứng ít tốn kém hơn. SLM tạo ra nội dung có chất lượng tương đương với một số đối tác lớn hơn của chúng, mặc dù kích thước chỉ bằng một phần nhỏ so với LLM.
PHI-2 và Mistral 7B của Microsoft là hai SLM đầy hứa hẹn sẽ cung cấp năng lượng cho thế hệ ứng dụng AI tổng hợp tiếp theo.
Tác nhân tự trị
Các tác nhân tự trị là một chiến lược đổi mới để xây dựng các mô hình AI tổng quát. Các tác nhân này là các chương trình phần mềm tự trị được thiết kế để hoàn thành một mục tiêu cụ thể. Đối với AI tổng quát, khả năng các tác nhân tự trị tạo ra nội dung không cần sự can thiệp của con người sẽ vượt qua khỏi những hạn chế kỹ thuật thông thường.
Các tác nhân này sử dụng dữ liệu để tìm hiểu, thích ứng với các tình huống mới và đưa ra quyết định mà không cần nhiều sự can thiệp của con người. Ví dụ: OpenAI đã tạo ra các công cụ như GPT tùy chỉnh giúp sử dụng hiệu quả các tác nhân tự trị, cho thấy sự tiến bộ đáng kể trong lĩnh vực trí tuệ nhân tạo.
AI đa phương thức, kết hợp nhiều kỹ thuật AI khác nhau như xử lý ngôn ngữ tự nhiên, thị giác máy tính và học máy, rất quan trọng trong việc phát triển các tác nhân tự trị. Nó có thể đưa ra dự đoán, thực hiện hành động và tương tác phù hợp hơn bằng cách phân tích các loại dữ liệu khác nhau cùng lúc và áp dụng bối cảnh hiện tại.
Các khung như LangChain và LlamaIndex là một số công cụ phổ biến được sử dụng để xây dựng các tác nhân dựa trên LLM. Vào năm 2024, chúng ta sẽ thấy các khuôn khổ mới tận dụng AI đa phương thức, cải thiện trải nghiệm của khách hàng, có lợi cho các ngành dọc như du lịch, khách sạn, bán lẻ và giáo dục.
Mô hình AI mở
Sang năm 2024, các mô hình AI mở, có tính tổng hợp dự kiến sẽ phát triển đáng kể, với một số dự đoán cho thấy chúng sẽ có thể so sánh với các mô hình độc quyền.
Llama 2 70B, Falcon 180B của Meta và Mixtral-8x7B của Mistral AI đã trở nên cực kỳ phổ biến vào năm 2023, với hiệu suất tương đương với các mẫu độc quyền như GPT 3.5, Claude 2 và Jurassic-2.
Trong tương lai, khoảng cách giữa các mô hình mở và mô hình độc quyền sẽ được thu hẹp, cung cấp cho doanh nghiệp thêm lựa chọn để lưu trữ các mô hình AI tổng hợp trong môi trường kết hợp hoặc tại chỗ.
Phiên bản tiếp theo của các mô hình mở từ Meta, Mistral và có thể cả những người mới tham gia sẽ được phát hành dưới dạng các lựa chọn thay thế khả thi cho các mô hình độc quyền có sẵn dưới dạng API.
(Theo Forbes)
Nguồn: Vietnamnet.vn