OpenAI ra mắt mô hình AI nhanh hơn và rẻ hơn với GPT-4o

OpenAI đang tung ra phiên bản nhanh hơn và rẻ hơn của mô hình trí tuệ nhân tạo làm nền tảng cho chatbot của mình, ChatGPT, khi công ty khởi nghiệp này nỗ lực giữ vững vị trí dẫn đầu trong một thị trường ngày càng đông đúc.

Trong một sự kiện được phát trực tiếp vào thứ Hai, OpenAI đã ra mắt GPT-4o. Đây là phiên bản cập nhật của mẫu GPT-4, hiện đã hơn một năm tuổi. Mô hình ngôn ngữ lớn mới, được đào tạo dựa trên lượng dữ liệu khổng lồ từ internet, sẽ xử lý văn bản, âm thanh và hình ảnh trong thời gian thực tốt hơn. Các bản cập nhật sẽ có sẵn trong những tuần tới.

Công ty cho biết khi đặt câu hỏi bằng lời nói, hệ thống có thể trả lời bằng phản hồi âm thanh trong một phần nghìn giây, cho phép cuộc trò chuyện trôi chảy hơn. Trong buổi trình diễn mô hình, các nhà nghiên cứu OpenAI và Giám đốc Công nghệ Mira Murati đã tổ chức một cuộc trò chuyện với ChatGPT mới chỉ bằng giọng nói của họ, cho thấy rằng công cụ này có thể phản hồi. Trong buổi thuyết trình, chatbot cũng xuất hiện để dịch lời nói từ ngôn ngữ này sang ngôn ngữ khác gần như ngay lập tức và có lúc hát một phần câu chuyện theo yêu cầu.

Murati nói với Bloomberg News: “Đây là lần đầu tiên chúng tôi đạt được bước nhảy vọt về tính tương tác và tính dễ sử dụng. Chúng tôi thực sự giúp bạn có thể cộng tác với các công cụ như ChatGPT.”

Bản cập nhật sẽ mang đến một số tính năng cho người dùng miễn phí mà trước đây chỉ giới hạn ở những người đăng ký ChatGPT trả phí, chẳng hạn như khả năng tìm kiếm trên web để tìm câu trả lời cho các truy vấn, nói chuyện với chatbot và nghe phản hồi bằng nhiều giọng nói khác nhau và ra lệnh cho nó lưu trữ các chi tiết mà chatbot có thể gọi lại trong tương lai.

Việc phát hành GPT-4o sẽ làm rung chuyển bối cảnh AI đang phát triển nhanh chóng, trong đó GPT-4 vẫn là tiêu chuẩn vàng. Ngày càng nhiều công ty khởi nghiệp và công ty Big Tech, bao gồm cả Anthropic, Cohere và Google của Alphabet Inc., gần đây đã đưa ra các mô hình AI mà họ cho rằng phù hợp hoặc vượt qua hiệu suất của GPT-4 ở một số điểm chuẩn nhất định.

Thông báo của OpenAI cũng được đưa ra một ngày trước hội nghị nhà phát triển Google I/O. Google, công ty đi đầu trong lĩnh vực trí tuệ nhân tạo, dự kiến sẽ tận dụng sự kiện này để công bố thêm các bản cập nhật AI sau cuộc đua bắt kịp với OpenAI do Microsoft Corp. hậu thuẫn.

Trong một bài đăng blog hiếm hoi hôm thứ Hai, Giám đốc điều hành OpenAI Sam Altman nói rằng mặc dù phiên bản gốc của ChatGPT đưa ra gợi ý về cách mọi người có thể sử dụng ngôn ngữ để tương tác với máy tính, nhưng việc sử dụng GPT-4o mang lại cảm giác “khác biệt về mặt trực quan.”

“Cảm giác giống như AI trong phim; và tôi vẫn hơi ngạc nhiên rằng đó là sự thật,” anh nói. “Đạt được thời gian phản hồi và khả năng biểu đạt ở cấp độ con người hóa ra lại là một sự thay đổi lớn.”

Nhanh hơn hai lần

Thay vì dựa vào các mô hình AI khác nhau để xử lý các đầu vào khác nhau, GPT-4o — chữ “o” là viết tắt của omni — kết hợp giọng nói, văn bản và hình ảnh vào một mô hình duy nhất, cho phép mô hình này nhanh hơn phiên bản trước. Ví dụ: nếu bạn cung cấp cho hệ thống một lời nhắc hình ảnh, nó có thể phản hồi bằng một hình ảnh. Công ty cho biết mô hình mới nhanh hơn gấp hai lần và hiệu quả hơn đáng kể.

Murati nói: “Khi bạn có ba mô hình khác nhau hoạt động cùng nhau, bạn sẽ tạo ra nhiều độ trễ trong trải nghiệm và điều đó phá vỡ sự đắm chìm của trải nghiệm. Nhưng khi bạn có một mô hình có khả năng xử lý nguyên bản về âm thanh, văn bản và hình ảnh, thì bạn sẽ loại bỏ tất cả độ trễ và có thể tương tác với ChatGPT giống như chúng ta đang tương tác hiện tại.”

Nhưng mô hình mới gặp phải một số trở ngại. Âm thanh thường xuyên bị cắt khi các nhà nghiên cứu phát biểu trong bản demo của họ. Hệ thống AI cũng khiến khán giả ngạc nhiên khi, sau khi huấn luyện một nhà nghiên cứu về quá trình giải một bài toán đại số, nó vang lên với một giọng điệu đầy tán tỉnh: “Chà, bộ trang phục mà bạn đang mặc thật tuyệt vời”.

OpenAI hiện đang bắt đầu triển khai các khả năng văn bản và hình ảnh mới của GPT-4o cho một số người dùng ChatGPT Plus và Team trả phí, đồng thời sẽ sớm cung cấp các khả năng đó cho người dùng doanh nghiệp. Công ty sẽ cung cấp phiên bản mới của trợ lý “chế độ giọng nói” cho người dùng ChatGPT Plus trong vài tuần tới.

Là một phần trong các bản cập nhật của mình, OpenAI cho biết họ cũng cho phép mọi người truy cập Cửa hàng GPT, bao gồm các chatbot tùy chỉnh do người dùng tạo. Trước đây, nó chỉ dành cho khách hàng trả tiền.

Suy đoán về lần ra mắt tiếp theo của OpenAI đã trở thành cuộc đơni ở Thung lũng Silicon trong những tuần gần đây. Một chatbot mới bí ẩn đã gây xôn xao dư luận trong giới theo dõi AI sau khi nó xuất hiện trên một trang web đo điểm chuẩn và có vẻ sánh ngang với hiệu suất của GPT-4. Altman đưa ra những tài liệu tham khảo nháy mắt về chatbot trên X, làm dấy lên tin đồn rằng công ty của ông đứng sau nó. Vào thứ Hai, một nhân viên của OpenAI đã xác nhận trên nền tảng xã hội X rằng chatbot bí ẩn thực sự là GPT-4o.

Công ty đang nghiên cứu nhiều loại sản phẩm, bao gồm công nghệ giọng nói và phần mềm video. OpenAI cũng đang phát triển tính năng tìm kiếm cho ChatGPT, Bloomberg đưa tin trước đó.

Hôm thứ Sáu, công ty đã dập tắt một số tin đồn bằng cách cho biết họ sẽ không sắp ra mắt GPT-5, một phiên bản rất được mong đợi của mô hình mà một số người trong thế giới công nghệ mong đợi sẽ có khả năng hoàn toàn cao hơn các hệ thống AI hiện tại. Họ cũng nói rằng sự kiện hôm thứ Hai sẽ không tiết lộ một sản phẩm tìm kiếm mới, một công cụ có thể cạnh tranh với Google. Cổ phiếu của Google tăng giá sau tin tức này.

Nhưng sau khi sự kiện kết thúc, Altman đã nhanh chóng để cho đồn đoán tiếp tục. “Chúng tôi sẽ sớm có nhiều thứ để chia sẻ,” anh viết trên X.

Bản tiếng Việt của The Canada Life