Sarah Silverman và các tiểu thuyết gia kiện OpenAI, nhà sản xuất ChatGPT vì đã sử dụng sách của họ

Hãy hỏi ChatGPT về cuốn hồi ký “Người đái dầm” của diễn viên hài Sarah Silverman và chatbot trí tuệ nhân tạo có thể đưa ra bản tóm tắt chi tiết về mọi phần của cuốn sách.

Điều đó có nghĩa là nó “đọc” và ghi nhớ một bản sao vi phạm bản quyền một cách hiệu quả? Hay nó đã thu thập rất nhiều đánh giá của khách hàng và những lời bàn tán trên mạng về cuốn sách bán chạy nhất hoặc vở nhạc kịch mà nó truyền cảm hứng đến mức nó được coi là một chuyên gia?

Các tòa án Hoa Kỳ hiện có thể giúp giải quyết vấn đề đó sau khi Silverman kiện OpenAI, nhà sản xuất ChatGPT vì vi phạm bản quyền trong tuần này, cùng với ngày càng nhiều nhà văn nói rằng họ đã vô tình xây dựng nền tảng cho sự bùng nổ AI hot nhất của Thung lũng Silicon.

Vụ kiện của Silverman nói rằng cô chưa bao giờ cho phép OpenAI sử dụng phiên bản kỹ thuật số của cuốn sách năm 2010 của cô để đào tạo các mô hình AI và nó có khả năng đã bị đánh cắp từ một “thư viện bóng tối” chứa các tác phẩm vi phạm bản quyền. Vụ kiện nói rằng cuốn hồi ký đã được sao chép “không có sự đồng ý, không có công nhnậ và không được bồi thường.”

Đây là một trong số các vụ việc có thể phá vỡ bí mật của OpenAI và các đối thủ của nó về dữ liệu có giá trị được sử dụng để đào tạo các sản phẩm “AI tạo sinh” được sử dụng rộng rãi để tạo ra văn bản, hình ảnh và âm nhạc mới. Và nó đặt ra câu hỏi về nền tảng đạo đức và pháp lý của các công cụ mà Viện Toàn cầu McKinsey dự đoán sẽ bổ sung số tiền tương đương từ 2,6 nghìn tỷ đô la Mỹ đến 4,4 nghìn tỷ đô la Mỹ cho nền kinh tế toàn cầu.

Matthew Butterick, một trong những luật sư đại diện cho Silverman và các tác giả khác trong việc tìm kiếm một vụ kiện tập thể, cho biết: “Đây là một bí mật công khai, bẩn thỉu của toàn bộ ngành công nghiệp máy học. Họ yêu thích dữ liệu sách và họ lấy nó từ những trang web bất hợp pháp này. Chúng tôi đang thổi còi trong toàn bộ hoạt động đó.”

OpenAI đã không trả lời các yêu cầu bình luận về các cáo buộc. Một vụ kiện khác từ Silverman đưa ra tuyên bố tương tự về một mô hình AI được xây dựng bởi công ty mẹ của Facebook và Instagram là Meta, cũng từ chối bình luận.

Đây có thể là một vụ kiện khó khăn để các nhà văn giành chiến thắng, đặc biệt là sau khi Google thành công trong việc đánh bại các thách thức pháp lý đối với thư viện sách trực tuyến của mình. Tòa án Tối cao Hoa Kỳ vào năm 2016 đã hủy các phán quyết của tòa án cấp dưới bác bỏ tuyên bố của các tác giả rằng việc Google số hóa hàng triệu cuốn sách và hiển thị một phần nhỏ trong số đó cho công chúng là hành vi “vi phạm bản quyền ở quy mô lớn.”

Deven Desai, phó giáo sư luật và đạo đức tại Viện Công nghệ Georgia cho biết: “Tôi nghĩ những gì OpenAI đã làm với sách rất gần với những gì Google được phép làm với dự án Google Sách của mình và điều đó sẽ hợp pháp.”

Mặc dù chỉ một số ít đã kiện, bao gồm Silverman và hai tiểu thuyết gia bán chạy nhất Mona Awad và Paul Tremblay, những lo ngại về các hoạt động xây dựng AI của ngành công nghệ này đã thu hút được sự chú ý trong cộng đồng văn học và nghệ sĩ.

Các tác giả nổi bật khác - trong số đó có Nora Roberts, Margaret Atwood, Louise Erdrich và Jodi Picoult - đã ký một lá thư vào cuối tháng trước gửi tới các CEO của OpenAI, Google, Microsoft, Meta và các nhà phát triển AI khác cáo buộc họ có hành vi bóc lột trong việc xây dựng chatbot “bắt chước và nôn ra” ngôn ngữ, phong cách và ý tưởng của họ.

“Hàng triệu cuốn sách, bài báo, tiểu luận và thơ ca có bản quyền cung cấp ‘thức ăn’ cho các hệ thống AI, những bữa ăn vô tận mà không cần hóa đơn,” bức thư ngỏ do Hiệp hội Tác giả tổ chức và có chữ ký của hơn 4.000 nhà văn cho biết. “Các ngài đang chi hàng tỷ đô la để phát triển công nghệ AI. Thật công bằng khi các ngài đền bù cho chúng tôi vì đã sử dụng các bài viết của chúng tôi, nếu không có nó, AI sẽ trở nên tầm thường và cực kỳ hạn chế.”

Các hệ thống AI đằng sau các sản phẩm phổ biến như ChatGPT, Bard của Google và chatbot Bing của Microsoft được biết đến như những mô hình ngôn ngữ lớn đã "học" bằng cách phân tích và chọn các mẫu từ một lượng lớn văn bản được nhập. Chúng đã khiến công chúng kinh ngạc với khả năng thông thạo ngôn ngữ loài người, mặc dù chúng cũng được biết đến với xu hướng nói dối.

Mặc dù các mô hình này cũng đã được đào tạo về các bài báo và nguồn cấp dữ liệu mạng xã hội, nhưng sách đặc biệt có giá trị, như OpenAI đã thừa nhận trong một bài báo năm 2018 được trích dẫn trong vụ kiện của Silverman.

Phiên bản đầu tiên của mô hình ngôn ngữ lớn của OpenAI, được gọi là GPT-1, dựa trên bộ dữ liệu được biên soạn bởi các nhà nghiên cứu trường đại học có tên là Toronto Book Corpus bao gồm hàng nghìn cuốn sách chưa được xuất bản, một số thuộc thể loại phiêu lưu, giả tưởng và lãng mạn.

Các nhà nghiên cứu của OpenAI cho biết: “Điều quan trọng là nó chứa các đoạn văn bản liền kề dài, cho phép mô hình tổng quát học cách tạo điều kiện cho thông tin tầm xa.” Các công ty công nghệ khác như Google và Amazon cũng dựa vào dữ liệu tương tự, không còn có sẵn ở dạng ban đầu.

Nhưng kể từ đó, OpenAI và các nhà phát triển AI hàng đầu khác đã trở nên bí mật hơn về nguồn dữ liệu của họ, ngay cả khi họ đã tiếp thu những kho tác phẩm thậm chí còn lớn hơn. Butterick cho biết bằng chứng tình huống chỉ ra việc sử dụng cái gọi là thư viện bóng tối chứa nội dung vi phạm bản quyền có chứa các tác phẩm của Silverman và các nguyên đơn khác.

Ông nói: “Điều này rất quan trọng đối với các mô hình của họ vì sách là nguồn tốt nhất để viết văn bản dài, được biên tập tốt và mạch lạc. Về cơ bản, bạn không thể có một mô hình ngôn ngữ chất lượng cao trừ khi bạn có sách trong dữ liệu đào tạo của mình.”

Có thể mất vài tuần hoặc vài tháng để có phản hồi chính thức từ OpenAI. Nhưng một khi vụ kiện được tiến hành, các giám đốc điều hành công nghệ có thể phải làm chứng, tuyên thệ, về những nguồn sách mà họ đã sao chép.

Joseph Saveri, một luật sư khác của Silverman, nói: “Theo những gì chúng tôi biết, phía bên kia đã không phủ nhận điều đó. Họ không có lời giải thích thay thế nào cho việc này.”

Saveri cho biết các tác giả không nhất thiết phải yêu cầu các công ty công nghệ loại bỏ các thuật toán và dữ liệu đào tạo của họ và bắt đầu lại – mặc dù đã có tiền lệ về việc hủy dữ liệu AI không hợp pháp. Tuy nhiên, ông nói rằng cần phải có một số cách đền bù cho các nhà văn.

Bản tiếng Việt của The Canada Life