Gần 200.000 cuốn sách đang được một số công ty công nghệ lớn nhất sử dụng để đào tạo hệ thống trí tuệ nhân tạo. Vấn đề? Không ai nói với các tác giả.
Hệ thống này được gọi là Books3, và theo một cuộc điều tra của The Atlantic, bộ dữ liệu dựa trên một bộ sưu tập sách điện tử vi phạm bản quyền thuộc mọi thể loại, từ tiểu thuyết khiêu dâm đến thơ văn xuôi. Sách giúp các hệ thống AI sáng tạo học cách truyền đạt thông tin.
Một số văn bản đào tạo AI có thể được lấy từ các bài viết đăng trên internet, nhưng AI chất lượng cao yêu cầu văn bản chất lượng cao để tiếp thu ngôn ngữ, theo Atlantic, đây là nơi xuất hiện sách. Books3 đã là chủ đề của nhiều vụ kiện Meta và các công ty khác sử dụng hệ thống này để đào tạo AI.
Giờ đây, nhờ cơ sở dữ liệu được The Atlantic xuất bản tuần trước lấy từ Books3, các tác giả có thể biết liệu sách của họ có được sử dụng cụ thể để đào tạo các hệ thống AI này hay không. Và nhiều người rất không vui.
“Tôi hoàn toàn bị rút ruột. Tôi phẫn nộ nhưng đồng thời cảm thấy hoàn toàn bất lực,” Mary H. K. Choi viết trên mạng xã hội khi phát hiện tác phẩm của mình bị sử dụng. “Tôi tức giận và muốn chiến đấu nhưng tôi cũng mệt quá rồi.”
Choi, người có cuốn tiểu thuyết đầu tay “Liên hệ khẩn cấp” xuất hiện trong cơ sở dữ liệu, đã giải thích thêm cảm xúc của mình trong một email. Cuốn sách xoay quanh một phụ nữ trẻ người Mỹ gốc Hàn đang tìm kiếm một mối quan hệ mới, “mang tính cá nhân sâu sắc.” Cuốn sách sau đó đã trở thànhcuốn sách bán chạy nhất của New York Times và được độc giả trên khắp thế giới tìm thấy.
Min Jin Lee, tác giả cuốn tiểu thuyết “Pachinko” và “Thức ăn miễn phí cho triệu phú,” cũng bày tỏ suy nghĩ tương tự trên mạng xã hội, thẳng thừng gọi việc sử dụng sách của mình là “một hành vi trộm cắp.”
Bà nói: “Tôi đã dành ba thập kỷ của cuộc đời mình để viết sách. Các công ty Al đã đánh cắp công việc, thời gian và sự sáng tạo của tôi. Họ đã đánh cắp câu chuyện của tôi. Họ đã đánh cắp một phần của tôi.”
Theo The Atlantic, Nora Roberts, tiểu thuyết gia lãng mạn nổi tiếng, có 206 cuốn sách được sử dụng trong cơ sở dữ liệu Books3. Con số đó là cao nhất so với bất kỳ tác giả còn sống nào và chỉ đứng sau William Shakespeare. Cô gọi cơ sở dữ liệu và việc các công ty công nghệ sử dụng nó là “hoàn toàn sai trái.”
“Chúng tôi là con người, chúng tôi là nhà văn, và chúng tôi đang bị lợi dụng bởi những người muốn sử dụng tác phẩm của chúng tôi mà không xin phép hay trả thù lao để ‘viết’ sách, kịch bản, tiểu luận vì nó rẻ và dễ dàng,” Roberts nói trong một tuyên bố với CNN.
Việc khai thác các nhà văn không gây sốc cho tác giả Nik Sharma, người có cuốn sách dạy nấu ăn “Mùa” được tìm thấy trong cơ sở dữ liệu.
“Tôi kinh hoàng nhưng không ngạc nhiên khi mình bị lợi dụng,” anh nói trong một bài đăng trên mạng xã hội. “Rõ ràng là tôi thậm chí còn không được xin phép hay nhận bất kỳ khoản thù lao nào cho việc sử dụng công việc của mình để đào tạo AI.”
AI là điều không thể tránh khỏi, Sharma sau đó nói trong một email - do đó anh không mấy ngạc nhiên. Anh nói, điều đáng lo ngại nhất là không ai được liên hệ về việc sử dụng hoặc thanh toán. Suy cho cùng, giáo dục không miễn phí ở Mỹ, ông nói; giáo viên được trả lương và sách giáo khoa được mua.
Sharma nói: “Bây giờ là miền Tây hoang dã với AI và chính sách của chính phủ về vấn đề này đang ở giai đoạn sơ khai. Và do đó, các công ty công nghệ đang tận dụng tối đa lợi thế khi có thể. Tôi rất vui vì đó chỉ là một cuốn sách dạy nấu ăn chứ không phải những cuốn sách khác của tôi.”
Meta, đã sử dụng cơ sở dữ liệu Books3 theo The Atlantic, đã không trả lời yêu cầu bình luận.
Người phát ngôn của Bloomberg lưu ý trong một tuyên bố rằng công ty đã “sử dụng một số nguồn dữ liệu khác nhau,” bao gồm cả Books3, để đào tạo mô hình BloombergGPT ban đầu, một mô hình AI cho ngành tài chính. Tuy nhiên, theo người phát ngôn, Bloomberg sẽ “không đưa tập dữ liệu Books3 vào số các nguồn dữ liệu được sử dụng để đào tạo các phiên bản thương mại trong tương lai của BloombergGPT.”
Không phải tác giả nào cũng khó chịu về việc tác phẩm của họ bị AI sử dụng. James Chappel, người có cuốn sách học thuật về nhà thờ Công giáo hiện đại được sử dụng trong cơ sở dữ liệu, nói trên mạng xã hội rằng ông “không quan tâm chút nào.”
“Tôi muốn cuốn sách của tôi được đọc!” anh đã viết. “Tôi muốn nó mang tính giáo dục!”
Chappel đã không trả lời yêu cầu bình luận thêm.
AI, nằm trong tay các tập đoàn lớn, đã trở thành mối quan tâm đáng kể của nhiều nhà văn. Hiệp hội Nhà văn Mỹ đã đình công vào mùa hè này một phần để yêu cầu hạn chế sử dụng AI trong việc viết phim và chương trình truyền hình. Đặc biệt, ChatGPT đã được sử dụng cho mọi việc, từ viết bài tập đến tóm tắt pháp lý.
Các nhà văn không đơn độc trong mối quan tâm của họ. Với sự phổ biến của hệ thống AI chuyển văn bản thành hình ảnh, các nghệ sĩ thị giác cũng rơi vào tình trạng tương tự vào năm ngoái, khi phát hiện ra tác phẩm của họ đang được sử dụng để đào tạo AI mà không được phép. Cùng với nhau, cả hai trường hợp đều nêu bật mối lo ngại xung quanh khả năng tiếp cận ngày càng tăng của AI đối với tất cả các loại hình nghệ thuật, nơi tác phẩm đôi khi có thể mang tính cá nhân hoặc thân mật sâu sắc.
Cuộc đối thoại về Books3 diễn ra đúng lúc Tổng thống Mỹ Joe Biden công bố kế hoạch đưa ra mệnh lệnh hành pháp về AI vào mùa thu này, nói rằng nước này sẽ dẫn đầu “con đường hướng tới đổi mới AI có trách nhiệm.”
Tuy nhiên, đối với các nhà văn, những cuộc chiến liên tục xung quanh AI và tác phẩm của họ có thể giảm bớt. Đối với Choi, việc phát hiện ra cuốn sách của mình đã được sử dụng giữa cuộc đình công của WGA, trong đó AI là chủ đề được tranh luận sôi nổi, là một điều “siêu thực.”
“Tôi đã bị rút ruột,” cô nói qua email. “Thực sự có cảm giác như thể bất kỳ lợi ích hoặc lực kéo nào đạt được ở một đấu trường này đều có thể bị xóa bỏ một cách dễ dàng ở một đấu trường khác.”
Cô nói: “Tôi nghĩ điều khiến tôi cảm thấy tồi tệ nhất về tất cả những điều đó là trong những khoảnh khắc vô vọng hơn của tôi, tất cả đều cảm thấy hoàn toàn không thể tránh khỏi.”
Choi không đơn độc trong cảm giác tất yếu đó. Roberts kêu gọi sự đoàn kết giữa các nhà văn cũng như khán giả để chống lại những vấn đề này.
Cô nói: “Chúng ta, những người tạo ra những câu chuyện cần phải đoàn kết để chống lại sự lạm dụng tài năng và sự chăm chỉ. Chúng ta cần đứng lên vì công việc của mình và công việc của nhau. Tôi hy vọng độc giả và khán giả sát cánh cùng chúng tôi về vấn đề quan trọng này.”
© 2023 CNN Digital
Bản tiếng Việt của The Canada Life