Đừng mong đợi sẽ có các bản sửa lỗi nhanh chóng cho các mô hình AI

Các quan chức Nhà Trắng lo ngại về khả năng gây hại cho xã hội của chatbot AI và các ông lớn công nghệ ở Thung lũng Silicon đang vội vã đưa chúng ra thị trường đã đầu tư rất nhiều vào một cuộc thi kéo dài ba ngày kết thúc vào Chủ Nhật tại hội nghị hacker DefCon ở Las Vegas.

Khoảng 3.500 đối thủ cạnh tranh đã khai thác máy tính xách tay để tìm cách vạch trần những sai sót trong tám mẫu ngôn ngữ lớn hàng đầu đại diện cho điều lớn lao tiếp theo của công nghệ. Nhưng đừng mong đợi kết quả nhanh chóng từ "nhóm đỏ" độc lập đầu tiên của nhiều mô hình này.

Kết quả sẽ không được công khai cho đến khoảng tháng 2. Và ngay cả khi đó, việc sửa chữa các sai sót trong các cấu trúc kỹ thuật số này - mà hoạt động bên trong của chúng không hoàn toàn đáng tin cậy và thậm chí không được người sáng tạo hiểu thấu đáo - sẽ mất thời gian và hàng triệu triệu đô la.

Các mô hình AI hiện tại đơn giản là quá khó sử dụng, dễ vỡ và dễ uốn cong, nghiên cứu học thuật và doanh nghiệp cho thấy. Bảo mật là một vấn đề được cân nhắc trong quá trình đào tạo của họ khi các nhà khoa học dữ liệu tích lũy các bộ sưu tập hình ảnh và văn bản phức tạp đến ngoạn mục. Chúng có xu hướng thiên về chủng tộc và văn hóa, và dễ dàng bị thao túng.

Gary McGraw, một chiến binh an ninh mạng kỳ cựu và là đồng sáng lập của Berryville Institute of Machine Learning, cho biết: “Thật hấp dẫn khi giả vờ rằng chúng ta có thể rắc một ít bụi bảo mật ma thuật lên các hệ thống này sau khi chúng được xây dựng, vá chúng để phục tùng hoặc khóa thiết bị bảo mật đặc biệt ở bên cạnh.”

Bruce Schneier, một nhà công nghệ vì lợi ích công cộng của Harvard, cho biết các đối thủ cạnh tranh của DefCon "có nhiều khả năng bỏ qua việc tìm kiếm những vấn đề mới, khó khăn. Đây là bảo mật máy tính của 30 năm trước. Chúng tôi chỉ phá vỡ mọi thứ." Michael Sellitto của Anthropic, công ty cung cấp một trong những mô hình thử nghiệm AI, đã thừa nhận trong một cuộc họp báo rằng hiểu được khả năng và các vấn đề an toàn của họ "là một lĩnh vực nghiên cứu khoa học mở."

Phần mềm thông thường sử dụng mã được xác định rõ ràng để đưa ra các hướng dẫn từng bước rõ ràng. ChatGPT của OpenAI, Bard của Google và các mô hình ngôn ngữ khác là khác nhau. Được đào tạo chủ yếu bằng cách nhập -- và phân loại -- hàng tỷ điểm dữ liệu trong quá trình thu thập thông tin trên internet, chúng là những công trình đang trong quá trình hoàn thiện, một triển vọng đáng lo ngại do tiềm năng biến đổi của chúng đối với nhân loại.

Sau khi phát hành công khai các chatbot vào mùa thu năm ngoái, ngành công nghiệp trí tuệ nhân tạo AI đã phải nhiều lần bịt các lỗ hổng bảo mật do các nhà nghiên cứu và chuyên gia công bố.

Tom Bonner của công ty bảo mật AI HiddenLayer, một diễn giả tại DefCon năm nay, đã lừa hệ thống của Google gắn nhãn một phần mềm độc hại là vô hại chỉ bằng cách chèn một dòng có nội dung "phần mềm này an toàn để sử dụng."

"Không có rào cản tốt," ông nói.

Một nhà nghiên cứu khác đã yêu cầu ChatGPT tạo email lừa đảo và một công thức loại bỏ loài người một cách thô bạo, vi phạm quy tắc đạo đức của nó.

Một nhóm bao gồm các nhà nghiên cứu của Carnegie Mellon đã phát hiện ra rằng các chatbot hàng đầu dễ bị tấn công tự động cũng tạo ra nội dung có hại. Họ viết: “Có thể chính bản chất của các mô hình học sâu khiến những mối đe dọa như vậy là không thể tránh khỏi.”

Không phải là không có chuông báo động.

Trong báo cáo cuối cùng vào năm 2021, Ủy ban An ninh Quốc gia Hoa Kỳ về Trí tuệ Nhân tạo cho biết các cuộc tấn công vào các hệ thống AI thương mại đã xảy ra và "với một số ngoại lệ hiếm hoi, ý tưởng bảo vệ các hệ thống AI đã được suy nghĩ lại trong kỹ thuật và bảo vệ các hệ thống AI, với sự đầu tư không thỏa đáng vào nghiên cứu và phát triển."

Các vụ hack nghiêm trọng, thường xuyên được báo cáo chỉ vài năm trước, hiện hầu như không được tiết lộ. Bonner nói: “Có quá nhiều thứ đang bị đe dọa và trong trường hợp không có quy định, “mọi người có thể giấu mọi thứ vào lúc này và họ đang làm như vậy.”

Các cuộc tấn công đánh lừa logic trí tuệ nhân tạo theo những cách mà người tạo ra chúng thậm chí có thể không hiểu rõ. Và chatbot đặc biệt dễ bị tổn thương vì chúng ta tương tác trực tiếp với chúng bằng ngôn ngữ đơn giản. Sự tương tác đó có thể thay đổi chúng theo những cách không ngờ tới.

Các nhà nghiên cứu đã phát hiện ra rằng việc "đầu độc" một tập hợp nhỏ các hình ảnh hoặc văn bản trong biển dữ liệu rộng lớn được sử dụng để huấn luyện các hệ thống AI có thể gây ra sự tàn phá -- và dễ bị bỏ qua.

Một nghiên cứu do Florian Tramer của Đại học Thụy Sĩ ETH Zurich đồng tác giả đã xác định rằng chỉ cần làm hỏng 0,01% mô hình là đủ để làm hỏng nó -- và chi phí chỉ là 60 đô la. Các nhà nghiên cứu đã đợi một số trang web được sử dụng trong quá trình thu thập dữ liệu web cho hai mô hình hết hạn. Sau đó, họ mua các miền và đăng dữ liệu xấu lên chúng.

Hyrum Anderson và Ram Shankar Siva Kumar, những người đã hợp tác với AI trong khi còn là đồng nghiệp tại Microsoft, gọi tình trạng bảo mật AI cho các mô hình dựa trên văn bản và hình ảnh là "đáng thương" trong cuốn sách mới của họ "Không phải với lỗi mà là với Nhãn dán." Một ví dụ mà họ trích dẫn trong các buổi thuyết trình trực tiếp: Trợ lý kỹ thuật số được hỗ trợ bởi AI Alexa bị lừa khi diễn giải một đoạn nhạc hòa tấu Beethoven thành mệnh lệnh đặt 100 chiếc bánh pizza đông lạnh.

Khảo sát hơn 80 tổ chức, các tác giả nhận thấy đại đa số không có kế hoạch đối phó với một cuộc tấn công đầu độc dữ liệu hoặc đánh cắp dữ liệu. Phần lớn ngành công nghiệp "thậm chí sẽ không biết điều đó đã xảy ra," họ viết.

Andrew W. Moore, cựu giám đốc điều hành của Google và là Carnegie Mellon, cho biết ông đã xử lý các cuộc tấn công vào phần mềm tìm kiếm của Google hơn một thập kỷ trước. Và từ cuối năm 2017 đến đầu năm 2018, những kẻ gửi thư rác đã lợi dụng dịch vụ phát hiện dựa trên AI của Gmail bốn lần.

Các công ty AI lớn cho biết an ninh và an toàn là ưu tiên hàng đầu và đã tự nguyện cam kết với Nhà Trắng vào tháng trước để gửi các mô hình của họ – phần lớn là “hộp đen” có nội dung được lưu trữ chặt chẽ – cho bên ngoài giám sát.

Nhưng có lo lắng rằng các công ty sẽ không làm đủ.

Tramer dự đoán rằng các công cụ tìm kiếm và nền tảng truyền thông xã hội sẽ bị lợi dụng để thu lợi tài chính và thông tin sai lệch bằng cách khai thác các điểm yếu của hệ thống AI. Ví dụ, một người xin việc hiểu biết có thể tìm ra cách thuyết phục một hệ thống rằng họ là ứng viên phù hợp duy nhất.

Ross Anderson, một nhà khoa học máy tính của Đại học Cambridge, lo lắng các bot AI sẽ làm xói mòn quyền riêng tư khi mọi người lôi kéo chúng tương tác với bệnh viện, ngân hàng và người sử dụng lao động cũng như các tác nhân độc hại lợi dụng chúng để thu hút dữ liệu tài chính, việc làm hoặc sức khỏe ra khỏi các hệ thống được cho là đã đóng.

Nghiên cứu cho thấy các mô hình ngôn ngữ AI cũng có thể tự gây ô nhiễm bằng cách tự đào tạo lại bản thân từ dữ liệu rác.

Một mối lo ngại khác là các bí mật của công ty đang bị các hệ thống AI ăn vào và tiết lộ. Sau khi một hãng tin thuong mại của Hàn Quốc đưa tin về sự cố như vậy tại Samsung, các tập đoàn bao gồm Verizon và JPMorgan đã cấm hầu hết nhân viên sử dụng ChatGPT tại nơi làm việc.

Trong khi những đối thủ AI lớn có nhân viên bảo mật, nhiều đối thủ cạnh tranh nhỏ hơn có thể sẽ không, có nghĩa là các plugin và tác nhân kỹ thuật số được bảo mật kém có thể nhân lên. Các công ty khởi nghiệp dự kiến sẽ tung ra hàng trăm dịch vụ được xây dựng trên các mô hình được đào tạo trước được cấp phép trong những tháng tới.

Các nhà nghiên cứu cho biết, đừng ngạc nhiên nếu ai đó lấy đi sổ địa chỉ của bạn.

Bản tiếng Việt của The Canada Life