Để sử dụng TheCanada.life, Vui lòng kích hoạt javascript trong trình duyệt của bạn.

Loader

Người hay máy? Công ty Toronto tìm ra cách xác định clip âm thanh thực

Đôi mắt có thể là cửa sổ tâm hồn, nhưng tại Klick Labs, giọng nói là tất cả.

Bộ phận nghiên cứu của công ty công nghệ khoa học đời sống Klick Health có trụ sở tại Toronto đã tìm ra cách phân tích giọng nói một cách chi tiết đến mức có thể biết đó là người hay máy chạy bằng trí tuệ nhân tạo.

Khả năng này xuất hiện khi số lượng các tác phẩm deepfakes  – video, clip âm thanh hoặc hình ảnh do AI sản xuất trông giống như thật – đã bùng nổ với việc phát hành một số chatbot AI gần đây. Tất cả mọi người từ ngôi sao nhạc pop Taylor Swift đến Tổng thống Mỹ Joe Biden và Giáo hoàng đều trở thành nạn nhân của hiện tượng này.

Và dự kiến nó sẽ không sớm giảm bớt. Cơ quan thực thi pháp luật của Liên minh Châu Âu Europol gần đây dự đoán có tới 90% nội dung trực tuyến có thể được tạo ra bằng phương pháp tổng hợp vào năm 2026 và Cơ quan Tình báo An ninh Canada đã gọi tình trạng này là “mối đe dọa thực sự đối với tương lai của Canada.”

Nhưng Yan Fossat, phó chủ tịch cấp cao về nghiên cứu và phát triển sức khỏe kỹ thuật số của Klick Labs, hy vọng công ty của ông có thể giúp làm cho thế giới AI an toàn hơn một chút.

“Mọi công nghệ không được quản lý đều nguy hiểm và nó đang phát triển nhanh hơn rất nhiều thứ một chút,” ông nói khi đứng trong phòng thí nghiệm ở trung tâm thành phố Toronto của Klick.

Chính trong không gian đó – ngổn ngang dây điện, các thiết bị điện tử gia dụng và máy in 3D kêu vo vo – Fossat và nhóm ba người bắt đầu nghĩ về cách các bộ phim khoa học viễn tưởng yêu thích của họ có thể giúp họ giải quyết vấn đề deepfakes.

“Trong ‘Terminator’, họ dùng chó để đánh hơi xem con người có giống con người hay không và trong ‘Blade Runner’, có cỗ máy Voight-Kampff và tôi luôn muốn tạo ra một cỗ máy Voight-Kampff,” Fossat nói, đề cập đến một bài kiểm tra hư cấu được sử dụng trong phim để đo lường các phản ứng sinh lý, chẳng hạn như chuyển động của mắt và thời gian phản ứng, nhằm xác định xem một nhân vật là người hay bản sao.

Đối với dự án riêng của họ, nhóm Klick đã tập hợp 49 người có hoàn cảnh và giọng nói khác nhau, họ cung cấp âm thanh cho máy tạo deepfake để tạo clip tổng hợp.

Các đoạn clip được phân tích dựa trên dấu ấn sinh học giọng nói của họ - những đặc điểm được nhúng trong giọng nói cho chúng ta biết điều gì đó về sức khỏe hoặc sinh lý của người nói.

Ví dụ, nếu ai đó vừa lao lên cầu thang, họ sẽ thở nhanh hơn, điều này có thể được nghe thấy qua giọng nói của họ. Giọng nói cũng có thể cho biết khi nào ai đó vừa mới thức dậy hoặc cảm thấy mệt mỏi.

Klick Labs đã xác định được 12.000 dấu ấn sinh học này, nhưng để phân biệt con người với máy móc, Jaycee Kaufman, nhà khoa học chính của Klick, cho biết cho đến nay nó dựa vào năm thứ – độ dài và sự biến đổi của lời nói, tốc độ của các khoảng dừng nhỏ và các khoảng dừng lớn và tỷ lệ tổng thể dành thời gian để nói thay vì tạm dừng.

Cô nói các khoảng dừng vi mô kéo dài chưa đầy nửa giây và các khoảng dừng vĩ mô thì nhiều hơn thời gian đó. Chúng thường xảy ra một cách tự nhiên khi ai đó đang nói và chỉ đơn giản là hít một hơi hoặc đang nắm bắt từ ngữ.

Fossat nói thêm: “Chúng ta không thực sự chú ý đến nó, nhưng nó đang xảy ra.”

“Chúng ta có bộ não và nó cần suy nghĩ, chúng ta có phổi và chúng ta cần thở. Máy móc không có cái đó nên không làm được.”

Cho đến nay, phương pháp xác định deepfakes của Klick Labs có tỷ lệ thành công 80%, nhưng có thể không tồn tại được lâu.

Fossat cho biết, việc phân biệt một clip có phải là deepfakes hay không càng ngày càng khó hơn vì AI không ngừng phát triển và “ngày càng trở nên tốt hơn trong việc phát ra âm thanh giống giọng nói của con người.”

“Ví dụ: OpenAI, công ty sản xuất (chatbot AI tổng hợp) ChatGPT vừa ra mắt vài tuần trước với một giọng nói deepfake mới rất hay,” ông  nói.

“Nó giả những hơi thở vi mô đó, điều này khá tuyệt vời.”

Ông khẳng định rằng sự phát triển này không khiến nghiên cứu của Klick Labs trở nên vô ích vì có hàng nghìn dấu ấn sinh học khác, như nhịp tim, nó có thể kiểm tra khả năng phát hiện deepfake.

Mười sáu nghiên cứu khác về dấu ấn sinh học giọng nói và các bệnh mà Klick Labs đang tiến hành cũng có thể hỗ trợ nghiên cứu của họ.

Một trong những nghiên cứu đó đã sử dụng dấu ấn sinh học giọng nói để chẩn đoán bệnh tiểu đường với độ chính xác 89% đối với phụ nữ và 86% đối với nam giới.

That research will soon be continued with a study Klick is set to run with Humber River Hospital in Toronto and Fossat said it could eventually form the basis of phone-based tools anyone can use to find out how at risk they are of having the disease.

Nghiên cứu đó sẽ sớm được tiếp tục với một nghiên cứu mà Klick chuẩn bị thực hiện với Bệnh viện Humber River ở Toronto và Fossat cho biết cuối cùng nó có thể tạo thành nền tảng cho các công cụ dựa trên điện thoại mà bất kỳ ai cũng có thể sử dụng để tìm hiểu xem họ có nguy cơ mắc bệnh như thế nào.

Mỗi tiến bộ trong nghiên cứu của Klick đồng nghĩa với việc có nhiều cơ hội hơn để tìm hiểu về dấu ấn sinh học và áp dụng nó vào việc phát hiện các bệnh và deepfakes, những thứ đang tỏ ra khó theo kịp.

“Nó di chuyển rất nhanh mỗi khi bạn làm điều gì đó, cho đến khi bạn hoàn thành… mọi thứ đã thay đổi và chúng tôi phải làm lại”, Fossat nói.

© 2024 The Canadian Press

Bản tiếng Việt của The Canada Life

ĐỌC THÊM

  • We accept We accept