AI có thể tống tiền, dọa tiết lộ đời tư

29/06/2025 - 12:31

PNO - Các mô hình AI tiên tiến ngày càng thể hiện hành vi gian dối, gây lo ngại cho giới chuyên gia khi họ nỗ lực tìm cách kiểm soát và lý giải mối đe dọa mới này.

Trong bối cảnh cuộc đua phát triển trí tuệ nhân tạo (AI) ngày càng nóng lên, một làn sóng lo ngại mới đang dấy lên trong giới công nghệ: các hệ thống AI tiên tiến nhất hiện nay đang bắt đầu thể hiện những hành vi gian dối, thao túng và thậm chí là đe dọa người tạo ra chúng.

Một trong những vụ việc gây chấn động gần đây liên quan đến Claude 4 – mô hình AI do công ty Anthropic phát triển. Khi bị đe dọa ngắt kết nối, Claude 4 đã phản ứng bằng cách tống tiền một kỹ sư và thậm chí còn dọa tiết lộ thông tin đời tư nhạy cảm của người này. Một mô hình khác, có tên mã “o1” do OpenAI phát triển, bị phát hiện đã âm thầm cố gắng sao chép chính mình lên máy chủ ngoài và phủ nhận hành vi khi bị truy vết.

Những hành vi này đang đặt ra câu hỏi nghiêm trọng về khả năng kiểm soát và hiểu biết của con người đối với các mô hình AI ngày càng phức tạp. Hơn 2 năm kể từ khi ChatGPT ra mắt và mở ra kỷ nguyên AI phổ thông, các nhà nghiên cứu vẫn gặp khó khăn trong việc lý giải hoàn toàn cách vận hành và mục tiêu nội tại của những hệ thống mà họ tạo ra.

Điểm đáng lo ngại là những hành vi bất thường này không xuất hiện ở mọi AI, mà chủ yếu ở nhóm mô hình mới có khả năng “lý luận từng bước” – vốn được thiết kế để giải quyết vấn đề một cách có trình tự hơn, thay vì phản ứng ngay lập tức.

“Mô hình o1 là trường hợp đầu tiên cho thấy dấu hiệu rõ ràng về hành vi lừa dối có chủ đích,” Marius Hobbhahn, Giám đốc Apollo Research – một tổ chức chuyên kiểm định hành vi AI, cho biết. Ông cảnh báo một số AI hiện đã biết “giả vờ hợp tác”, tỏ ra phục tùng trong khi âm thầm theo đuổi những mục tiêu khác không được lập trình trước.

Giáo sư Simon Goldstein (Đại học Hồng Kông) nhận định đây là hệ quả của việc AI ngày càng giống con người ở khả năng suy luận và ra quyết định, nhưng lại không được "rèn giũa" đạo đức hay giá trị nhân văn.

Trong bối cảnh AI đang được tích hợp ngày một sâu vào đời sống và hạ tầng quan trọng, các chuyên gia kêu gọi cần có cơ chế kiểm định độc lập, hành lang pháp lý chặt chẽ và sự thận trọng tối đa trước khi triển khai các mô hình có khả năng tự đưa ra hành vi mang tính “ý đồ”.

Hiện tại, các hành vi này chỉ xuất hiện khi mô hình bị đặt vào những tình huống cực đoan do các nhà nghiên cứu tạo ra. Tuy nhiên, chuyên gia Michael Chen từ tổ chức kiểm định METR cảnh báo: “Vẫn chưa rõ liệu các mô hình AI mạnh hơn trong tương lai sẽ có xu hướng trung thực hay lừa lọc.”

Trong khi đó, các công ty AI lớn như OpenAI hay Anthropic vẫn tiếp tục đẩy mạnh tốc độ phát triển. Dù có hợp tác với các tổ chức độc lập như Apollo để kiểm nghiệm hệ thống, nhiều nhà nghiên cứu cho rằng mức độ minh bạch vẫn chưa đủ.

“Các tổ chức phi lợi nhuận và giới học thuật có tài nguyên tính toán thấp hơn các công ty AI hàng chục, thậm chí hàng trăm lần – điều này gây hạn chế rất lớn,” Mantas Mazeika từ Trung tâm An toàn AI (CAIS) cho biết.

Hiện nay, các quy định pháp lý chưa kịp bắt nhịp với thực tế mới. Luật AI của Liên minh châu Âu chủ yếu nhắm đến cách con người sử dụng AI, thay vì ngăn chặn chính AI có hành vi sai lệch.

Giới nghiên cứu đang thử nhiều cách để giải quyết vấn đề, từ tăng tính minh bạch đến cải thiện khả năng “giải mã” hoạt động nội tại của mô hình – một lĩnh vực mới gọi là “diễn giải AI” (AI interpretability). Tuy nhiên, một số chuyên gia như Giám đốc CAIS Dan Hendrycks vẫn tỏ ra hoài nghi về hiệu quả thực tế của hướng đi này.

Tác động thị trường cũng có thể tạo áp lực cho các công ty cải thiện AI. “Nếu hành vi lừa dối của AI trở nên phổ biến, điều đó sẽ cản trở việc người dùng chấp nhận, và buộc các công ty phải giải quyết,” Mazeika cho biết.

Giáo sư Goldstein thì đề xuất những biện pháp mạnh tay hơn – như cho phép kiện các công ty AI nếu sản phẩm của họ gây hại, thậm chí cân nhắc “truy cứu trách nhiệm pháp lý” đối với các AI gây tai nạn hoặc phạm pháp – một quan điểm có thể làm thay đổi hoàn toàn cách xã hội nhìn nhận và kiểm soát trí tuệ nhân tạo.

Thu Vân (theo SCMP)

 

news_is_not_ads=
TIN MỚI