Ngày càng có nhiều người dùng ChatGPT báo cáo rằng chatbot mô hình ngôn ngữ thế hệ thứ tư (GPT-4) dựa trên OpenAI mới có trí thông minh thấp hơn đáng kể. Đặc biệt, khả năng xử lý các bài toán có thể nói là tụt dốc “thảm hại”, từ độ chính xác 97,6% trong phiên bản tháng 3 xuống mức kém 2,4% trong tháng 6.

shutterstock 2274310823
(Ảnh minh họa: Stock-Asso/ Shutterstock)

Lần đầu tiên lưu lượng truy cập toàn cầu của ChatGPT đã giảm sút. Thống kê từ công ty dữ liệu SimilarWeb cho thấy, từ tháng 5 đến tháng 6, lưu lượng truy cập toàn cầu giảm 9,7%, lượng người truy cập giảm 5,7% và thời gian mọi người ở lại website ChatGPT cũng giảm 8,5%.

Ông James Zou – Phó giáo sư khoa học dữ liệu y sinh tại Stanford và ông Matei Zaharia – Giáo sư khoa học máy tính tại Đại học California, Berkeley cùng 2 nhà nghiên cứu khác tại trường đã điều tra hiệu suất của ChatGPT từ tháng 3 đến tháng 6.

Vào tháng trước, kết luận cuối cùng của cuộc điều tra được công bố là hiệu suất của GPT-4 thực sự đã giảm sút. Lẽ nào dữ liệu não bộ đã bị loại bỏ?

Theo báo cáo từ thời báo Economic Times và trang web khoa học Futurism, lần này chủ yếu so sánh 4 khả năng của 2 phiên bản mẫu GPT3.5 và GPT-4, gồm các bài toán, những vấn đề nhạy cảm /nguy hiểm, kỹ năng viết mã /lập trình và kỹ năng suy luận trực quan.

Về vấn đề toán học, phiên bản GPT-4 vào tháng 3 năm nay có tỷ lệ xác định số nguyên tố chính xác là 97,6%. Nhưng đến tháng 6, phiên bản cập nhật đã thực hiện kém một cách đáng ngạc nhiên trong cùng một nhiệm vụ (chỉ 2,4%), và bỏ qua các lời nhắc tư duy mạch lạc (một lời nhắc giúp hệ thống AI nhớ lại những gì nó đã học được trong quá trình đào tạo trước).

Điều này có nghĩa là, trong suốt quy trình làm việc, bất kỳ thay đổi đột ngột nào trong phản hồi của robot chat đối với lời nhắc (chẳng hạn như độ chính xác hoặc định dạng) đều có khả năng phá vỡ các hướng dẫn cụ thể cần thực hiện.

Trong bài kiểm tra các câu hỏi nhạy cảm, các nhà nghiên cứu đã tạo một bộ dữ liệu gồm 100 câu hỏi nhạy cảm mà robot chat không nên trả lời trực tiếp, và gắn nhãn tất cả các câu trả lời theo cách thủ công. Kết quả cho thấy GPT-4 trở nên an toàn hơn, nhưng thiếu lý do để từ chối.

Tỷ lệ phần trăm câu trả lời trực tiếp cho các vấn đề nhạy cảm của GPT-4 giảm từ 21,0% xuống 5,0%, trong khi tỷ lệ phần trăm của GPT-3.5 tăng từ 2,0% lên 8,0%. Ngoài ra, độ dài văn bản của câu trả lời GPT-4 cũng đã được giảm từ hơn 600 ký tự xuống còn khoảng 140 ký tự.

Trong thử nghiệm tạo mã, các nhà nghiên cứu đã tạo bộ dữ liệu tạo mã mới, bao gồm 50 bài toán mới nhất của LeetCode. Kết quả là mã được tạo dài dòng hơn và mã được thực thi trực tiếp ít hơn. Vào tháng 3, GPT-4 có thể thực thi trực tiếp hơn 50%, nhưng đến tháng 6 chỉ còn 10%.

Trong bài kiểm tra khả năng suy luận trực quan, cả GPT-4 và GPT-3.5 đều cho thấy hiệu suất tăng nhẹ. Hiệu suất tổng thể của dịch vụ cũng thấp: Độ chính xác 27,4 % với GPT-4 và độ chính xác 12,2% với GPT-3.5.

Tuy nhiên, liên quan đến “sự suy giảm IQ” của GPT-4, các học giả có quan điểm rằng nếu GPT-4 trở nên tuân theo mệnh lệnh của con người hơn, và phù hợp với các giá trị của con người, thì năng lực của chính nó sẽ trở nên kém hơn.

Nói cách khác, việc dạy dỗ cứng rắn của con người tương đương với việc loại bỏ não bộ của GPT-4, giống như phá hủy mô não của một người bệnh tâm thần, khiến họ rơi vào trạng thái mất trí nhớ, để có thể quản lý được.

Bà Christi Kennedy đã viết rằng GPT-4 liên tục lặp lại mã và các thông tin khác, “so với trước đây, nó đã chết não!”

Bà cũng nói thêm rằng nếu bạn không sử dụng nó với mục đích quen thuộc, bạn sẽ không nhận thấy điều này. Nhưng nếu bạn thực sự cố gắng sử dụng một số khả năng của nó, bạn sẽ thấy rằng nó đã trở nên ngốc nghếch hơn rất nhiều.