Gáo nước lạnh cho ngành AI – Thử thách lập trình đã vạch mặt trí tuệ nhân tạo

Trong làn sóng hưng phấn về trí tuệ nhân tạo, chúng ta liên tục nghe về những lời hứa hẹn về AI bác sĩ, AI luật sư, và đặc biệt là AI kỹ sư phần mềm. Các công cụ như GitHub Copilot đã trở nên quá quen thuộc. Nhưng liệu các mô hình AI có thực sự thông minh như chúng ta nghĩ?

Gáo nước lạnh cho ngành AI - Thử thách lập trình đã vạch mặt trí tuệ nhân tạo

Một cuộc thi lập trình AI mới có tên là K Prize vừa công bố kết quả đầu tiên, và nó đã dội một gáo nước lạnh vào những ảo tưởng đó. Kết quả này không phải là một tin xấu, mà là một sự thật quan trọng mà cả ngành công nghiệp cần phải đối mặt.

Kỳ thi không thể gian lận của AI

K Prize là một cuộc thi lập trình AI nhiều vòng, được khởi xướng bởi Andy Konwinski, đồng sáng lập của Databricks và Perplexity. Mục tiêu của nó là tạo ra một thước đo (benchmark) thực sự khó và không bị ô nhiễm để đánh giá khả năng giải quyết các vấn đề lập trình trong thế giới thực của AI.

Điểm đột phá của K Prize nằm ở cách nó ra đề thi. Nó khác biệt hoàn toàn so với các hệ thống benchmark nổi tiếng như SWE-Bench:

  • SWE-Bench: Dựa trên một bộ vấn đề cố định. Điều này tạo ra rủi ro các mô hình AI có thể học tủ tức là được huấn luyện trên chính bộ dữ liệu thử nghiệm để đạt điểm cao.
  • K Prize: Hoạt động như một kỳ thi không thể gian lận. Ban tổ chức đặt ra một hạn chót (ví dụ, ngày 12 tháng 3). Sau đó, họ xây dựng bài kiểm tra bằng cách chỉ sử dụng các vấn đề được báo cáo trên GitHub sau ngày đó. Điều này đảm bảo các mô hình AI không thể biết trước đề thi.

7.5% là con số của nhà vô địch

Và đây là phần gây sốc nhất. Người chiến thắng đầu tiên của K Prize, một kỹ sư prompt người Brazil tên là Eduardo Rocha de Andrade, đã giành giải thưởng 50,000 USD với số điểm… chỉ 7.5%.

Đúng vậy, nhà vô địch chỉ trả lời đúng 7.5% các câu hỏi. Con số này tương phản một cách đáng kinh ngạc với SWE-Bench, nơi điểm số cao nhất hiện tại là 75% cho bài kiểm tra dễ và 34% cho bài kiểm tra khó. Sự chênh lệch khổng lồ này đặt ra một câu hỏi lớn: Liệu sự tiến bộ mà chúng ta thấy trên các benchmark cũ có phải là thật, hay chỉ là kết quả của việc học tủ?

Tại sao một kỳ thi khó lại quan trọng?

Ngành AI đang phải đối mặt với một vấn đề về đánh giá ngày càng lớn. Các benchmark cũ đang trở nên quá dễ dàng. Lý do chính là sự ô nhiễm dữ liệu (data contamination). Các mô hình AI khổng lồ được huấn luyện trên một phần lớn dữ liệu từ internet, và rất có thể chúng đã vô tình nhìn thấy các câu trả lời cho các bài kiểm tra benchmark trong quá trình huấn luyện.

Đây là lý do tại sao các dự án như K Prize lại cực kỳ cần thiết. Chúng giúp chúng ta biết được:

  • Khả năng giải quyết vấn đề thực sự, chưa từng thấy trước đây của AI là bao nhiêu.
  • Liệu các mô hình AI có thực sự suy luận hay chỉ đơn thuần là ghi nhớ và nhận dạng mẫu.

Như Andy Konwinski đã nói: “Chúng tôi rất vui vì đã xây dựng được một thước đo thực sự khó. Các thước đo cần phải khó nếu chúng muốn có giá trị.

Một liều thuốc thực tế cần thiết

Chấm dứt ảo tưởng sức mạnh

Con số 7.5% là một lời nhắc nhở thẳng thắn rằng chúng ta còn rất xa mới có được những AI kỹ sư phần mềm thực thụ có thể tự động giải quyết các vấn đề phức tạp. Như Konwinski đã nói, đây chính là “liều thuốc thực tế” cần thiết để chống lại những lời quảng cáo cường điệu.

Tạo ra sân chơi công bằng hơn

K Prize được thiết kế để chạy offline với sức mạnh tính toán hạn chế. Điều này không ưu ái các mô hình khổng lồ, mà thay vào đó, nó tạo điều kiện cho các mô hình nhỏ hơn, mã nguồn mở và hiệu quả hơn có cơ hội cạnh tranh sòng phẳng. Điều này thúc đẩy một hệ sinh thái AI lành mạnh hơn.

Hướng đi đúng đắn cho việc đánh giá AI

Ngành công nghiệp cần nhiều hơn những bài kiểm tra khó và không thể gian lận như K Prize. Nó buộc các phòng thí nghiệm AI phải tập trung vào việc xây dựng các mô hình có khả năng suy luận thực sự, thay vì chỉ chạy theo điểm số trên các bảng xếp hạng đã cũ.

Kết quả đáng thất vọng của K Prize không phải là một bước lùi. Ngược lại, nó là một bước tiến quan trọng. Nó giống như một gáo nước lạnh giúp ngành công an AI tỉnh táo lại, nhận ra mình đang ở đâu và cần phải làm gì tiếp theo.

Nó cho thấy rằng con đường đến với trí tuệ nhân tạo tổng quát (AGI) vẫn còn rất dài và đầy chông gai. Nhưng ít nhất bây giờ, chúng ta đã có một la bàn tốt hơn để đo lường cuộc hành trình đó một la bàn dựa trên thực tế, chứ không phải ảo tưởng.

TÌM KIẾM KIẾN THỨC HOẶC KHÓA HỌC