Reddit kiện Anthropic vì thu thập dữ liệu người dùng để huấn luyện trí tuệ nhân tạo

Trong một bước đi táo bạo, Reddit vừa chính thức đệ đơn kiện Anthropic, công ty đứng sau mô hình AI Claude, vì hành vi thu thập dữ liệu người dùng trái phép để huấn luyện trí tuệ nhân tạo. Vụ kiện này không chỉ là chuyện giữa hai công ty, mà có thể trở thành án lệ quan trọng về quyền dữ liệu trên internet và ranh giới đạo đức của AI thương mại.

Reddit kiện Anthropic vì thu thập dữ liệu người dùng để huấn luyện trí tuệ nhân tạo

Reddit cáo buộc điều gì?

Theo đơn kiện nộp tại tòa án bang California, Reddit cáo buộc:

  • Anthropic đã thực hiện hơn 100.000 yêu cầu truy cập (requests) trái phép đến máy chủ Reddit, ngay cả sau khi tuyên bố công khai rằng họ đã dừng hành vi này.
  • Cố tình vượt qua các biện pháp kỹ thuật như tệp robots.txt – công cụ phổ biến để ngăn bot thu thập dữ liệu.
  • Vi phạm điều khoản dịch vụ và thỏa thuận người dùng của Reddit.
  • Sử dụng dữ liệu cá nhân và bài viết đã bị xóa của người dùng Reddit để huấn luyện mô hình Claude mà không được phép.

Tại sao vụ kiện này lại nghiêm trọng?

Không phải vấn đề bản quyền mà là vi phạm hợp đồng và cạnh tranh không công bằng. Khác với các vụ kiện trước đây mà Anthropic từng đối mặt (về bản quyền sách và lời bài hát), Reddit không dựa vào luật sở hữu trí tuệ, mà dựa trên nguyên tắc hợp đồng và quyền quản lý nền tảng:

Dữ liệu người dùng trên Reddit không phải là dữ liệu công cộng tự do sử dụng. Nó được quản lý bởi các điều khoản rõ ràng, và Anthropic đã cố tình phớt lờ.” – Reddit

Reddit có quyền gì với dữ liệu người dùng?

Reddit cung cấp API trả phí có kiểm soát, với các đối tác như OpenAI và Google. Các thỏa thuận này bao gồm:

  • Cam kết xóa dữ liệu nhạy cảm khi yêu cầu
  • Bảo vệ quyền riêng tư người dùng
  • Trả phí bản quyền dữ liệu

Anthropic được cho là đã từ chối ký thỏa thuận, và tự động “scrape” dữ liệu mà không tôn trọng các giới hạn kỹ thuật hay hợp pháp.

Bằng chứng

Reddit trích dẫn một loạt trường hợp Claude tái tạo nguyên văn các bài đăng Reddit, bao gồm cả những bài đã bị xóa bởi người dùng điều này cho thấy không có cơ chế kiểm soát hoặc lọc dữ liệu nhạy cảm trong quá trình huấn luyện.

Thậm chí, Reddit dẫn lại một nghiên cứu năm 2021 do chính CEO Anthropic – Dario Amodei – đồng tác giả, trong đó Reddit được nhắc đến như một nguồn dữ liệu ngôn ngữ “giàu giá trị”.

Phản ứng từ thị trường và ngành AI

Sau khi Reddit nộp đơn kiện, giá cổ phiếu của công ty tăng gần 67%, cho thấy nhà đầu tư ủng hộ việc Reddit bảo vệ tài sản dữ liệu của mình vốn là mỏ vàng trong kỷ nguyên AI.

Anthropic đã phản hồi rằng họ “không đồng tình với cáo buộc” và sẽ bảo vệ mình tại tòa. Tuy nhiên, đây là vụ kiện thứ ba mà công ty phải đối mặt chỉ trong vòng 12 tháng:

  • Tháng 8/2024: Bị kiện tập thể bởi các tác giả văn học vì huấn luyện AI bằng sách không xin phép.
  • Tháng 10/2023: Universal Music Group và các nhà xuất bản kiện vì Claude tái tạo lời bài hát.

Là người giảng dạy AI và luôn theo sát các vấn đề pháp lý đạo đức trong AI ứng dụng, tôi nhận thấy: “Vụ kiện Reddit – Anthropic sẽ là hồi chuông cảnh báo: không phải cứ dữ liệu trên mạng là có thể sử dụng thoải mái để huấn luyện AI.

Tại sao đây là bước ngoặt?

Reddit không kiện vì bản quyền, mà vì vi phạm niềm tin người dùng điều mà nhiều nền tảng khác như Twitter, Stack Overflow, YouTube, Wikipedia… cũng đang lo ngại. Nếu Reddit thắng kiện, các nền tảng có thể siết quyền kiểm soát dữ liệu, khiến AI startups khó khăn hơn trong việc tiếp cận nguồn huấn luyện chất lượng.

Cuộc chiến pháp lý giữa Reddit và Anthropic là cuộc đấu giữa nền tảng và mô hình, giữa quyền kiểm soát dữ liệu và khát vọng xây dựng trí tuệ nhân tạo mạnh mẽ. Kết quả của vụ kiện này có thể định hình lại cách ngành AI huấn luyện mô hình ngôn ngữ lớn, đặc biệt trong bối cảnh chi phí dữ liệu tăng mạnh, và các nền tảng ngày càng đòi hỏi quyền kiểm soát và chia lợi nhuận.

Bạn đang làm nội dung số, phát triển ứng dụng AI, hay chỉ đơn giản là người dùng Reddit? Hãy theo dõi sát diễn biến vụ kiện này vì nó không chỉ là chuyện của Anthropic, mà là tiền đề cho luật chơi mới của cả ngành công nghiệp AI.

TÌM KIẾM KIẾN THỨC HOẶC KHÓA HỌC