Khoa học

Các nhà phát triển AI đang đe dọa sự tồn tại của Wikipedia

Tóm tắt:

  • Lượng truy cập tự động từ phần mềm khai thác dữ liệu đang làm tăng chi phí cho Quỹ Wikimedia vận hành Wikipedia.

  • Từ tháng 1/2024, lượng truy cập mạng tải hình ảnh và video từ Wikipedia tăng 50%.

  • 65% lượng truy cập tốn kém nhất đến từ phần mềm tự động khai thác dữ liệu.

  • Quỹ Wikimedia đang tìm cách quản lý lượng truy cập tự động và yêu cầu hỗ trợ từ nhà phát triển AI.

  • Họ không phản đối công nghệ AI, nhưng lo ngại về việc thiếu trích dẫn và nguồn thông tin gốc.

Phần mềm khai thác dữ liệu tự động đang tạo ra gánh nặng chi phí cho Wikipedia. Ảnh: Digital Information World

Phần mềm khai thác dữ liệu tự động đang tạo ra gánh nặng chi phí cho Wikipedia. Ảnh: Digital Information World

Wikipedia, một trong những nguồn tri thức đồ sộ nhất từng được xây dựng, chứa đóng góp từ hàng triệu người trên khắp thế giới, đang đối mặt với mối đe dọa ngày càng tăng từ các nhà phát triển trí tuệ nhân tạo, theo New Scientist.

Tổ chức phi lợi nhuận Quỹ Wikimedia vận hành Wikipedia cho biết từ tháng 1/2024 lượng truy cập mạng nhằm tải hình ảnh và video từ danh mục của trang tăng 50%. Sự tăng vọt đó chủ yếu đến từ chương trình khai thác dữ liệu tự động mà những nhà phát triển sử dụng để thu thập dữ liệu huấn luyện cho mô hình AI của họ. Lượng truy cập tăng chưa từng thấy có nghĩa Quỹ Wikimedia phải chi nhiều tiền hơn để phục vụ các trang của bách khoa toàn thư và nội dung khác từ trung tâm dữ liệu cho thuê của họ.

"Có nhiều báo cáo khác về các trang nội dung đang bị ảnh hưởng tương tự, nhưng khi một trang cực kỳ quan trọng như Wikimedia công khai vấn đề, mọi người sẽ chú ý", nhà nghiên cứu AI Elena Simperl ở Đại học King, London, cho biết. "Vấn đề họ đang thảo luận rất đáng lo ngại".

Theo Quỹ Wikimedia, 65% lượng truy cập Internet tốn kém nhất của họ đến từ phần mềm tự động khai thác dữ liệu. Chúng thường yêu cầu bài báo ít phổ biến và những truy vấn này phải chuyển tới trung tâm dữ liệu trung tâm thay vì sử dụng bộ nhớ đệm của bài báo phổ biến lưu trữ ở trung tâm dữ liệu địa phương. "Lượng sử dụng cao cũng gây rắc rối thường xuyên cho đội kỹ sư quản lý độ tin cậy trang web của chúng tôi. Họ buộc phải chặn lượng truy cập áp đảo từ các phần mềm đó trước khi nó tạo ra vấn đề cho người đọc", Quỹ Wikimedia chia sẻ.

Birgit Müller, giám đốc sản xuất ở Quỹ Wikimedia, cho biết tổ chức này đang tìm cách quản lý lượng truy cập từ phần mềm tự động và sẽ yêu cầu người dùng thương mại như nhà phát triển AI "trực tiếp hỗ trợ tính bền vững cho các dự án Wikimedia. "Một vấn đề thường bị xem nhẹ đối với nội dung công khai là nội dung cho phép truy cập miễn phí nhưng cơ sở hạ tầng để vận hành lại mất phí", Simperl nhấn mạnh.

Quỹ Wikimedia đã công bố kế hoạch dự thảo nhằm xác định nhà phát triển phía sau phần mềm khai thác dữ liệu với mục tiêu giảm 30% lượng truy cập tự động từ đó về mặt băng tần. Wikimedia cũng đối mặt với cạnh tranh trực tiếp từ chatbot AI có thể giải đáp câu hỏi về nhiều chủ đề khác nhau, ngay cả khi phản hồi AI không phải luôn đúng sự thực. Dù các trang Wikimedia chưa ghi nhận lượng truy cập trực tiếp sụt giảm do sự phát triển gần đây của AI, Müller bày tỏ lo ngại dịch vụ AI sử dụng nội dung của Wikimedia để cung cấp tóm tắt và giải đáp nhanh tự động thường không cung cấp đầy đủ trích dẫn và ngăn cản mọi người tiếp cận nguồn thông tin gốc.

Tuy nhiên, Quỹ Wikimedia không phản đối sử dụng công nghệ AI. Họ đã khai thác công cụ AI để giúp biên tập viên phát hiện hành vi phá hoại ở các trang Wikipedia, dự đoán chất lượng bài báo, đo độ tin cậy và gợi ý chỉnh sửa.

(Theo New Scientist)

Các tin khác

Lý do dự án công nghệ thông tin 10.000 tỷ nguy cơ ‘mắc cạn’

Lý do dự án công nghệ thông tin 10.000 tỷ nguy cơ ‘mắc cạn’

Bình Dương là một trong các địa phương top đầu về phát triển khoa học công nghệ, chuyển đổi số. Với mong muốn thay đổi diện mạo, tỉnh này đã lên kế hoạch đầu tư nhiều công trình xứng tầm, trong đó có Trung tâm công nghệ thông tin tập trung hơn 10.000 tỷ đồng. Tuy nhiên, dự án có nguy cơ “mắc cạn” do rào cản pháp lý.
‘Mẹ bé Bắp’ trở thành từ khoá hot nhất Quý I/2025

‘Mẹ bé Bắp’ trở thành từ khoá hot nhất Quý I/2025

Với tốc độ tìm kiếm tăng 13,1 lần trong quý I/2025, “mẹ bé Bắp” là một trong những từ khoá hot nhất Quý I/2025, cho thấy sự quan tâm của người dùng đến những lùm xùm xoay quanh câu chuyện kêu gọi và sử dụng tiền từ thiện. “Sáp nhập”, “phạt nguội” cũng là những từ khoá được quan tâm đặc biệt trong thời gian qua.