Công nghệ

Dữ liệu "bẩn" phía sau siêu AI

Nửa năm qua, các chatbot như ChatGPT trở nên nổi tiếng nhờ khả năng viết bài luận phức tạp, trò chuyện như con người, vượt qua bài thi dành cho sinh viên... Đằng sau đó là mô hình ngôn ngữ lớn (LLM) được huấn luyện bởi lượng dữ liệu khổng lồ.

Logo Goole AI hiển thị trên smartphone, đằng sau là nền website ChatGPT. Ảnh: SOPA Image

Logo Google AI hiển thị trên smartphone. Ảnh: SOPA Image

C4, hay Colossal Clean Crawled Corpus, là bộ dữ liệu như vậy, được Google tập hợp từ hơn 15 triệu website trên toàn cầu và đang được dùng cho các mô hình ngôn ngữ lớn của Google lẫn LLaMA của Meta.

Theo Google, C4 được làm sạch, tức không còn chứa nội dung độc hại, ngôn ngữ xúc phạm hoặc phân biệt chủng tộc. Tuy nhiên, theo Washington Post, sự "sạch sẽ" của bộ dữ liệu này chỉ là bề ngoài. Phân tích cho thấy C4 có mặt của hơn 1.000 website theo chủ nghĩa dân tộc da trắng, hay Bookzz - kho lưu trữ sách điện tử vi phạm bản quyền khổng lồ, từng bị FBI đánh sập năm 2022.

Google chưa bình luận về thông tin trên.

C4 không phải bộ dữ liệu duy nhất tiềm ẩn nội dung độc hại. Một số thậm chí không có quy trình làm sạch như của Google. Công ty Stability AI, có trụ sở tại London, tuần trước phát hành LLM riêng với tên gọi StableLM. Theo công bố, StableLM được đào tạo trên Pile với dung lượng 850 GB. Phía sau bộ dữ liệu này là EleutherAI, đơn vị tự mô tả là "phòng nghiên cứu AI phi lợi nhuận".

Theo Guardian, EleutherAI từng gây tranh cãi khi thừa nhận dữ liệu Pile được tập hợp từ mọi ngóc ngách trên Internet, trong đó có 100 GB sách điện tử lấy từ website vi phạm bản quyền Bibliotik, 100 GB mã nguồn từ Github và 228 GB nội dung website trên toàn cầu từ 2008. Tất cả đều không có sự đồng ý của tác giả đứng sau.

Stability AI cho biết Pile "đem lại cho StableLM hiệu suất cao đáng ngạc nhiên trong các tác vụ và viết mã". Công ty sử dụng dữ liệu mã nguồn mở nhằm "thúc đẩy tính minh bạch và củng cố niềm tin", nhưng không bình luận về vấn đề vi phạm bản quyền của Pile.

Michael Wooldridge, giáo sư khoa học máy tính tại Đại học Oxford, cho rằng mô hình LLM đứng sau ChatGPT của OpenAI hay Bard của Google vẫn đang tiếp tục thu thập lượng dữ liệu khổng lồ. "Nó gồm mọi thứ trên Internet, mọi liên kết ở mọi website. Trong lượng dữ liệu không thể tưởng tượng đó có lẽ có thông tin của bạn và tôi. Chúng cũng không lưu trữ một chỗ, mà tỏa trên mạng lưới thần kinh khổng lồ và khó xác định", Wooldridge nói.

Theo ông, dữ liệu độc hại và vi phạm bản quyền sẽ là hai vấn đề có khả năng trở thành "cơn bão sắp diễn ra" đối với các công ty AI. "Sẽ có nhiều trận chiến pháp lý thời gian tới", ông dự đoán.

(theo Washington Post, Guardian)

Các tin khác

Đam mê mới của Mark Zuckerberg

Đam mê mới của Mark Zuckerberg

Mark Zuckerberg được cho là đã bị AI mê hoặc, và các nhà phân tích đùa rằng CEO Meta đang tính đến chuyện đổi tên công ty thành MetAI.
HP ra máy in laser đa chức năng khổ A3

HP ra máy in laser đa chức năng khổ A3

Dòng máy LaserJet Managed MFP E800/E700 hỗ trợ đồng thời photo, in và scan tài liệu; công suất in tối đa 300.000 trang mỗi tháng, tối ưu hiệu suất doanh nghiệp.
Loạt màn hình gaming mạnh nhất của LG

Loạt màn hình gaming mạnh nhất của LG

LG cung cấp đa dạng dòng màn hình gaming UltraGear với tần số quét đến 240 Hz, tốc độ phản hồi 0,03 ms, đáp ứng nhu cầu từ cao cấp đến tầm trung.
Trung Quốc sắp tự làm chip nhớ

Trung Quốc sắp tự làm chip nhớ

Hãng chip nhớ hàng đầu Trung Quốc YMTC sẽ dùng toàn bộ thiết bị từ công ty nội địa thay vì nguồn nước ngoài để sản xuất từ năm tới.
"Mùa đông bán dẫn" đang kéo dài

"Mùa đông bán dẫn" đang kéo dài

Nhu cầu chip dành cho máy tính và smartphone suy yếu khiến khủng hoảng dư thừa của ngành bán dẫn có thể kéo dài hơn dự báo.
Twitter rối loạn vì tích xanh

Twitter rối loạn vì tích xanh

Tài khoản Twitter của một số người đã mất bỗng được cấp tích xanh, trong khi nhiều người nổi tiếng lại không còn dấu xác thực.
Trung Quốc khát nhân tài AI

Trung Quốc khát nhân tài AI

Nhu cầu về nhân tài AI của Trung Quốc đã tăng gấp ba lần so với 5 năm trước, nhưng chỉ có một số rất ít đạt trình độ cao.