Dữ liệu "bẩn" phía sau siêu AI

Google, Meta sử dụng bộ dữ liệu "đã làm sạch" để đào tạo AI, nhưng thực tế vẫn còn chứa nội dung độc hại và nguy hiểm.

00:00 26-04-2023 2023-04-26 00:00:00 +0700

Nửa năm qua, các chatbot như ChatGPT trở nên nổi tiếng nhờ khả năng viết bài luận phức tạp, trò chuyện như con người, vượt qua bài thi dành cho sinh viên... Đằng sau đó là mô hình ngôn ngữ lớn (LLM) được huấn luyện bởi lượng dữ liệu khổng lồ.

Logo Google AI hiển thị trên smartphone. Ảnh: SOPA Image

C4, hay Colossal Clean Crawled Corpus, là bộ dữ liệu như vậy, được Google tập hợp từ hơn 15 triệu website trên toàn cầu và đang được dùng cho các mô hình ngôn ngữ lớn của Google lẫn LLaMA của Meta.

Theo Google, C4 được làm sạch, tức không còn chứa nội dung độc hại, ngôn ngữ xúc phạm hoặc phân biệt chủng tộc. Tuy nhiên, theo Washington Post, sự "sạch sẽ" của bộ dữ liệu này chỉ là bề ngoài. Phân tích cho thấy C4 có mặt của hơn 1.000 website theo chủ nghĩa dân tộc da trắng, hay Bookzz - kho lưu trữ sách điện tử vi phạm bản quyền khổng lồ, từng bị FBI đánh sập năm 2022.

Google chưa bình luận về thông tin trên.

C4 không phải bộ dữ liệu duy nhất tiềm ẩn nội dung độc hại. Một số thậm chí không có quy trình làm sạch như của Google. Công ty Stability AI, có trụ sở tại London, tuần trước phát hành LLM riêng với tên gọi StableLM. Theo công bố, StableLM được đào tạo trên Pile với dung lượng 850 GB. Phía sau bộ dữ liệu này là EleutherAI, đơn vị tự mô tả là "phòng nghiên cứu AI phi lợi nhuận".

Theo Guardian, EleutherAI từng gây tranh cãi khi thừa nhận dữ liệu Pile được tập hợp từ mọi ngóc ngách trên Internet, trong đó có 100 GB sách điện tử lấy từ website vi phạm bản quyền Bibliotik, 100 GB mã nguồn từ Github và 228 GB nội dung website trên toàn cầu từ 2008. Tất cả đều không có sự đồng ý của tác giả đứng sau.

Stability AI cho biết Pile "đem lại cho StableLM hiệu suất cao đáng ngạc nhiên trong các tác vụ và viết mã". Công ty sử dụng dữ liệu mã nguồn mở nhằm "thúc đẩy tính minh bạch và củng cố niềm tin", nhưng không bình luận về vấn đề vi phạm bản quyền của Pile.

Michael Wooldridge, giáo sư khoa học máy tính tại Đại học Oxford, cho rằng mô hình LLM đứng sau ChatGPT của OpenAI hay Bard của Google vẫn đang tiếp tục thu thập lượng dữ liệu khổng lồ. "Nó gồm mọi thứ trên Internet, mọi liên kết ở mọi website. Trong lượng dữ liệu không thể tưởng tượng đó có lẽ có thông tin của bạn và tôi. Chúng cũng không lưu trữ một chỗ, mà tỏa trên mạng lưới thần kinh khổng lồ và khó xác định", Wooldridge nói.

Theo ông, dữ liệu độc hại và vi phạm bản quyền sẽ là hai vấn đề có khả năng trở thành "cơn bão sắp diễn ra" đối với các công ty AI. "Sẽ có nhiều trận chiến pháp lý thời gian tới", ông dự đoán.

(theo Washington Post, Guardian)

Dữ liệu "bẩn" phía sau siêu AI

Đọc thêm

Ông Hoàng Nam Tiến rời ghế Chủ tịch FPT Telecom

Airbiquity được LiveWire lựa chọn cho hoạt động cung cấp các bản cập nhật phần mềm từ xa (Over-the-Air) dành cho xe máy điện

Trao quyết định của Thường vụ Thành uỷ Hà Nội về công tác cán bộ

Hình ảnh thiết kế nút giao 3.200 tỷ đồng "xóa" ùn tắc cửa ngõ Nam Hà Nội

Chủ xe SH ở Vĩnh Long bấm trúng biển "ngũ quý 2"

Tin tức 24h qua: Bảo hiểm chi 1,569 triệu USD bồi thường thân máy bay bị rơi trên biển Quảng Ninh

Dư địa phát triển bất động sản cao cấp tại Đà Nẵng

Danisa tặng hộp quà tri ân phiên bản giới hạn nhân Ngày của mẹ

Chủ tịch SSI Nguyễn Duy Hưng chia sẻ khi một NĐT tham gia từ năm 2007 xin bí quyết thành công của giới tinh anh

Chi phí dự phòng giảm, Vietbank báo lãi trước thuế tăng gần 75% so với cùng kỳ

Cựu Chủ tịch TP Hạ Long Phạm Hồng Hà lĩnh án 15 năm tù

Bên trong giếng trời hình hoa sen khổng lồ trước chợ Bến Thành

Lốc xoáy, nhiều hộ dân ở Đồng Nai bị tốc mái nhà, chìm bè cá

Ông Hoàng Nam Tiến thôi làm Chủ tịch FPT Telecom

ĐHĐCĐ PV Power: Đã thu xếp đủ vốn cho dự án Nhơn Trạch 3&4, tổ máy 1 nhiệt điện Vũng Áng 1 dự kiến vận hành vào tháng 8

Tin giả "nghe điện 5 giây mất 30 triệu đồng"

Trung tâm dữ liệu 2N đạt chuẩn cao nhất Telehouse

Công an TP HCM bắt hàng chục đối tượng vụ tiếp viên Vietnam Airlines xách ma túy

Trúng số 3 lần trong năm nhờ kiên định chơi một dãy số

Nguyễn Võ Quỳnh Trang rút đơn kháng cáo, chấp nhận án tử hình là do áp lực, mệt mỏi

Đối tác

Tin nổi bật

"Hãng sữa quốc dân" Vinamilk sau một năm sau tái định vị: Thương hiệu chạm mốc 3 tỷ USD, doanh thu tăng trưởng, tiếp đà tấn công 60 thị trường nước ngoài

Vietcombank cảnh báo chiêu lừa đảo mạo danh nhân viên ngân hàng hỗ trợ cập nhật sinh trắc học

Hòa Phát bị Uỷ ban Chứng khoán Nhà nước xử phạt vì lý do “hy hữu”

Bất động sản tăng giá nhanh hơn cả vàng SJC: Chung cư Hà Nội tăng 32% sau 16 tháng

Hơn một thập kỷ kinh doanh của giới nhà băng Việt Nam đã thay đổi như thế nào?

Cháy nhà máy pin lithium ở Hàn Quốc, ít nhất 20 người thiệt mạng

Cựu Chủ tịch Asanzo Phạm Văn Tam: Từ tay trắng khởi nghiệp bán tivi "made in Vietnam" đến bê bối lập lờ xuất xứ hàng hóa, nay vướng lao lý vì trốn thuế

Hàng loạt cải tiến từ Luật KD BĐS: Chủ đầu tư phải thanh toán qua ngân hàng, không được thu tiền cọc quá 5%, giao nhà phải đúng hạn

Chuyển tiền trên 10 triệu phải xác thực sinh trắc học từ 1/7: Người đã phẫu thuật thẩm mỹ có chuyển tiền được không?

Bất chấp lãi suất thấp, VN-Index chạm mốc 1.300 điểm, người dân vẫn gửi tiền vào ngân hàng cao kỷ lục

Cùng chuyên mục

Đọc thêm

Đối tác

Tin nổi bật