
Công cụ này cho phép chủ sở hữu trang web quyết định liệu các trình thu thập dữ liệu AI có được quyền truy cập nội dung của họ hay không, đồng thời thiết lập mức giá thông qua mô hình “trả tiền theo lượt thu thập” (pay per crawl), giúp họ kiểm soát cách tác phẩm của mình được sử dụng và được đền bù.
Trong bối cảnh các bot AI ngày càng thu thập nội dung mà không đưa người dùng quay trở lại nguồn gốc, các chủ website đang tìm kiếm nguồn doanh thu bổ sung, khi lượng truy cập từ công cụ tìm kiếm – vốn từng là nguồn thu quảng cáo chính – đang giảm dần.
Sáng kiến của Cloudflare – nhà cung cấp hạ tầng đám mây phục vụ cho 20% web toàn cầu, nhận được sự ủng hộ từ các nhà xuất bản lớn như Condé Nast và Associated Press, cũng như các công ty mạng xã hội như Reddit và Pinterest.
Giám đốc chiến lược của Cloudflare, bà Stephanie Cohen, cho biết mục tiêu của các công cụ như vậy là giúp các nhà xuất bản kiểm soát nội dung của họ, đồng thời đảm bảo một hệ sinh thái bền vững cho những người sáng tạo nội dung trực tuyến và các công ty AI.
Bà Cohen khẳng định: “Sự thay đổi trong mô hình lưu lượng truy cập đã diễn ra rất nhanh và cần phải có một giải pháp thay thế”, đồng thời cho biết: “Đây mới chỉ là khởi đầu cho một mô hình internet hoàn toàn mới”.
Ví dụ, theo dữ liệu từ Cloudflare, tỷ lệ giữa lượt thu thập dữ liệu và lượt truy cập mà Google trả lại các trang web đã giảm từ 6:1 xuống còn 18:1 chỉ trong vòng sáu tháng qua, cho thấy Google vẫn duy trì tần suất thu thập nhưng giảm lượng giới thiệu người dùng quay lại trang gốc.
Sự sụt giảm này có thể bắt nguồn từ việc người dùng tìm được câu trả lời ngay trong kết quả tìm kiếm của Google, chẳng hạn như thông qua tính năng AI Overviews. Tuy nhiên, tỷ lệ của Google vẫn còn cao hơn rất nhiều so với các công ty AI khác – chẳng hạn, tỷ lệ của OpenAI là 1.500:1.
Trong nhiều thập niên, các công cụ tìm kiếm đã lập chỉ mục nội dung trên internet và hướng người dùng quay lại các website, một mô hình giúp người sáng tạo nội dung được tưởng thưởng khi sản xuất nội dung chất lượng.
Tuy nhiên, bot của các công ty AI đang phá vỡ mô hình này khi thu thập dữ liệu mà không mang lại lượt truy cập trở lại nguồn gốc, đồng thời tổng hợp thông tin qua các chatbot như ChatGPT – làm mất đi nguồn thu và sự ghi nhận cho người sáng tạo nội dung.
Nhiều công ty AI hiện đang phớt lờ tiêu chuẩn web phổ biến vốn được các nhà xuất bản sử dụng để chặn việc thu thập nội dung nhằm huấn luyện hệ thống AI và họ lập luận rằng mình không vi phạm pháp luật khi truy cập nội dung miễn phí.
Đáp lại, một số nhà xuất bản, chẳng hạn như The New York Times đã kiện các công ty AI vì vi phạm bản quyền, trong khi những đơn vị khác chọn cách ký kết các thỏa thuận cấp phép nội dung. Ngay cả các diễn đàn như Reddit cũng đã kiện startup AI Anthropic với cáo buộc đã thu thập bình luận của người dùng để huấn luyện chatbot AI, đồng thời cũng ký một hợp đồng cấp phép nội dung với Google.
Các công ty AI có thể làm gì để giải quyết vấn đề này
1. Đàm phán và cấp phép (Licensing & Negotiation)
Đây là cách trực tiếp và được khuyến khích nhất. Thay vì thu thập dữ liệu một cách “miễn phí” hoặc “không được phép”, các công ty AI có thể:
Ký kết thỏa thuận cấp phép trực tiếp: Tiếp cận các nhà xuất bản, website và tổ chức sở hữu nội dung để đàm phán các thỏa thuận sử dụng dữ liệu. Điều này có thể bao gồm các khoản phí truy cập, phí bản quyền hoặc các hình thức chia sẻ doanh thu khác.
Hợp tác với các nền tảng trung gian: Một số công ty đang phát triển các thị trường dữ liệu (data marketplaces) nơi các nhà xuất bản có thể đăng ký nội dung của họ để được các công ty AI cấp phép sử dụng.
Thực hiện các thỏa thuận chia sẻ giá trị: Ví dụ, các công ty AI có thể đề xuất chia sẻ doanh thu từ các sản phẩm hoặc dịch vụ được phát triển bằng dữ liệu đó, hoặc cung cấp các công cụ AI miễn phí/giảm giá cho các nhà xuất bản đổi lấy quyền truy cập dữ liệu.
2. Sử dụng dữ liệu công khai hoặc được cấp phép tự do
Tập trung vào dữ liệu Public Domain và Open-Source: Ưu tiên huấn luyện mô hình trên các tập dữ liệu đã hết hạn bản quyền, được phát hành dưới giấy phép mở (như Creative Commons) hoặc các nguồn thông tin công khai không có yêu cầu hạn chế sử dụng thương mại.
Dữ liệu tổng hợp (Synthetic Data): Phát triển các kỹ thuật tạo ra dữ liệu tổng hợp bằng AI để bổ sung cho dữ liệu thực. Mặc dù dữ liệu tổng hợp có thể không hoàn toàn phản ánh độ phức tạp của thế giới thực, nó có thể giúp giảm sự phụ thuộc vào dữ liệu “thực” và tránh các vấn đề bản quyền.
3. Cải thiện công nghệ thu thập và tuân thủ giao thức
Tôn trọng các tiêu chuẩn mới: Tuân thủ chặt chẽ hơn các quy tắc được đặt ra trong tệp robots.txt của website, và chủ động cập nhật để tuân thủ các tiêu chuẩn mới như robots.txt mở rộng của Cloudflare hoặc các giao thức về AI crawler trong tương lai.
Sử dụng công cụ của Cloudflare theo hướng tích cực: Thay vì coi đây là rào cản, các công ty AI có thể sử dụng công cụ của Cloudflare như một cách để nhận diện các website sẵn lòng hợp tác hoặc tìm kiếm đối tác tiềm năng. Nếu Cloudflare cung cấp cơ chế để website cho phép truy cập có điều kiện, công ty AI có thể tận dụng điều đó.
Huấn luyện mô hình nhỏ hơn, chuyên biệt hơn: Thay vì xây dựng các mô hình khổng lồ đòi hỏi lượng dữ liệu cực lớn từ mọi ngóc ngách internet, các công ty có thể tập trung vào việc huấn luyện các mô hình nhỏ hơn, chuyên biệt hơn với các tập dữ liệu có chất lượng cao hơn và được cấp phép rõ ràng.
4. Thay đổi chiến lược huấn luyện mô hình
Tập trung vào dữ liệu độc quyền hoặc được tạo ra nội bộ: Một số công ty lớn có thể đầu tư vào việc tự tạo ra dữ liệu chất lượng cao hoặc mua các tập dữ liệu độc quyền từ các đối tác.
Nghiên cứu các phương pháp học hiệu quả hơn với ít dữ liệu hơn: Phát triển các thuật toán học máy cho phép mô hình đạt hiệu suất cao với lượng dữ liệu nhỏ hơn hoặc kém đa dạng hơn.
https%3A%2F%2F1thegioi.vn%2Fcloudflare-tung-don-chi-mang-khi-xay-tuong-lua-voi-cac-cong-ty-ai-234394.html