Đó là lời khai của Eli Collins, Phó chủ tịch Google DeepMind, trong phiên tòa chống độc quyền ở Washington (Mỹ) hôm 2.5. Lý do vì các các biện pháp kiểm soát mà Google cung cấp để nhà xuất bản từ chối cho huấn luyện AI chỉ áp dụng với hoạt động của DeepMind chứ không phải bất kỳ tổ chức nào khác trong công ty, ông Eli Collins tiết lộ.
Google DeepMind là một phòng thí nghiệm nghiên cứu AI hàng đầu thế giới, thuộc sở hữu của Alphabet (công ty mẹ Google).
“Khi ông đưa mô hình Gemini vào bộ phận phụ trách tìm kiếm, đơn vị đó có thể huấn luyện AI bằng dữ liệu mà nhà xuất bản đã từ chối cho dùng, đúng không?”, bà Diana Aguilar (luật sư Bộ Tư pháp Mỹ) hỏi.
“Đúng vậy, để sử dụng trong tìm kiếm”, Eli Collins trả lời.
Google đang tóm tắt các câu trả lời cho truy vấn tìm kiếm bằng AI ở đầu kết quả, điều này có thể khiến người dùng không nhấp vào các trang web độc lập để xem câu trả lời. Đây là xu hướng mà nhiều nhà xuất bản cho rằng đang ảnh hưởng đến doanh thu của họ. Google lại đang dùng dữ liệu từ chính những trang web này để tạo ra câu trả lời dạng AI.

Google đưa Eli Collins ra làm nhân chứng trong một phiên tòa kéo dài ba tuần tại tòa án liên bang ở Washington, nhằm xác định cách công ty nên khôi phục cạnh tranh trong thị trường tìm kiếm trực tuyến. Năm ngoái, Thẩm phán liên bang Amit Mehta đã phán quyết rằng Google độc quyền bất hợp pháp trên thị trường tìm kiếm và đang xem xét biện pháp do các cơ quan chống độc quyền đề xuất để khắc phục tình trạng này.
Bộ Tư pháp Mỹ đang kêu gọi tòa buộc Google phải bán trình duyệt Chrome và chia sẻ dữ liệu chính mà công ty đang dùng để tạo ra kết quả tìm kiếm. Cơ quan này cũng yêu cầu Thẩm phán Amit Mehta cấm Google chi tiền để trở thành công cụ tìm kiếm mặc định trên ứng dụng và thiết bị của Apple, Samsung cùng nhiều hãng khác. Hạn chế này sẽ áp dụng cả với những sản phẩm AI của Google, trong đó có Gemini, mà chính phủ Mỹ cho rằng đã hưởng lợi từ sự thống trị bất hợp pháp trong lĩnh vực tìm kiếm.
Luật sư Diana Aguilar hỏi Eli Collins liệu ông có biết bộ phận tìm kiếm Google có quyền truy cập thêm bao nhiêu dữ liệu ngoài nội dung mà DeepMind đã dùng để huấn luyện AI không. Khi Eli Collins trả lời “không biết”, Diana Aguilar đã trình bày một tài liệu có tiêu đề Search GenAI <> Gemini v3, ghi ngày 26.8.2024.
Theo tài liệu đó, Google đã xóa 80 tỉ trong số 160 tỉ token sau khi lọc bỏ tài liệu mà các nhà xuất bản đã từ chối cho sử dụng trong huấn luyện AI. Tài liệu cũng liệt kê “dữ liệu phiên tìm kiếm”, tức dữ liệu được thu thập trong một khoảng thời gian người dùng tương tác với Google Search cũng như YouTube. Đó là những dữ liệu có thể tăng cường khả năng cho các mô hình AI của Google.
Sau khi xem tài liệu, Thẩm phán Amit Mehta hỏi lại để làm rõ: “80 tỉ trong số 160 tỉ token, tức 50%, bị loại do các nhà xuất bản từ chối?”. Eli Collins trả lời: “Đúng vậy”.
Trong ngữ cảnh AI và xử lý ngôn ngữ tự nhiên, đặc biệt là khi nói về việc đào tạo các mô hình như Gemini, token là đơn vị cơ bản của văn bản. Một token có thể là một từ, một phần của từ hoặc thậm chí là một ký tự tùy vào cách mô hình xử lý dữ liệu văn bản.
Tiếp đó, luật sư của Google cố gắng chứng minh rằng việc hãng này thống trị mảng tìm kiếm không cản trở các công ty AI khác cạnh tranh gay gắt trong việc cung cấp kết quả chính xác, thời gian thực thông qua dịch vụ chatbot của họ. Ví dụ, nếu người dùng hỏi một chatbot AI về tỉ số thể thao, Eli Collins nói rằng nó có thể trả lại câu trả lời đúng vì công ty phát triển chatbot có thỏa thuận thương mại với nhà cung cấp dữ liệu thể thao, không cần phụ thuộc vào dữ liệu web.
Tuy nhiên, lời khai cũng cho thấy Google đã nghiên cứu khả năng cải thiện mô hình AI của mình thông qua dữ liệu mà họ thu thập được sau nhiều năm vận hành công cụ tìm kiếm phổ biến nhất thế giới.
Trong một phần khác của cuộc thẩm vấn, luật sư Diana Aguilar để Eli Collins xem một tài liệu trình bày dành cho Demis Hassabis – Giám đốc điều hành Google DeepMind.
Trong một bình luận, ông Demis Hassabis từng bày tỏ ý tưởng về việc huấn luyện mô hình AI chưa xác định của Google bằng lượng lớn dữ liệu tìm kiếm, gồm cả xếp hạng tìm kiếm. Mục đích của Demis Hassabis là muốn xem nó cải thiện khả năng đến mức nào so với mô hình AI không được huấn luyện bằng dữ liệu tìm kiếm này.
“Google có thực sự xây dựng một mô hình bằng dữ liệu tìm kiếm không?”, Diana Aguilar hỏi Eli Collins.
“Tôi không biết có chuyện đó xảy ra”, Eli Collins trả lời.
“Nhưng ít nhất ông Hassabis nghĩ rằng đó là điều đáng để thử nghiệm, đúng không?”, Diana Aguilar tiếp tục hỏi.
“Đúng vậy”, Eli Collins đáp.
AI Overviews của Google có hơn 1,5 tỉ người sử dụng hàng tháng
Google bắt đầu thử nghiệm AI Overviews, tính năng tóm tắt bằng AI trong kết quả tìm kiếm, từ hai năm trước. Hiện Google tiếp tục mở rộng AI Overviews sang các khu vực và ngôn ngữ mới.
AI Overviews đang được hơn 1,5 tỉ người sử dụng hàng tháng trên hơn 100 quốc gia. Theo Google, đây là một thành công lớn.
AI Overviews tổng hợp kết quả từ khắp nơi trên internet để trả lời một số câu hỏi nhất định. Khi bạn tìm kiếm những thứ như “AI tạo sinh là gì?”, AI Overviews sẽ hiển thị đoạn văn bản do AI tạo ra ở đầu trang kết quả tìm kiếm của Google. Dù AI Overviews đã làm giảm lượng truy cập đến một số nhà xuất bản, Google vẫn coi đây và các tính năng tìm kiếm dựa trên AI khác là những nguồn doanh thu tiềm năng cũng như cách để tăng mức độ tương tác với Search của mình.
Tháng 10.2024, Google đã triển khai quảng cáo trong AI Overviews. Gần đây hơn, công ty bắt đầu thử nghiệm AI Mode (chế độ AI), cho phép người dùng đặt câu hỏi phức tạp và tiếp tục trao đổi trong quá trình tìm kiếm trên Google. Đây là nỗ lực của Google nhằm cạnh tranh với các giao diện tìm kiếm dựa trên hội thoại như ChatGPT Search và Perplexity.
Trong buổi công bố kết quả tài chính quý 1/2025 vào tháng trước, Google nhấn mạnh sự tăng trưởng của các sản phẩm tìm kiếm dựa trên AI khác, gồm cả Circle to Search. Tính năng này cho phép bạn khoanh vùng một nội dung bất kỳ trên màn hình smartphone và đặt câu hỏi về nó.
Google cho biết Circle to Search hiện đã có mặt trên hơn 250 triệu thiết bị, tăng từ khoảng 200 triệu thiết bị vào cuối năm ngoái. Theo công ty, mức độ sử dụng Circle to Search trong quý 1/2025 đã tăng gần 40% so với quý 4/2024.
Google cũng lưu ý rằng lượng tìm kiếm bằng hình ảnh trên các nền tảng của họ đang tăng đều đặn. Theo Sundar Pichai – Giám đốc điều hành Google, số lượt tìm kiếm qua Google Lens (công nghệ tìm kiếm đa phương thức tích hợp AI) đã tăng thêm 5 tỉ kể từ tháng 10.2024. Số người mua sắm qua Google Lens cũng tăng hơn 10% trong quý 1/2025.
Sự tăng trưởng này diễn ra trong bối cảnh Google đang chịu sự giám sát chặt chẽ về mặt pháp lý với các hoạt động tìm kiếm. Bộ Tư pháp Mỹ đã gây áp lực buộc Google phải bán trình duyệt Chrome sau khi tòa án xác định tập đoàn công nghệ này độc quyền tìm kiếm trực tuyến một cách bất hợp pháp.
Một thẩm phán liên bang cũng ra phán quyết Google đang độc quyền ở lĩnh vực công nghệ quảng cáo, mở ra khả năng hãng này có thể bị chia tách trong tương lai.
https%3A%2F%2F1thegioi.vn%2Fgoogle-co-the-huan-luyen-cac-san-pham-ai-cho-tim-kiem-bang-noi-dung-tren-web-du-bi-tu-choi-232188.html