Google vừa chính thức giới thiệu mô hình Gemma 4 cho phép vận hành trực tiếp trên phần cứng Điện thoại thông qua ứng dụng AI Edge Gallery. Người dùng hiện có thể tải về và sử dụng Trí tuệ nhân tạo này hoàn toàn miễn phí trên hai nền tảng App Store và Google Play mà không cần kết nối mạng hay thuê máy chủ đám mây đắt đỏ. Đây là bước tiến quan trọng giúp phổ cập AI cục bộ, tuy nhiên sức mạnh thực tế của công cụ này phụ thuộc rất lớn vào thông số kỹ thuật của từng thiết bị.
Cài đặt Google AI Edge Gallery và yêu cầu phần cứng thực tế
Điểm ấn tượng đầu tiên khi tiếp cận Google AI Edge Gallery là sự đơn giản trong việc cài đặt. Không cần phải xếp hàng chờ hay đăng ký tài khoản trả phí, người dùng chỉ cần tìm kiếm và tải ứng dụng trực tiếp từ App Store hoặc Google Play. Ngay sau khi mở ứng dụng, giao diện hiển thị trực quan các mô hình thuộc Google Gemma sẵn sàng để tải xuống.

Trong quá trình thử nghiệm trên nhiều thiết bị, sự khác biệt về phần cứng bộc lộ rất rõ nét. Với những điện thoại cao cấp, việc vận hành các mô hình Gemma 4 diễn ra khá mượt mà nhờ dung lượng RAM lớn và chip xử lý tối ưu. Ngược lại, trên các dòng điện thoại đời cũ có RAM dưới 6GB, hệ thống có dấu hiệu chậm lại khi sử dụng các mô hình mạnh. Đối với những thiết bị cấu hình trung bình, việc ưu tiên lựa chọn biến thể Gemma 3 với 1 tỷ tham số mang lại tốc độ phản hồi tốt hơn hẳn. Điều này cho thấy để khai thác hiệu quả sức mạnh của AI cục bộ, người dùng sẽ cần một thiết bị có ít nhất 8GB RAM và chip xử lý đồ họa (GPU) mạnh mẽ. Để có cái nhìn khách quan nhất về hiệu năng xử lý AI trên các cấu hình máy khác nhau, mình đã tiến hành thử nghiệm mô hình Gemma 4 trên hai máy là Oppo Find X8 Pro (đại diện phân khúc cao cấp) và Redmi Note 15 Pro+ 5G (đại diện phân khúc tầm trung) để so sánh tốc độ phản hồi.
Tính năng AI Chat là trung tâm của ứng dụng, nơi người dùng trực tiếp trò chuyện và hỏi đáp với AI. Tính năng này cũng tập hợp nhiều phiên bản mô hình thuộc hệ sinh thái Google để người dùng lựa chọn và tải xuống. Sau khi chọn mô hình Gemma-4-E2B-it và đợi khoảng 15 giây để hệ thống khởi tạo bộ nhớ, mình bắt đầu với những câu hỏi vấn đáp cơ bản ví dụ như là: “có bao nhiêu chữ “R” trong chữ strawberry” , cả hai thiết bị đều đưa ra đáp án chính xác là ba chữ R. Tuy nhiên, tốc độ xử lý lại có khoảng cách rất lớn khi Oppo Find X8 Pro chỉ mất vỏn vẹn 1,4 giây để phản hồi, trong khi Redmi Note 15 Pro+ 5G phải mất tới 11,5 giây mới có kết quả hoàn chỉnh. Điều này cho thấy ngay cả với những tác vụ đơn giản, sức mạnh của của phần cứng đã tạo nên sự khác biệt đáng kể về trải nghiệm người dùng.

Sự chênh lệch này còn lớn hơn khi mình thử thách hai thiết bị với một bài toán logic phức tạp về việc đong nước. Ở bài test này, mình đã kích hoạt chế độ Thinking trên cả hai máy để AI có thêm thời gian lập luận sâu. Kết quả là Oppo Find X8 Pro phản hồi rất nhanh và chỉ mất khoảng 2 phút để đưa ra lời giải hoàn chỉnh từng bước. Trong khi đó, chiếc Redmi Note 15 Pro+ 5G đã phải vật lộn với các phép tính toán và mất đến gần 20 phút mới có thể hoàn thành. Qua hai bài kiểm tra thực tế này, mình khẳng định chất lượng phần cứng chính là yếu tố cốt lõi ảnh hưởng trực tiếp tới năng lực xử lý của AI cục bộ.

Ngoài ra việc can thiệp vào các thông số như Temperature hay Top P/K trong phần cài đặt cũng mang lại những kết quả thú vị. Khi đẩy mức Temperature lên cao, câu trả lời của AI trở nên bay bổng và sáng tạo hơn, phù hợp cho việc viết kịch bản hoặc lên ý tưởng. Ngoài ra thì người dùng cũng có thể chuyển đổi giữa GPU và CPU trong quá trình sử dụng, tuy nhiên theo mình thì GPU sẽ tối ưu hơn về tốc độ phản hồi còn CPU thì sẽ chậm hơn, nóng máy hơn và hao pin hơn. Mình cũng đã thử test bài toán logic bên trên nhưng sử dụng CPU thì Oppo phải mất thêm khoảng 3 phút rưỡi so với GPU thì mới giải xong. Một điểm trừ nhỏ là ứng dụng chưa cho phép lưu lại lịch sử hội thoại dài hạn mà chỉ lưu các câu lệnh đầu vào, điều này gây chút bất tiện khi muốn xem lại nội dung cũ.

Khả năng phân tích hình ảnh và nghe âm thanh
Google AI Edge Gallery không dừng lại ở định dạng văn bản thuần túy. Mình đã thử nghiệm các khả năng đa phương thức, đầu tiên là tính năng Ask Image (Hỏi bằng hình ảnh) bằng cách chụp một chiếc chuột máy tính và đặt câu hỏi: “Mô tả những gì thấy trong ảnh?”. Kết quả trả về rất chi tiết, từ màu sắc, logo đến các đặc điểm xung quanh đều chính xác mà không có hiện tượng ảo giác thông tin.

Tiếp đến là tính năng Audio Scribe, cho phép AI nghe rồi tóm tắt hoặc phiên dịch tệp âm thanh hoặc ghi âm trực tiếp. Trong bài kiểm tra thực tế với Tiếng Việt, hệ thống cho thấy những phản hồi bước đầu khá hứa hẹn nhưng vẫn chưa thực sự hoàn thiện. Khi thử nghiệm đếm từ 1 đến 10 bằng Tiếng Việt, mô hình đã nghe và nhận diện chính xác nội dung một cách nhanh chóng. Điều này chứng tỏ AI có khả năng nghe và hiểu ngôn ngữ Tiếng Việt.

Tuy nhiên, rào cản xuất hiện rõ rệt khi mình thử nghiệm một câu nói đầy đủ và yêu cầu dịch sang Tiếng Anh. Trong quá trình xử lý, AI đã hiểu sai ngữ cảnh và dịch nhầm từ “mỳ ý” thành “burger”. Sự nhầm lẫn này cho thấy khả năng hiểu ngữ nghĩa và từ vựng của Tiếng Việt trên mô hình cục bộ vẫn còn hạn chế so với Tiếng Anh. Hiện tại, tính năng này vẫn hoạt động ổn định nhất khi giao tiếp bằng Tiếng Anh. Ngoài ra, luồng thao tác sử dụng cũng còn rườm rà vì người dùng phải xóa cuộc hội thoại cũ để nhập một tệp âm thanh mới. Dù còn những điểm trừ, nhưng nếu Google cập nhật khả năng xử lý Tiếng Việt tốt hơn trong tương lai, đây sẽ là một công cụ cực kỳ hữu ích để tóm tắt nội dung cuộc họp nội bộ hoặc phiên dịch ghi âm trực tiếp mà không cần lo lắng về việc rò rỉ dữ liệu lên đám mây.
Điều khiển thiết bị và các kỹ năng mở rộng
Mobile Actions là một tính năng cho phép AI can thiệp trực tiếp vào các tác vụ trên điện thoại. Người viết đã thử nghiệm các lệnh cơ bản như yêu cầu bật đèn pin hay tạo một lịch hẹn mới. Kết quả là AI thực thi các lệnh này rất chính xác và nhanh chóng. Tuy nhiên, một lưu ý quan trọng là tính năng Mobile Actions hiện tại chỉ nhận lệnh bằng Tiếng Anh, nếu ra lệnh bằng Tiếng Việt, hệ thống sẽ hoàn toàn không phản hồi hoặc không thực hiện được tác vụ. Điều này đòi hỏi người dùng cần có vốn Tiếng Anh cơ bản để tương tác với phần cứng thiết bị. Mình cũng đã thử yêu cầu AI mở các ứng dụng bên thứ ba hoặc thực hiện các thao tác điều hướng phức tạp hơn, nhưng hệ thống hoàn toàn không làm được. Điều này cho thấy Mobile Actions mới chỉ dừng lại ở mức thử nghiệm các lệnh hệ thống cơ bản chứ chưa thể thay thế hoàn toàn thao tác tay của người dùng.

Ngoài ra, phần Agent Skills sẽ cung cấp những công cụ thực dụng cho công việc hàng ngày. Mình đã thử tạo một mã QR cho kênh YouTube Vật Vờ Studio ngay trong ứng dụng và nhận được kết quả chỉ sau vài giây. Tính năng Prompt Lab sẽ đem lại khả năng tóm tắt văn bản hoặc thay đổi tông điệu cho văn bản và email từ trang trọng sang thân thiện, tuy nhiên tính năng này vẫn chưa chỉnh sửa được nội dung Tiếng Việt.

Google AI Edge Gallery có thể sẽ thay đổi cách người dùng sử dụng AI trên điện thoại trong tương lai. Qua quá trình trải nghiệm, mình nghĩ đây là một công cụ hữu ích dành cho những ai ưu tiên tính bảo mật và sự linh hoạt. Toàn bộ dữ liệu được lưu trực tiếp trên máy, tốc độ xử lý nhanh nhờ sức mạnh phần cứng và hoàn toàn không cần kết nối mạng. Tuy nhiên, do ứng dụng vẫn đang trong giai đoạn thử nghiệm, người dùng cũng cần lưu ý một số hạn chế nhất định về tính năng cũng như khả năng hỗ trợ Tiếng Việt.
https%3A%2F%2Fvatvostudio.vn%2Ftrai-nghiem-google-ai-edge-gallery%2F





