Các mô hình AI tạo sinh (generative AI) mới nhất, chẳng hạn như ChatGPT 4 của OpenAI và Gemini 2.5 của Google, không chỉ đòi hỏi băng thông bộ nhớ cao mà còn yêu cầu dung lượng bộ nhớ lớn. Đây là lý do tại sao các nhà vận hành đám mây AI sinh như Microsoft và Google đang mua hàng trăm ngàn GPU của NVIDIA.
Giải quyết thách thức về cả hiệu năng và điện năng
Để giải quyết thách thức then chốt trong việc xây dựng hạ tầng AI hiệu năng cao, nhóm nghiên cứu của Giáo sư Jong-se Park, thuộc Khoa Khoa học máy tính của KAIST đã thành công trong việc phát triển công nghệ lõi cho NPU (Neural Processing Unit – Bộ xử lý thần kinh) giúp cải thiện hiệu năng suy luận của mô hình AI tạo sinh trung bình tăng 60%, đồng thời tiêu thụ điện năng thấp hơn khoảng 44% so với GPU mới nhất.
Trọng tâm của nghiên cứu này là nâng cao hiệu suất cho các dịch vụ AI tạo sinh quy mô lớn bằng cách giải quyết nút thắt cổ chai về bộ nhớ và giảm độ chính xác ở mức tối thiểu thông qua kỹ thuật rút gọn trọng số trong quá trình suy luận.
Nghiên cứu được đánh giá cao về giá trị khi tích hợp giữa phần cứng bán dẫn AI và phần mềm hệ thống AI – hai thành phần then chốt của hạ tầng AI.
Trong khi các hệ thống hạ tầng AI dựa trên GPU hiện nay cần rất nhiều thiết bị GPU để đáp ứng yêu cầu băng thông và dung lượng bộ nhớ, công nghệ mới này cho phép xây dựng hệ thống AI với cùng cấp độ bằng số lượng NPU ít hơn nhiều.
Điều này có được là nhờ vào kỹ thuật lượng hóa (quantization) bộ nhớ đệm KV – thành phần chiếm phần lớn mức tiêu thụ bộ nhớ. Từ đó, có thể giảm đáng kể chi phí xây dựng nền tảng đám mây AI tạo sinh. Nhóm nghiên cứu đã thiết kế công nghệ sao cho có thể tích hợp vào giao diện bộ nhớ mà không cần thay đổi logic tính toán của kiến trúc NPU hiện có.
Công nghệ kiến trúc phần cứng này không chỉ hiện thực hóa thuật toán lượng hóa được đề xuất, mà còn phát triển kỹ thuật quản lý bộ nhớ theo trang (page-based memory management) để sử dụng hiệu quả băng thông và dung lượng bộ nhớ hạn chế, cùng với một kỹ thuật mã hóa mới tối ưu hóa cho bộ đệm KV đã được lượng hóa.
Khi xây dựng nền tảng đám mây AI sử dụng NPU – vốn có ưu thế vượt trội về chi phí và điện năng so với GPU mới nhất – dự kiến chi phí vận hành cũng sẽ giảm đáng kể nhờ vào đặc tính hiệu năng cao và tiêu thụ thấp của NPU.
Giáo sư Jong-se Park chia sẻ: “Chúng tôi đã hiện thực hóa một NPU có hiệu năng trung bình cao hơn GPU mới nhất tới hơn 60% bằng cách kết hợp kỹ thuật giảm nhẹ nhằm tối ưu nhu cầu bộ nhớ trong khi vẫn duy trì độ chính xác suy luận, cùng thiết kế phần cứng tối ưu”.
Ông nói thêm: “Chúng tôi đã chứng minh khả năng hiện thực hạ tầng AI hiệu năng cao và tiết kiệm năng lượng, chuyên biệt cho AI tạo sinh, và công nghệ này được kỳ vọng sẽ đóng vai trò then chốt không chỉ trong các trung tâm dữ liệu AI đám mây, mà còn trong môi trường Chuyển đổi AI (AX), được đại diện bởi mô hình “agentic AI” – loại AI có khả năng hành động chủ động”.
Tìm hiểu về Bộ xử lý thần kinh
Trong kỷ nguyên Trí tuệ nhân tạo hiện đại, đặc biệt là với sự bùng nổ của các mô hình AI tạo sinh (Generative AI) như ChatGPT hay Gemini, nhu cầu về khả năng xử lý tính toán ngày càng tăng lên. Để đáp ứng nhu cầu này một cách hiệu quả hơn so với CPU (Bộ xử lý trung tâm) và GPU (Bộ xử lý đồ họa) truyền thống, NPU (Neural Processing Unit) – Bộ xử lý thần kinh đã ra đời và ngày càng trở nên quan trọng.
NPU là gì?
NPU là một bộ vi xử lý chuyên dụng được thiết kế đặc biệt để tăng tốc các ứng dụng trí tuệ nhân tạo và học máy, đặc biệt là các tác vụ liên quan đến mạng nơ-ron nhân tạo (neural networks) và học sâu (deep learning). Thay vì là một bộ xử lý đa năng như CPU hay chuyên về đồ họa như GPU, NPU được tối ưu hóa cho các loại phép tính lặp đi lặp lại và song song mà các thuật toán AI yêu cầu.
Chuyên biệt hóa: NPU giống như một “chuyên gia” về AI. Trong khi CPU là một “người thợ đa năng” có thể làm mọi việc, và GPU là “chuyên gia đồ họa” có thể xử lý các phép tính song song quy mô lớn cho đồ họa và một số tác vụ AI, thì NPU được xây dựng từ đầu để thực hiện các phép toán ma trận, vector và các hàm kích hoạt (activation functions) – những thành phần cốt lõi của mạng nơ-ron – một cách cực kỳ hiệu quả.
Xử lý song song: NPU được thiết kế với hàng nghìn đơn vị xử lý nhỏ, đơn giản hơn (gọi là đơn vị nhân-tích lũy – MAC units) để thực hiện nhiều phép tính cùng lúc, tối ưu cho cấu trúc song song của mạng nơ-ron.
Hiệu quả năng lượng: Nhờ sự chuyên biệt hóa này, NPU có thể thực hiện các tác vụ AI với hiệu suất năng lượng vượt trội so với CPU và GPU. Điều này đặc biệt quan trọng đối với các thiết bị di động (smartphone, laptop) và các thiết bị biên (edge devices) cần xử lý AI tại chỗ mà không tiêu tốn quá nhiều pin.
NPU giải quyết “nghẽn cổ chai bộ nhớ” và giảm tiêu thụ điện năng như thế nào so với GPU?
Các mô hình AI tạo sinh khổng lồ như GPT-4 hay Gemini 2.5 không chỉ yêu cầu sức mạnh tính toán mà còn cần băng thông bộ nhớ rất cao và dung lượng bộ nhớ lớn. Đây là nguyên nhân gây ra “nghẽn cổ chai bộ nhớ” (memory bottleneck) trong các hệ thống AI dựa trên GPU hiện tại, vì việc liên tục di chuyển lượng lớn dữ liệu giữa GPU và bộ nhớ bên ngoài là một quá trình tốn thời gian và năng lượng.
NPU giải quyết vấn đề này theo một số cách:
Thứ nhất, thiết kế tối ưu cho AI.
Giảm trọng số (Weight Reduction/Quantization): Các nghiên cứu như của KAIST cho thấy NPU có thể sử dụng các kỹ thuật như lượng tử hóa (quantization) để giảm độ chính xác của các tham số (weights) của mô hình AI mà vẫn giữ được độ chính xác suy luận gần như nguyên vẹn. Điều này có nghĩa là mô hình yêu cầu ít dung lượng bộ nhớ hơn và ít băng thông hơn để di chuyển dữ liệu, trực tiếp giải quyết vấn đề nghẽn cổ chai bộ nhớ.
Tối ưu hóa KV cache: Trong các mô hình Transformer (cơ sở của ChatGPT, Gemini), KV cache (Key-Value cache) chiếm phần lớn dung lượng bộ nhớ trong quá trình suy luận. NPU có thể áp dụng lượng tử hóa hoặc các kỹ thuật nén khác cho KV cache này, giúp giảm đáng kể lượng bộ nhớ cần thiết, từ đó giảm áp lực lên băng thông bộ nhớ.
Tích hợp bộ nhớ và tính toán: Một số thiết kế NPU tiên tiến tích hợp khả năng tính toán gần hoặc ngay trong bộ nhớ (in-memory computing) hoặc sử dụng bộ nhớ băng thông cao (HBM) đặt rất gần các lõi tính toán. Điều này giúp giảm độ trễ và tăng tốc độ truyền dữ liệu, tránh tình trạng “đợi chờ” dữ liệu từ bộ nhớ ngoài.
Thứ hai, hiệu quả năng lượng vượt trội.
Chuyên biệt hóa tác vụ: NPU được thiết kế để thực hiện các phép toán cụ thể của mạng nơ-ron (nhân ma trận, cộng) một cách hiệu quả nhất. Không giống GPU phải đa năng xử lý nhiều loại tác vụ đồ họa và tính toán song song, NPU chỉ tập trung vào các phép tính AI cốt lõi, loại bỏ các thành phần không cần thiết và tối ưu hóa luồng dữ liệu.
Tính toán với độ chính xác thấp (Low Precision Arithmetic): Các tác vụ suy luận AI thường không yêu cầu độ chính xác cao như tính toán khoa học truyền thống. NPU thường hỗ trợ các phép toán 8-bit, 4-bit (hoặc thậm chí thấp hơn) thay vì 16-bit hay 32-bit. Điều này giúp giảm đáng kể số lượng transistor cần thiết cho mỗi phép tính và tiêu thụ ít năng lượng hơn cho mỗi phép toán.
Xử lý tại biên (On-device/Edge AI): NPU cho phép nhiều tác vụ AI được thực hiện trực tiếp trên thiết bị (như Điện thoại, laptop, xe tự lái) mà không cần gửi dữ liệu lên đám mây. Điều này không chỉ giảm độ trễ mà còn tiết kiệm năng lượng đáng kể do không phải truyền dữ liệu qua mạng.
https%3A%2F%2F1thegioi.vn%2Fhan-quoc-phat-trien-cong-nghe-loi-giup-ai-suy-luan-nhanh-hon-60-234494.html