Việt Nam có nhiều cơ hội để phát triển AI nội địa với thị trường tiềm năng, dân số trẻ, tỷ lệ người dùng Internet cao, có nhiều chính sách hỗ trợ từ Nhà nước (Chiến lược Quốc gia về AI đến 2030, Chương trình Chuyển đổi số Quốc gia, ưu đãi thuế và đầu tư,…). Tuy nhiên, phát triển AI Việt Nam cũng vấp phải không ít thách thức như phải cạnh tranh với các “ông lớn” công nghệ toàn cầu; ngân sách còn hạn hẹp so với các nước, đặc biệt là những hạn chế về dữ liệu và nhân lực.
Hai điểm nghẽn lớn
Dữ liệu là “nguyên liệu sống còn” của AI, quyết định chất lượng, khả năng ứng dụng và tính cạnh tranh, là nền tảng để xây dựng và huấn luyện AI, quyết định ứng dụng AI trên thực tế, là tài sản chiến lược, thúc đẩy hệ sinh thái mở và bảo đảm chủ quyền quốc gia. Dữ liệu không chỉ là yếu tố kỹ thuật mà còn mang tính chiến lược quốc gia để xây dựng AI phù hợp với thực tế Việt Nam, giảm phụ thuộc vào công nghệ nước ngoài, tạo ra các sản phẩm AI có giá trị kinh tế cao.
Tuy nhiên, hiện tại dữ liệu lớn, chuẩn hóa để huấn luyện mô hình AI (Train Model) còn thiếu. Dữ liệu tiếng Việt (văn bản, giọng nói) không dấu hoặc ngôn ngữ “teencode” (ngôn ngữ của giới trẻ) được sử dụng khá nhiều gây khó khăn cho việc huấn luyện AI, trong khi huấn luyện AI phải trên nền tảng tiếng Việt có dấu (chuẩn). Việc thiếu dữ liệu đặc thù dẫn đến AI hoạt động kém hiệu quả (chưa hiểu ngôn ngữ địa phương, từ lóng, tiếng dân tộc, văn hóa vùng miền) hoặc phụ thuộc vào nền tảng nước ngoài (Google, OpenAI).

Dữ liệu còn phân tán trên nhiều nguồn (mạng xã hội, báo chí, diễn đàn). Thiếu bộ dữ liệu mở (open dataset) cho nghiên cứu, chẳng hạn như dữ liệu y tế, giao thông, nông nghiệp. Các tập dataset lớn để huấn luyện AI (như ảnh y tế, giao tiếp tiếng Việt tự nhiên, dữ liệu giao thông) không đủ về lượng và phân phối không cân bằng. Dữ liệu hình ảnh y tế chủ yếu tập trung ở bệnh viện lớn, không đa dạng.
Chất lượng dữ liệu thấp do thiếu gán nhãn chính xác hoặc thiếu ngữ cảnh (ảnh giao thông không được đánh dấu chi tiết; âm thanh tiếng Việt nhiễu tạp âm, giọng địa phương khó nhận diện); dữ liệu bị chia cắt giữa các tổ chức (bệnh viện, ngân hàng) khó tích hợp. Dữ liệu còn bị gây sai lệch khi triển khai AI (nhận diện tốt giọng miền Bắc, chưa tốt với giọng miền Trung/Nam).
Nhân lực AI là yếu tố quyết định trong việc biến tiềm năng công nghệ thành giải pháp thực tế, đóng góp vào sự phát triển bền vững của hệ sinh thái AI Việt Nam, nâng tầm vị thế quốc gia trên bản đồ AI thế giới. Tuy nhiên, chất lượng nguồn nhân lực hiện nay còn nhiều hạn chế, số lượng kỹ sư AI có kinh nghiệm thực tế còn ít, đặc biệt trong các lĩnh vực như xử lý ngôn ngữ tiếng Việt (NLP), thị giác máy tính (Computer Vision).
Chuyên gia AI phần lớn làm việc ở nước ngoài hoặc cho công ty đa quốc gia. Nhiều nhân tài AI bị thu hút bởi công ty nước ngoài hoặc làm việc từ xa (remote) với mức lương cao hơn. Kỹ sư AI giỏi làm việc ở nước ngoài hoặc công ty đa quốc gia chiếm tới 60% (chảy máu chất xám).
Công tác đào tạo nhân lực AI còn nhiều hạn chế, đào tạo ngành AI chưa phổ biến tại chương trình đại học. Giữa các trường còn có sự chênh lệch trình độ đào tạo, chỉ 5-10 trường đào tạo bài bản (ĐH Bách khoa Hà Nội/TP.HCM, ĐH Công Nghệ – ĐHQG Hà Nội, ĐH FPT). Các công ty AI lớn (FPT Software, VinAI, Viettel AI) thường tuyển dụng tập trung từ nhóm trường này. Các ttrường còn lại thiếu giáo trình chuẩn, nhiều trường chỉ dạy AI như một môn học trong ngành CNTT.
Chương trình đào tạo AI còn nặng lý thuyết, thiếu phân tích tình huống thực tế hoặc hợp tác với doanh nghiệp. Thiếu giảng viên AI chất lượng cao, nhiều giảng viên chưa cập nhật công nghệ AI hiện đại. Kỹ năng thực hành hạn chế, sinh viên ít tiếp cận dữ liệu thực tế, thiếu cơ hội thực hành với dữ liệu và bài toán thực tế.
Giải pháp tháo gỡ
Về dữ liệu, cần tập trung xây dựng nền tảng dữ liệu quốc gia, tạo kho dữ liệu mở (Open Data) tiếng Việt quy mô lớn, chất lượng cao. Xác định phạm vi dữ liệu bao gồm, dữ liệu công (từ bộ, ngành, địa phương); dữ liệu doanh nghiệp (nếu được chia sẻ tự nguyện); dữ liệu nghiên cứu (từ viện, trường đại học).
Xác định nguyên tắc dữ liệu mở theo mức độ: dữ liệu không nhạy cảm, mở hoàn toàn (giao thông, thời tiết); dữ liệu nhạy cảm phải ẩn danh (y tế, dân cư, dữ liệu cá nhân nếu không cho phép). Thúc đẩy hợp tác công – tư để chia sẻ dữ liệu an toàn, tuân thủ luật bảo mật (GDPR của Việt Nam). Phát triển các nền tảng sàn giao dịch dữ liệu (data marketplace) để kết nối người cung cấp và người dùng.

Quy trình triển khai xây dựng dữ liệu bao gồm: (i) Chuẩn hóa, làm sạch và đồng bộ dữ liệu; (ii) Xây dựng hạ tầng công nghệ, triển khai trên điện toán đám mây cho phép truy cập dữ liệu qua API; (iii) Thiết lập cơ chế chia sẻ dữ liệu, bao gồm cơ chế bắt buộc và cơ chế khuyến khích; (iv) Tạo kho dữ liệu mở (Open Data) với giao diện thân thiện, hỗ trợ tìm kiếm bằng tiếng Việt; (v) Bảo mật và quản lý rủi ro, phân quyền truy cập, giám sát an ninh.
Để xây dựng thành công nền tảng dữ liệu quốc gia và kho dữ liệu mở, cần sự chỉ đạo thống nhất từ Chính phủ (giao một đầu mối điều phối). Đầu tư hạ tầng công nghệ đủ mạnh, áp dụng chuẩn quốc tế. Cơ chế chia sẻ dữ liệu rõ ràng, bảo mật nghiêm ngặt để tránh lạm dụng dữ liệu nhạy cảm. Học hỏi kinh nghiệm xây dựng dữ liệu quốc gia từ các nước (Mỹ, Trung Quốc, Hàn Quốc…).
Về nhân lực AI, cầng tăng cường đào tạo và thu hút nguồn nhân lực AI chất lượng cao. Đổi mới đào tạo AI ngay từ gốc, đưa AI vào chương trình phổ thông (tích hợp AI vào môn Tin học); thành lập Câu lạc bộ STEM-AI, tổ chức cuộc thi Robothon, AIoT Hackathon. Mở ngành AI chuyên sâu tại các trường đại học. Soạn thảo giáo trình chuẩn quốc tế, tham khảo giáo trình của một số trường có kinh nghiệm đào tạo AI (MIT, Stanford). Tăng cường các phòng lap AI mở, trang bị GPU, dataset lớn.
Ưu tiên đào tạo chuyên gia AI “Make in Vietnam”, tập trung vào lĩnh vực Việt Nam cần (xử lý tiếng Việt, nông nghiệp, y tế). Tăng cường học bổng AI, nhân rộng mô hình liên kết “3 nhà” trong đào tạo nhân lực AI: Nhà nước – Trường học – Doanh nghiệp. Đào tạo lại lực lượng lao động AI, tổ chức các khóa AI cấp tốc (Coding Bootcamp AI) từ 6-12 tháng, cấp bằng ngắn hạn về AI (như chương trình Google Career Certificates).
Thực hiện chính sách đãi ngộ cạnh tranh nhằm thu hút và giữ chân nhân tài AI. Kết hợp chế độ lương, thưởng, phúc lợi xã hội với các chương trình chăm sóc sức khỏe toàn diện, cơ hội học tập và phát triển, môi trường thể nghiệm những cái mới. Ưu đãi tài chính như cấp học bổng toàn phần cho sinh viên AI xuất sắc. Cấp visa ưu tiên, thẻ cư trú dài hạn cho chuyên gia AI nước ngoài; miễn giảm thuế thu nhập cho kỹ sư AI làm việc tại khu công nghệ. Xây dựng môi trường làm việc chuyên nghiệp, cơ sở vật chất hiện đại, khu làm việc mở, phòng nghiên cứu đạt chuẩn quốc tế.
https%3A%2F%2Fvov.vn%2Fcong-nghe%2Fchuyen-doi-so%2Fgiai-quyet-bai-toan-du-lieu-va-nhan-luc-cho-phat-trien-ai-make-in-vietnam-post1197265.vov