Mục tiêu là thiết lập một hệ sinh thái dữ liệu AI đồng bộ, mở và an toàn, hoàn thiện các kho dữ liệu lớn và hồ dữ liệu trong các lĩnh vực thiết yếu.
Đến năm 2030, 100% các cơ sở dữ liệu ưu tiên sẽ được số hóa và chuẩn hóa để tích hợp vào Cơ sở dữ liệu tổng hợp quốc gia phục vụ phát triển AI. Điều này không chỉ giúp Việt Nam làm chủ các mô hình ngôn ngữ lớn tiếng Việt và các thuật toán AI cốt lõi mà còn phù hợp với đặc thù văn hóa và ngôn ngữ của đất nước.
Danh mục bộ dữ liệu được xây dựng dựa trên các tiêu chí sàng lọc cốt lõi như phù hợp với nguyên tắc phát triển AI quốc gia, gắn với lợi ích công cộng và lĩnh vực thiết yếu, có tính khả thi triển khai tại Việt Nam, khả năng chuẩn hóa và khử nhận dạng, không vi phạm pháp luật về dữ liệu và bảo vệ dữ liệu cá nhân, có cơ quan chủ quản rõ ràng và khả năng cập nhật định kỳ. Cấu trúc của danh mục được chia thành hai phụ lục chi tiết, định hướng lộ trình đầu tư và khai thác.
Phụ lục I bao gồm nhóm danh mục bộ dữ liệu trong các lĩnh vực thiết yếu phục vụ phát triển AI, được ví như "bản đồ tài nguyên dữ liệu số" của quốc gia.
Các nhóm tiêu biểu bao gồm dữ liệu ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số, tri thức quốc gia, pháp luật và quản lý nhà nước, dữ liệu các chuyên ngành trọng điểm như y tế, giáo dục, nông nghiệp, giao thông, tài nguyên và môi trường, kinh tế và thị trường, cùng với dữ liệu hạ tầng và an ninh như bản đồ và không gian địa lý, viễn thông và hạ tầng số, an toàn, an ninh và quản lý rủi ro. Mục tiêu là xác định rõ các nguồn tài nguyên dữ liệu cốt lõi do Nhà nước quản lý cần phải được chuẩn hóa để sẵn sàng kết nối, chia sẻ cho hệ sinh thái AI.
Phụ lục II tập trung vào các nhóm dữ liệu có giá trị cao, giải quyết các bài toán nghẽn về công nghệ hiện nay.
