[TRI THỨC DỮ LIỆU & CHÍNH SÁCH - DATA & POLICY NEXUS] HIỂU DỮ LIỆU TRONG KỶ NGUYÊN AI LẤY DỮ LIỆU LÀM TRUNG TÂM

Hiệp hội Dữ liệu quốc gia giới thiệu bài nghiên cứu “Data Understanding for Data-Centric AI” (tạm dịch: Hiểu dữ liệu trong kỷ nguyên AI lấy dữ liệu làm trung tâm). Được công bố ngày 06/02/2026 trên tạp chí Business & Information Systems Engineering (BISE - Kỹ thuật Hệ thống Thông tin Doanh nghiệp), là một tạp chí khoa học quốc tế tập trung vào thiết kế và ứng dụng các hệ thống thông tin phục vụ lợi ích xã hội.

Công trình do các tác giả Joshua Holstein, Philipp Spitzer, Samuel Gensch, Marieke Hoell, Michael Vössing và Niklas Kühl thực hiện.

Nghiên cứu đặt ra một vấn đề cốt lõi của thời đại dữ liệu: khi khối lượng dữ liệu tăng trưởng nhanh chóng, việc “hiểu dữ liệu” trở thành nền tảng quyết định cho hiệu quả của các hệ thống trí tuệ nhân tạo và quá trình ra quyết định dựa trên dữ liệu.

Trong bối cảnh nền kinh tế số phát triển mạnh, các tổ chức sở hữu lượng dữ liệu khổng lồ nhưng lại gặp khó khăn trong việc khai thác giá trị. Nghiên cứu chỉ ra rằng nguyên nhân không hoàn toàn nằm ở năng lực thuật toán, mà xuất phát từ sự thiếu hụt trong việc hiểu dữ liệu một cách toàn diện. Những thất bại điển hình của các hệ thống AI trong thực tiễn cho thấy dữ liệu, chứ không phải mô hình, mới là yếu tố quyết định thành công. Từ đó, khái niệm DCAI (Data-Centric AI - Trí tuệ nhân tạo lấy dữ liệu làm trung tâm) được hình thành, nhấn mạnh việc cải thiện, chuẩn hóa và hiểu dữ liệu thay vì chỉ tối ưu thuật toán.

Tuy nhiên, các khung phân tích truyền thống như CRISP-DM (Cross-Industry Standard Process for Data Mining - Quy trình chuẩn liên ngành cho khai phá dữ liệu) và KDD (Knowledge Discovery in Databases - Khám phá tri thức trong cơ sở dữ liệu) dù đã thừa nhận vai trò của “data understanding” (hiểu dữ liệu), nhưng lại chủ yếu xem đây là một bước khởi đầu và chưa cung cấp hướng dẫn đầy đủ để triển khai một cách hệ thống, xuyên suốt vòng đời phân tích.

Để khắc phục khoảng trống này, nghiên cứu đã áp dụng phương pháp systematic literature review (tổng quan tài liệu có hệ thống) kết hợp với systematic mapping study (nghiên cứu lập bản đồ hệ thống), từ đó xây dựng một khung lý thuyết toàn diện về hiểu dữ liệu. Kết quả nổi bật là việc xác định 5 chiều cốt lõi của hiểu dữ liệu, bao gồm: (1) nền tảng dữ liệu (foundations), (2) thu thập và lựa chọn dữ liệu (collection and selection), (3) ngữ cảnh hóa và tích hợp (contextualization and integration), (4) khám phá và phát hiện (exploration and discovery), và (5) tri thức đầu ra (insights). Các chiều này không tồn tại độc lập mà vận hành theo cơ chế lặp, tương tác liên tục, phản ánh bản chất động và hệ thống của quá trình hiểu dữ liệu trong thực tiễn.

Một đóng góp quan trọng khác của nghiên cứu là phân tích mức độ hỗ trợ của các phương pháp hiện có đối với từng chiều của hiểu dữ liệu. Kết quả cho thấy sự mất cân đối rõ rệt: phần lớn các phương pháp tập trung vào giai đoạn khám phá và trực quan hóa dữ liệu, trong khi các khía cạnh then chốt như thu thập dữ liệu, tích hợp ngữ cảnh hay liên kết dữ liệu với thế giới thực lại chưa được quan tâm tương xứng. Điều này tạo ra khoảng cách giữa hiệu quả mô hình AI trong môi trường thử nghiệm và khả năng triển khai trong thực tế. Đồng thời, nghiên cứu cũng chỉ ra sự thiên lệch về đối tượng sử dụng khi đa số công cụ được thiết kế cho chuyên gia dữ liệu, trong khi các nhóm như chuyên gia lĩnh vực hay nhà ra quyết định lại thiếu công cụ hỗ trợ phù hợp.

Trên phương diện tổ chức, nghiên cứu khẳng định rằng hiểu dữ liệu không phải là nhiệm vụ riêng của bộ phận kỹ thuật mà là kết quả của sự phối hợp đa chủ thể. Các nhà khoa học dữ liệu cung cấp phân tích kỹ thuật, chuyên gia lĩnh vực bổ sung ngữ cảnh thực tiễn, còn nhà quản lý định hướng chiến lược và ra quyết định. Việc thiếu liên kết giữa các nhóm này trở thành rào cản lớn khiến nhiều dự án AI không đạt được giá trị kỳ vọng, dù sở hữu nền tảng công nghệ tiên tiến.

Từ góc độ lý thuyết và thực tiễn, nghiên cứu đã mở rộng cách tiếp cận truyền thống về phân tích dữ liệu, chuyển từ tư duy tuyến tính sang tư duy hệ thống và lặp. Đồng thời, nghiên cứu cũng đề xuất các hướng phát triển quan trọng trong tương lai, bao gồm: phát triển công cụ hỗ trợ đa đối tượng, tăng cường tích hợp tri thức lĩnh vực và chú trọng các yếu tố đạo đức, pháp lý trong quá trình hiểu và sử dụng dữ liệu.

Kết luận, bài nghiên cứu “Data Understanding for Data-Centric AI” khẳng định rằng hiểu dữ liệu là nền tảng cốt lõi của mọi hệ thống AI hiện đại. Việc xây dựng năng lực hiểu dữ liệu một cách toàn diện, có hệ thống và đa chiều không chỉ là yêu cầu kỹ thuật, mà còn là điều kiện tiên quyết để chuyển hóa dữ liệu thành giá trị, qua đó thúc đẩy phát triển bền vững trong nền kinh tế dữ liệu.