[ TRI THỨC DỮ LIỆU & CHÍNH SÁCH ] Góc nhìn NDA từ bài nghiên cứu quốc tế tiêu đề: “Insights from Publishing Open Data in Industry-Academia Collaboration”

06/10/2025

[ TRI THỨC DỮ LIỆU & CHÍNH SÁCH ] - [ DATA & POLICY NEXUS ] Hiệp hội Dữ liệu quốc gia (NDA) xin trân trọng giới thiệu góc nhìn NDA từ bài nghiên cứu quốc tế tiêu đề: “Insights from Publishing Open Data in Industry-Academia Collaboration” của nhóm tác giả Per Erik Strandberg, Philipp Peterseil, Julian Karoliny, Johanna Kallio, Johannes Peltola. Bài viết được công bố trên arXiv vào tháng 1 năm 2025, với số hiệu arXiv:2501.14841.

 

KHI DỮ LIỆU MỞ TRỞ THÀNH CHIẾC CẦU NỐI HAI THẾ GIỚI

Hãy tưởng tượng một buổi sáng bạn bước vào phòng thí nghiệm. Trên bàn, bạn có một chồng dữ liệu. Nhưng dữ liệu đó không phải của riêng bạn, nó đến từ một công ty, một trường đại học, một dự án hợp tác lớn. Và bạn biết không? Chỉ cần một vài cú click, hàng trăm ngàn bộ dữ liệu như thế đang mở ra trước mắt ta, chờ được khai phá.

Nghe thật kỳ diệu, phải không? Nhưng thực tế thì sao?

BỨC TRANH THẬT SỰ

Một nhóm nghiên cứu ở châu Âu đã khảo sát hàng trăm nghìn bộ dữ liệu mở trên Zenodo, và lắng nghe các nhà khoa học lẫn kỹ sư trong dự án hợp tác công tư. Và họ phát hiện một sự thật phũ phàng:

- Chỉ 2,4% dữ liệu đi kèm script = nghĩa là bạn có thể tải dữ liệu về, nhưng chẳng có hướng dẫn nào để bạn sử dụng.

- Nhiều dataset thiếu license rõ ràng = bạn có quyền dùng không, có được chia sẻ lại không? Không ai chắc chắn.

- Và quan trọng nhất: lập kế hoạch dữ liệu khó hơn cả kỹ thuật. Thu thập, làm sạch, thương lượng giữa các bên… tất cả là mê cung.

Dữ liệu mở tưởng như là chiếc chìa khóa vàng. Nhưng nếu thiếu hướng dẫn, thiếu luật chơi, nó chỉ là một cánh cửa không mở được.

BÀI HỌC LỚN

Từ nghiên cứu này, có vài bài học đáng giá cho tất cả chúng ta:

  • Dữ liệu phải đi cùng với “ngữ cảnh”. Đừng chỉ chia sẻ con số - hãy chia sẻ cách dùng nó. Một dòng code, một file hướng dẫn, đôi khi giá trị hơn cả nghìn dòng dữ liệu.
  • License không phải thủ tục hành chính - nó chính là “hợp đồng xã hội” cho dữ liệu. Nó cho ta biết dữ liệu được tự do bay đi, hay chỉ được cất trong một chiếc hộp kín.
  • Dữ liệu mô phỏng cũng quý giá. Khi không thể chia sẻ dữ liệu nhạy cảm, hãy tạo ra dữ liệu tổng hợp. Nó không thay thế được dữ liệu thật, nhưng có thể mở ra vô vàn cơ hội hợp tác mà không vi phạm bảo mật.

Ý NGHĨA CHO CHÍNH SÁCH & XÃ HỘI

Nếu ta muốn một nền khoa học mở, nếu ta muốn hợp tác giữa trường và doanh nghiệp không chỉ nằm trên giấy, thì dữ liệu mở phải được “thực sự mở”. Điều đó nghĩa là:

  • Có metadata chuẩn hóa.
  • Có license rõ ràng.
  • Có hạ tầng bền vững - nơi dữ liệu không chỉ sống trong hôm nay, mà còn tồn tại để thế hệ sau tiếp tục khám phá.

Hãy nghĩ về nó như một cây cầu: một bên là viện nghiên cứu với những lý thuyết, một bên là ngành công nghiệp với những vấn đề thực tế. Dữ liệu mở chính là nhịp cầu nối. Nhưng cầu không thể bắc bằng những viên gạch thiếu, những tấm ván lung lay. Nó cần thiết kế chắc chắn, minh bạch, và công bằng.

Vậy câu hỏi đặt ra cho chúng ta - những người sống trong thời đại dữ liệu - là gì?

Không phải: “Chúng ta có nên mở dữ liệu không?”

Mà là: “Chúng ta có dám làm cho dữ liệu mở trở nên hữu ích, minh bạch và bền vững không?”

Bởi vì chỉ khi ấy, dữ liệu mới thực sự trở thành chiếc cầu nối hai thế giới: khoa học và đời sống, ý tưởng và hành động, hôm nay và ngày mai.

NDA