Bảo mật dữ liệu khi dùng AI ghi chú: những gì bạn gửi đi có thể không quay lại
Rafetus
Ban biên tập Rafetus

Bạn copy một đoạn luận văn chưa công bố, dán vào ô chat, và hỏi AI chỉnh văn phong. Vài phút sau bạn có bản sửa đẹp hơn. Nhưng bạn ít khi hỏi điều quan trọng hơn: đoạn văn đó đi đâu sau khi bạn gửi đi?
Với AI ghi chú, rủi ro bảo mật không nằm ở việc ai đó đọc trộm màn hình bạn. Rủi ro nằm ở vòng đời dữ liệu sau khi rời máy bạn. Tùy nền tảng, nội dung có thể được lưu tạm, lưu lâu, dùng để huấn luyện mô hình, hoặc xử lý bởi bên thứ ba mà bạn không kiểm soát.
Hai loại dữ liệu bạn cần phân biệt
Khi dùng AI, hãy tách hai khái niệm.
Dữ liệu phiên làm việc là nội dung gửi trong một lần hỏi đáp hoặc một phiên soạn thảo. Nó có thể cần thiết để mô hình trả lời, nhưng lý tưởng là bị xóa sau khi phiên kết thúc.
Dữ liệu huấn luyện là tập nội dung được dùng để cải thiện mô hình về sau. Nếu ghi chú cá nhân, bài nộp, hoặc tài liệu nội bộ rơi vào nhóm này, bạn mất quyền kiểm soát vĩnh viễn hơn là mất trong một lần chat.
Nhiều người dùng mặc định rằng chat chỉ là trao đổi tạm thời. Thực tế phụ thuộc vào điều khoản dịch vụ, gói miễn phí hay trả phí, và cài đặt riêng tư mà bạn có bật hay chưa.
Rủi ro cụ thể khi paste tài liệu nhạy cảm
Luận văn và bài nộp chưa công bố. Nội dung có thể bị lưu trên máy chủ nhà cung cấp. Nếu sau này mô hình sinh ra đoạn văn tương tự, bạn khó chứng minh quyền sở hữu ý tưởng.
Nhật ký cá nhân và ghi chú trị liệu. Đây là dữ liệu ít được bảo vệ pháp lý như hồ sơ y tế, nhưng mang tính riêng tư cao. Một lần gửi nhầm có thể để lại dấu vết lâu hơn bạn nghĩ.
Tài liệu nội bộ công ty. Email chiến lược, báo cáo tài chính, mã nguồn chưa công khai. Các vụ việc công khai trong vài năm qua cho thấy nhân viên dùng chat AI cho tài liệu mật là một trong những kênh rò rỉ phổ biến, thường do thiếu nhận thức chứ không phải cố ý phá hoại.
Dữ liệu của người khác. Ghi chú buổi họp có tên, số điện thoại, hoặc ý kiến chưa được đồng ý chia sẻ. Bạn không chỉ rủi ro cá nhân mà còn có thể vi phạm nghĩa vụ bảo mật với tổ chức.
Bruce Schneier trong Data and Goliath nhắc rằng dữ liệu cá nhân trở thành tài sản của hệ thống nơi nó lưu trú. Với AI ghi chú, câu hỏi không phải có bị hack hay không. Câu hỏi là ai được phép giữ bản sao, bao lâu, và để làm gì.
Mã hóa đầu cuối và phân vùng tri thức
Một hướng bảo vệ mạnh là mã hóa đầu cuối, nghĩa là chỉ bạn nắm khóa giải mã. Nội dung ghi chú được mã hóa trên thiết bị của bạn trước khi đồng bộ. Ngay cả khi máy chủ bị xâm nhập, dữ liệu thô vẫn khó đọc.
Tuy nhiên, mã hóa đầu cuối không tự động có nghĩa là an toàn khi gọi AI. Nếu bạn chủ động gửi một ghi chú đã giải mã cho mô hình bên ngoài, lớp bảo vệ đó bị bỏ qua tại điểm gửi.
Vì vậy, kiến trúc tốt hơn là phân vùng tri thức. Bạn quyết định phần nào được phép đưa vào AI, phần nào chỉ lưu cục bộ, phần nào chỉ xử lý trong phiên hiện tại. Rafetus thiết kế Rafai theo hướng này: truy xuất ngữ cảnh từ kho tri thức bạn cho phép, không gửi toàn bộ thư viện cá nhân mỗi lần hỏi.
Câu hỏi cần hỏi trước khi chọn công cụ
Trước khi upload luận văn hoặc nhật ký vào bất kỳ AI nào, hãy đọc kỹ và trả lời năm câu hỏi.
- Nội dung của tôi có bị dùng để huấn luyện mô hình không?
- Dữ liệu được lưu bao lâu sau khi phiên kết thúc?
- Ai là bên thứ ba có thể truy cập (nhà cung cấp đám mây, đối tác mô hình)?
- Tôi có thể xóa dữ liệu theo yêu cầu và nhận xác nhận không?
- Dữ liệu có được mã hóa khi truyền và khi lưu trữ không?
Nếu câu trả lời mơ hồ, hãy coi như bạn đang công khai nội dung đó.
Bạn có thể đọc thêm Không lưu dữ liệu huấn luyện có nghĩa là gì với người dùng AI ghi chú để hiểu rõ hơn khái niệm không lưu dữ liệu huấn luyện.
Thói quen an toàn cho sinh viên và người đi làm
Không dán nguyên văn tài liệu mật. Tóm tắt bằng lời riêng, che tên, bỏ số liệu nhạy cảm trước khi hỏi AI.
Tách ghi chú thô và ghi chú chia sẻ. Ghi chú cá nhân nên nằm trong hệ thống bạn kiểm soát khóa. Chỉ đưa sang AI phần đã được lọc.
Dùng tài khoản và gói phù hợp. Gói miễn phí thường có điều khoản khác gói doanh nghiệp. Đừng giả định chúng giống nhau.
Bật hoặc tắt AI chủ động. Rafai cho phép bạn kiểm soát khi nào lớp AI tham gia. Tính năng ghi chú cốt lõi vẫn hoạt động khi bạn muốn làm việc hoàn toàn riêng tư.
Ma trận phân loại trước khi đưa ghi chú vào AI
Không phải dữ liệu nào cũng cần cùng một mức bảo vệ. Cách thực tế nhất là chia ghi chú thành bốn nhóm trước khi bật AI.
Công khai. Nội dung đã đăng, tài liệu mở, hoặc thông tin bạn sẵn sàng chia sẻ ngoài internet. Nhóm này có thể dùng AI thoải mái hơn, nhưng vẫn cần kiểm chứng sự thật.
Cá nhân thấp. Lịch học, ghi chú bài đọc phổ thông, bản nháp không chứa thông tin người khác. Nhóm này có thể dùng AI nếu nền tảng có chính sách riêng tư rõ.
Cá nhân nhạy cảm. Nhật ký, sức khỏe tinh thần, tài chính, kế hoạch nghề nghiệp, bản thảo nghiên cứu chưa công bố. Với nhóm này, hãy ưu tiên công cụ có mã hóa, kiểm soát phiên, và khả năng tắt AI.
Tổ chức hoặc người khác. Biên bản họp, dữ liệu khách hàng, tài liệu công ty, bài làm nhóm có tên người thật. Nhóm này cần quy định rõ từ trường, công ty, hoặc khách hàng trước khi gửi sang bất kỳ dịch vụ AI nào.
Chỉ cần phân loại như vậy, bạn đã giảm rất nhiều rủi ro copy-paste theo quán tính. Mỗi khi định dán một đoạn dài, hãy hỏi nó thuộc nhóm nào. Nếu là nhóm ba hoặc bốn, dừng lại và lọc trước.
Dấu hiệu một công cụ ghi chú đang tôn trọng dữ liệu của bạn
Một công cụ đáng tin không chỉ nói rằng dữ liệu an toàn. Nó cho bạn quyền thao tác với sự an toàn đó.
Bạn nên nhìn thấy cài đặt rõ ràng về việc bật AI, tắt AI, xóa dữ liệu, xuất dữ liệu, và phân quyền truy cập. Chính sách bảo mật nên nói cụ thể về dữ liệu huấn luyện, log vận hành, thời gian lưu, và nhà cung cấp xử lý phụ. Nếu mọi thứ chỉ nằm trong một câu quảng cáo chung chung, đó chưa phải cam kết đủ mạnh.
Với ghi chú cá nhân, quyền riêng tư tốt còn cần một thứ ít hào nhoáng hơn là tính năng mới. Đó là sự yên tâm rằng bạn có thể suy nghĩ chưa hoàn chỉnh mà không bị biến thành nguyên liệu của hệ thống khác. Người học cần không gian nháp. Người viết cần câu sai. Người nghiên cứu cần giả thuyết còn non. Nếu mọi thứ đều có nguy cơ rời khỏi tay bạn quá sớm, kho tri thức sẽ mất đi sự trung thực.
Bước tiếp theo
Mở lại lịch sử chat hoặc app ghi chú bạn đang dùng. Liệt kê ba loại nội dung bạn từng gửi cho AI trong tháng qua. Với mỗi loại, ghi lại mức độ nhạy cảm và xem chính sách bảo mật của nhà cung cấp có khớp không.
Nếu không khớp, vấn đề không phải bạn quá cẩn thận. Vấn đề là công cụ chưa phù hợp với loại tri thức bạn đang xử lý. Khi đó, hãy xem Bảng giá Rafetus và Phương pháp Rafetus để tìm cách ghi chú có cấu trúc mà vẫn giữ chủ quyền dữ liệu.