Τεχνικές Κρυπτογράφησης
1.1 Συμμετρική Κρυπτογράφηση
AES-256 (Advanced Encryption Standard): θεωρείται το state of the art.
Χρήση: προστασία raw datasets που φυλάσσονται σε βάσεις δεδομένων.
Στα open data: χρησιμοποιείται πριν τη δημοσίευση, για να μη διαρρεύσουν τα αρχικά δεδομένα.
1.2 Ασύμμετρη Κρυπτογράφηση
RSA, ECC: βασίζονται σε ζεύγη δημοσίων/ιδιωτικών κλειδιών.
Χρήση: ανταλλαγή ασφαλών κλειδιών, προστασία επικοινωνίας μεταξύ φορέα και πλατφόρμας διάθεσης.
1.3 Encryption in Transit
TLS 1.3: υποχρεωτικό για APIs open data, προστατεύει από υποκλοπές.
1.4 Key Management
Πολιτική rotation (ανανέωση κλειδιών ανά 6–12 μήνες).
Αποθήκευση σε HSMs (Hardware Security Modules).
2. Τεχνικές Ψευδωνυμοποίησης
2.1 Tokenization
Αντικατάσταση αναγνωριστικών με tokens (τυχαίοι χαρακτήρες).
Mapping πίνακας φυλάσσεται ξεχωριστά και κρυπτογραφημένα.
Στα open data: κατάλληλο μόνο για controlled access (ερευνητές).
2.2 Hashing
Μετατροπή δεδομένων με μη αναστρέψιμο αλγόριθμο (SHA-256, SHA-3).
Κίνδυνος: hashing δεν θεωρείται ανωνυμοποίηση∙ μπορεί να γίνει brute-force.
Κατάλληλο για έλεγχο ακεραιότητας (hash datasets για versioning).
2.3 Data Masking
Μερική απόκρυψη (π.χ. ΑΦΜ → ΧΧΧΧΧ123).
Χρήση σε reports, όχι σε open datasets.
2.4 Pseudorandom IDs
Αντικατάσταση identifiers με τυχαία IDs.
Αν παραμείνουν αρκετά πεδία, υπάρχει κίνδυνος re-identification.
3. Τεχνικές Ανωνυμοποίησης
3.1 K-Anonymity
Ένα dataset είναι k-anonymous όταν κάθε εγγραφή είναι «όμοια» με τουλάχιστον k-1 άλλες σε κρίσιμα πεδία (π.χ. ηλικία, φύλο, ΤΚ).
Περιορισμός: δεν προστατεύει από attribute disclosure.
3.2 L-Diversity
Επέκταση του k-anonymity. Απαιτεί ποικιλία τιμών σε ευαίσθητες στήλες.
Παράδειγμα: σε πίνακα με ασθενείς, σε κάθε ομάδα ηλικίας/περιοχής πρέπει να υπάρχουν πολλοί διαφορετικοί λόγοι νοσηλείας.
3.3 T-Closeness
Εξασφαλίζει ότι η κατανομή μιας ευαίσθητης μεταβλητής σε μια ομάδα είναι κοντά στην κατανομή της στο σύνολο.
Πιο ισχυρή μέθοδος, αλλά με κόστος στη χρηστικότητα.
3.4 Differential Privacy
Προσθήκη στατιστικού «θορύβου» ώστε να προστατεύονται οι μεμονωμένες εγγραφές.
Χρησιμοποιείται από US Census, Apple, Google.
Στα open data: επιτρέπει δημοσίευση στατιστικών χωρίς αποκάλυψη ατόμων.
3.5 Suppression & Generalisation
Suppression: απόκρυψη «σπάνιων» τιμών (π.χ. ηλικία 102).
Generalisation: ομαδοποίηση τιμών (π.χ. ηλικίες σε εύρη).
4. Συνδυασμοί τεχνικών
Στην πράξη, δεν αρκεί μία μέθοδος. Απαιτείται συνδυασμός:
K-anonymity + L-diversity + suppression για datasets υγείας.
Hashing + aggregation για οικονομικά δεδομένα.
Differential privacy για μεγάλα datasets κινητικότητας.
5. Open Data και Mosaic Effect
Ακόμη και πλήρως ανωνυμοποιημένα datasets μπορούν να οδηγήσουν σε re-identification αν συνδυαστούν με άλλα. Αυτό είναι το mosaic effect.
8. Συμπέρασμα
Η κρυπτογράφηση, η ψευδωνυμοποίηση και –κυρίως– η ανωνυμοποίηση είναι θεμελιώδη εργαλεία για την ασφαλή διάθεση ανοικτών δεδομένων.
Η κρυπτογράφηση είναι απαραίτητη μέχρι τη δημοσίευση.
Η ψευδωνυμοποίηση χρήσιμη για restricted access.
Η ανωνυμοποίηση ο μόνος δρόμος για πραγματικά open data.
Last updated