Τεχνικές Κρυπτογράφησης

1.1 Συμμετρική Κρυπτογράφηση

  • AES-256 (Advanced Encryption Standard): θεωρείται το state of the art.

  • Χρήση: προστασία raw datasets που φυλάσσονται σε βάσεις δεδομένων.

  • Στα open data: χρησιμοποιείται πριν τη δημοσίευση, για να μη διαρρεύσουν τα αρχικά δεδομένα.

1.2 Ασύμμετρη Κρυπτογράφηση

  • RSA, ECC: βασίζονται σε ζεύγη δημοσίων/ιδιωτικών κλειδιών.

  • Χρήση: ανταλλαγή ασφαλών κλειδιών, προστασία επικοινωνίας μεταξύ φορέα και πλατφόρμας διάθεσης.

1.3 Encryption in Transit

  • TLS 1.3: υποχρεωτικό για APIs open data, προστατεύει από υποκλοπές.

1.4 Key Management

  • Πολιτική rotation (ανανέωση κλειδιών ανά 6–12 μήνες).

  • Αποθήκευση σε HSMs (Hardware Security Modules).

2. Τεχνικές Ψευδωνυμοποίησης

2.1 Tokenization

  • Αντικατάσταση αναγνωριστικών με tokens (τυχαίοι χαρακτήρες).

  • Mapping πίνακας φυλάσσεται ξεχωριστά και κρυπτογραφημένα.

  • Στα open data: κατάλληλο μόνο για controlled access (ερευνητές).

2.2 Hashing

  • Μετατροπή δεδομένων με μη αναστρέψιμο αλγόριθμο (SHA-256, SHA-3).

  • Κίνδυνος: hashing δεν θεωρείται ανωνυμοποίηση∙ μπορεί να γίνει brute-force.

  • Κατάλληλο για έλεγχο ακεραιότητας (hash datasets για versioning).

2.3 Data Masking

  • Μερική απόκρυψη (π.χ. ΑΦΜ → ΧΧΧΧΧ123).

  • Χρήση σε reports, όχι σε open datasets.

2.4 Pseudorandom IDs

  • Αντικατάσταση identifiers με τυχαία IDs.

  • Αν παραμείνουν αρκετά πεδία, υπάρχει κίνδυνος re-identification.

3. Τεχνικές Ανωνυμοποίησης

3.1 K-Anonymity

  • Ένα dataset είναι k-anonymous όταν κάθε εγγραφή είναι «όμοια» με τουλάχιστον k-1 άλλες σε κρίσιμα πεδία (π.χ. ηλικία, φύλο, ΤΚ).

  • Περιορισμός: δεν προστατεύει από attribute disclosure.

3.2 L-Diversity

  • Επέκταση του k-anonymity. Απαιτεί ποικιλία τιμών σε ευαίσθητες στήλες.

  • Παράδειγμα: σε πίνακα με ασθενείς, σε κάθε ομάδα ηλικίας/περιοχής πρέπει να υπάρχουν πολλοί διαφορετικοί λόγοι νοσηλείας.

3.3 T-Closeness

  • Εξασφαλίζει ότι η κατανομή μιας ευαίσθητης μεταβλητής σε μια ομάδα είναι κοντά στην κατανομή της στο σύνολο.

  • Πιο ισχυρή μέθοδος, αλλά με κόστος στη χρηστικότητα.

3.4 Differential Privacy

  • Προσθήκη στατιστικού «θορύβου» ώστε να προστατεύονται οι μεμονωμένες εγγραφές.

  • Χρησιμοποιείται από US Census, Apple, Google.

  • Στα open data: επιτρέπει δημοσίευση στατιστικών χωρίς αποκάλυψη ατόμων.

3.5 Suppression & Generalisation

  • Suppression: απόκρυψη «σπάνιων» τιμών (π.χ. ηλικία 102).

  • Generalisation: ομαδοποίηση τιμών (π.χ. ηλικίες σε εύρη).

4. Συνδυασμοί τεχνικών

Στην πράξη, δεν αρκεί μία μέθοδος. Απαιτείται συνδυασμός:

  • K-anonymity + L-diversity + suppression για datasets υγείας.

  • Hashing + aggregation για οικονομικά δεδομένα.

  • Differential privacy για μεγάλα datasets κινητικότητας.


5. Open Data και Mosaic Effect

Ακόμη και πλήρως ανωνυμοποιημένα datasets μπορούν να οδηγήσουν σε re-identification αν συνδυαστούν με άλλα. Αυτό είναι το mosaic effect.

8. Συμπέρασμα

Η κρυπτογράφηση, η ψευδωνυμοποίηση και –κυρίως– η ανωνυμοποίηση είναι θεμελιώδη εργαλεία για την ασφαλή διάθεση ανοικτών δεδομένων.

  • Η κρυπτογράφηση είναι απαραίτητη μέχρι τη δημοσίευση.

  • Η ψευδωνυμοποίηση χρήσιμη για restricted access.

Η ανωνυμοποίηση ο μόνος δρόμος για πραγματικά open data.

Last updated