Κρυπτογράφηση & Ψευδωνυμοποίηση στα Ανοικτά Δεδομένα
1. Εισαγωγή
Η προστασία της ασφάλειας στα δεδομένα δεν εξαντλείται σε firewalls ή πολιτικές πρόσβασης. Οι δύο πιο συζητημένες τεχνικές του άρθρου 32 GDPR είναι η κρυπτογράφηση (encryption) και η ψευδωνυμοποίηση (pseudonymisation).
Στο οικοσύστημα των ανοικτών δεδομένων (open data), όπου οι πληροφορίες δημοσιεύονται δημόσια προς απεριόριστο αριθμό χρηστών, οι τεχνικές αυτές αποκτούν ιδιαίτερη σημασία:
Η κρυπτογράφηση εξασφαλίζει ότι τα δεδομένα προστατεύονται σε όλα τα στάδια (συλλογή, αποθήκευση, μεταφορά) μέχρι να γίνουν ανοικτά.
Η ψευδωνυμοποίηση μειώνει τον κίνδυνο επαναταυτοποίησης όταν τα δεδομένα πρέπει να διατεθούν με κάποιον βαθμό λεπτομέρειας, αλλά δεν μπορούν να είναι πλήρως ανωνυμοποιημένα.
Κατηγορίες Ανοικτών Δεδομένων & Τεχνικές Ασφάλειας
Κατηγορία Open Data
Παραδείγματα
Τεχνικές Ασφάλειας
Σχόλιο / Σκοπός
Καθαρά μη προσωπικά δεδομένα
Μετεωρολογικά δεδομένα, περιβαλλοντικοί δείκτες, κυκλοφοριακοί μετρητές, γεωχωρικά δεδομένα υποδομών χωρίς λεπτομέρειες
- Κρυπτογράφηση μόνο σε συλλογή/αποθήκευση/μεταφορά (έως τη δημοσίευση) - Integrity checks (hashes) για αποτροπή αλλοίωσης
Δεν απαιτείται ανωνυμοποίηση. Προσοχή μόνο στην ακεραιότητα και στη διαθεσιμότητα.
Στατιστικά συγκεντρωτικά δεδομένα
Πληθυσμιακά στοιχεία, οικονομικοί δείκτες, στατιστικά εκπαίδευσης
- Suppression μικρών κελιών (<3) - Aggregation (ομαδοποίηση τιμών) - Logging πρόσβασης και approvals
Στόχος η αποτροπή έμμεσης ταυτοποίησης (residual risk).
Δεδομένα που περιέχουν ή σχετίζονται με προσωπικά στοιχεία
Υγεία, κοινωνικές παροχές, εκπαίδευση σε μικρές μονάδες (π.χ. σχολεία), datasets με στοιχεία πολιτών
- Ανωνυμοποίηση (π.χ. k-anonymity, l-diversity, t-closeness) - Αν χρειάζεται: Ψευδωνυμοποίηση (π.χ. αντικατάσταση ΑΜΚΑ με κωδικό) - Differential privacy για μεγάλους όγκους ατομικών εγγραφών
Απαγορεύεται η διάθεση ταυτοποιήσιμων δεδομένων. Υποχρεωτικός ο έλεγχος από DPO πριν τη δημοσίευση.
Επιχειρηματικά/εμπορικά δεδομένα
Δραστηριότητες επιχειρήσεων, συμβάσεις, προμήθειες
- Έλεγχος πνευματικών δικαιωμάτων και εμπορικών μυστικών - Licensing (π.χ. CC-BY, Etalab) - Access logs για κακόβουλη χρήση
Στόχος η προστασία πνευματικών δικαιωμάτων τρίτων και η διασφάλιση νόμιμης χρήσης.
Δεδομένα υψηλής αξίας (High Value Datasets, όπως ορίζει η ΕΕ)
Γεωχωρικά, στατιστικά, κινητικότητα, παρατηρήσεις περιβάλλοντος, εταιρικά δεδομένα, δικαστικές αποφάσεις
- State of the art ασφάλεια (σύμφωνα με ENISA) - Monitoring API χρήσης - DDoS protection (NIS2) - Integrity validation
Αυξημένες απαιτήσεις λόγω της σημασίας τους για την κοινωνία/οικονομία.
Ευαίσθητες κατηγορίες (π.χ. υγεία, ασφάλεια, κρίσιμες υποδομές)
Ιατρικά δεδομένα, στοιχεία ενέργειας, δεδομένα αστυνόμευσης
- Ισχυρή ανωνυμοποίηση - Data minimisation (μόνο όσα χρειάζονται) - Access throttling στα API - Συνεχής monitoring & incident response plan
Διάθεση μόνο σε μορφή που δεν επιτρέπει αναγνώριση ή κίνδυνο ασφάλειας. Κεντρική έγκριση (governance board).
Ανάλυση Τεχνικών Ασφάλειας Open Data ανά Κατηγορία
1. Καθαρά μη προσωπικά δεδομένα
Παράδειγμα: μετεωρολογικά, περιβαλλοντικοί δείκτες, κυκλοφοριακοί μετρητές.
Κρυπτογράφηση (encryption): Χρησιμοποιείται κατά τη συλλογή, αποθήκευση και μεταφορά για να μη γίνουν αλλοιώσεις ή διαρροές πριν τα δεδομένα δημοσιευθούν. Όταν γίνουν ανοικτά, η κρυπτογράφηση δεν έχει νόημα (τα δεδομένα πρέπει να είναι διαθέσιμα).
Integrity checks (hashes, checksums): Διασφαλίζεται ότι το dataset που κατεβάζει ο πολίτης είναι ακριβώς αυτό που ανέβασε ο φορέας, χωρίς αλλοίωση.
Εδώ το ζητούμενο είναι διαθεσιμότητα και ακεραιότητα, όχι ιδιωτικότητα.
2. Στατιστικά συγκεντρωτικά δεδομένα
Παράδειγμα: πληθυσμιακά στοιχεία, οικονομικοί δείκτες, στατιστικά εκπαίδευσης.
Suppression μικρών κελιών (<3): Αν σε έναν πίνακα υπάρχει ένα κελί με 1 ή 2 εγγραφές (π.χ. 2 μαθητές σε ένα χωριό με ειδικότητα), αυτό κρύβεται ή αντικαθίσταται με σύμβολο (*). Στόχος να αποτραπεί έμμεση ταυτοποίηση.
Aggregation (ομαδοποίηση): Αντί να δείξουμε τα στοιχεία αναλυτικά (π.χ. ανά χωριό), τα ομαδοποιούμε (π.χ. σε επίπεδο νομού). Έτσι μειώνεται ο κίνδυνος αποκάλυψης ταυτότητας.
Logging & approvals: Κάθε δημοσίευση ελέγχεται και καταγράφεται ποιος ενέκρινε, ώστε να υπάρχει accountability.
Εδώ το ζητούμενο είναι πρόληψη της έμμεσης ταυτοποίησης.
3. Προσωπικά ή ευαίσθητα δεδομένα
Παράδειγμα: υγεία, κοινωνικές παροχές, εκπαίδευση σε μικρές μονάδες.
Ανωνυμοποίηση: Αφαίρεση ή μετατροπή προσωπικών στοιχείων με τεχνικές όπως k-anonymity (να μην ξεχωρίζει κανείς από λιγότερα από k άτομα), l-diversity (ποικιλία τιμών στα ευαίσθητα πεδία), t-closeness (κατανομές που προσεγγίζουν την πραγματική).
Ψευδωνυμοποίηση: Όταν δεν γίνεται πλήρης ανωνυμοποίηση χωρίς απώλεια χρησιμότητας, αντικαθιστούμε προσωπικά στοιχεία με ψευδώνυμα (π.χ. ID αντί για ΑΜΚΑ). Χρήσιμο για έρευνα όπου χρειάζεται «ίχνος» ατόμου χωρίς ταυτότητα.
Differential privacy: Για μεγάλους όγκους (π.χ. εκατομμύρια εγγραφές υγείας), προστίθεται «θόρυβος» στα δεδομένα ώστε να προστατεύονται τα άτομα χωρίς να αλλοιώνεται η στατιστική εικόνα.
Εδώ το ζητούμενο είναι να μην μπορεί να ταυτοποιηθεί φυσικό πρόσωπο.
4. Επιχειρηματικά/εμπορικά δεδομένα
Παράδειγμα: συμβάσεις, προμήθειες, δραστηριότητες επιχειρήσεων.
Έλεγχος πνευματικών δικαιωμάτων & εμπορικών μυστικών: Διασφαλίζεται ότι δεν ανοίγονται δεδομένα που ανήκουν σε τρίτους ή προστατεύονται από εμπορικό απόρρητο.
Licensing: Τα datasets συνοδεύονται από άδειες χρήσης που καθορίζουν τα δικαιώματα των πολιτών/χρηστών.
Access logs: Καταγραφή χρήσης, κυρίως για API, ώστε να εντοπίζεται πιθανή κακόβουλη χρήση (scraping, αλλοιώσεις).
Εδώ το ζητούμενο είναι νομική προστασία και υπεύθυνη χρήση.
5. Δεδομένα υψηλής αξίας (High Value Datasets – HVDs)
Παράδειγμα: γεωχωρικά, κινητικότητα, εταιρικά δεδομένα, περιβαλλοντικά δεδομένα.
State of the art security (ENISA): Εφαρμογή των πλέον σύγχρονων οδηγιών (π.χ. ανωνυμοποίηση, έλεγχοι).
Monitoring API χρήσης: Συνεχής έλεγχος για ανίχνευση καταχρήσεων (π.χ. υπερβολική άντληση δεδομένων).
DDoS protection (NIS2): Προστασία υποδομών από επιθέσεις που θα κατέβαζαν την πλατφόρμα open data.
Integrity validation (hashes, digital signatures): Διασφαλίζεται ότι τα δεδομένα που βλέπει ο χρήστης είναι αυθεντικά.
Εδώ το ζητούμενο είναι διαθεσιμότητα, αξιοπιστία και εμπιστοσύνη, λόγω της μεγάλης αξίας τους για την κοινωνία.
6. Ευαίσθητες κατηγορίες (υγεία, ασφάλεια, κρίσιμες υποδομές)
Παράδειγμα: ιατρικά δεδομένα, ενεργειακά δίκτυα, δεδομένα αστυνόμευσης.
Ισχυρή ανωνυμοποίηση: επιπλέον φίλτρα ώστε να μην υπάρχει δυνατότητα ταυτοποίησης.
Data minimisation: διάθεση μόνο όσων δεδομένων είναι απολύτως αναγκαία.
API throttling: περιορισμός ταχύτητας/όγκου κλήσεων για αποτροπή κατάχρησης.
Συνεχής monitoring & incident response: αν υπάρξει παραβίαση, ενεργοποιείται σχέδιο ανάκλησης και ενημέρωσης.
Κεντρική έγκριση (Governance Board): τα datasets αυτά δεν ανοίγουν χωρίς κεντρικό έλεγχο.
Εδώ το ζητούμενο είναι ασφάλεια και εθνικό συμφέρον.
2. Νομικό πλαίσιο
2.1 GDPR (Κανονισμός ΕΕ 2016/679)
Άρθρο 4(5): Ψευδωνυμοποίηση = επεξεργασία κατά την οποία τα δεδομένα δεν μπορούν πλέον να αποδοθούν σε συγκεκριμένο υποκείμενο χωρίς τη χρήση πρόσθετων πληροφοριών.
Άρθρο 32: Αναφέρει ρητά κρυπτογράφηση και ψευδωνυμοποίηση ως ενδεικτικά μέτρα ασφάλειας.
Αιτιολογικές σκέψεις 28 & 29: Υπογραμμίζουν τη σημασία της ψευδωνυμοποίησης για τη μείωση κινδύνων.
2.2 Ν. 4624/2019 (Ελλάδα)
Ενσωματώνει τον GDPR και προβλέπει ποινικές κυρώσεις για παράνομη επεξεργασία ή διάθεση δεδομένων χωρίς επαρκή μέτρα.
2.3 Σχέση με Open Data Directive (2019/1024)
Η Οδηγία για τα Ανοικτά Δεδομένα επιτρέπει τη διάθεση μόνο εφόσον δεν θίγονται προσωπικά δεδομένα. Αυτό σημαίνει ότι:
Αν δεν υπάρχει πλήρης ανωνυμοποίηση, ο φορέας πρέπει να εφαρμόσει ψευδωνυμοποίηση + περιορισμούς πρόσβασης.
Αν ο κίνδυνος παραμένει υψηλός, το dataset δεν πρέπει να διατεθεί ως ανοικτό.
3. Κρυπτογράφηση στα Ανοικτά Δεδομένα
3.1 Τι είναι η κρυπτογράφηση
Η διαδικασία μετατροπής δεδομένων σε μη αναγνώσιμη μορφή με χρήση αλγορίθμων και κλειδιών. Μόνο οι εξουσιοδοτημένοι με το σωστό κλειδί μπορούν να τα αποκρυπτογραφήσουν.
3.2 Σημεία εφαρμογής
Encryption at rest
Τι είναι: Κρυπτογράφηση των αρχικών (raw) datasets όσο βρίσκονται αποθηκευμένα στους servers ή στις βάσεις δεδομένων του φορέα.
Γιατί: Αν κάποιος αποκτήσει μη εξουσιοδοτημένη πρόσβαση στον server, τα δεδομένα να μην είναι αναγνώσιμα χωρίς το κλειδί αποκρυπτογράφησης.
Παράδειγμα: Ιατρικά αρχεία ή στατιστικά δεδομένα που περιμένουν να υποστούν ανωνυμοποίηση πριν τη δημοσίευση.
Encryption in transit
Τι είναι: Κρυπτογράφηση κατά τη μεταφορά των δεδομένων από το εσωτερικό σύστημα του φορέα προς την εθνική πύλη open data (π.χ. data.gov.gr).
Γιατί: Χρήση πρωτοκόλλων TLS/SSL ώστε να αποτρέπεται υποκλοπή ή αλλοίωση κατά τη μεταφορά.
Παράδειγμα: Μεταφορά ενός CSV αρχείου με στατιστικά εκπαίδευσης μέσω ασφαλούς σύνδεσης HTTPS.
Encryption of backups
Τι είναι: Κρυπτογράφηση των αντιγράφων ασφαλείας (backups) των datasets.
Γιατί: Ακόμη κι αν χαθεί ή παραβιαστεί το μέσο αποθήκευσης (π.χ. δίσκος, cloud backup), τα δεδομένα δεν θα είναι αναγνώσιμα.
Παράδειγμα: Αντίγραφο ασφαλείας σε tape ή σε cloud storage με AES-256 encryption.
3.3 Γιατί είναι κρίσιμη στα open data
Τα δεδομένα πριν τη δημοσίευση είναι συνήθως προσωπικά, η κρυπτογράφηση αποτρέπει διαρροές.
Κατά τη μεταφορά από εσωτερικά συστήματα στη δημόσια πλατφόρμα, εξασφαλίζεται ότι δεν υποκλέπτονται.
Ακόμα και datasets που θα ανωνυμοποιηθούν, πρέπει πρώτα να έχουν κρυπτογραφηθεί στο «προ-επεξεργαστικό στάδιο».
4. Ψευδωνυμοποίηση στα Ανοικτά Δεδομένα
4.1 Τι είναι
Αντικατάσταση αναγνωριστικών (ονόματα, ΑΦΜ) με ψευδώνυμα (κωδικούς, IDs). Οι πρόσθετες πληροφορίες που συνδέουν το ψευδώνυμο με το πραγματικό άτομο φυλάσσονται χωριστά και υπό αυστηρό έλεγχο.
4.2 Νομικός χαρακτήρας
Η ψευδωνυμοποίηση δεν εξαιρεί τα δεδομένα από το πεδίο του GDPR. Θεωρούνται ακόμη προσωπικά, επειδή μπορεί να γίνει re-identification αν υπάρχει πρόσβαση στο «κλειδί».
4.3 Ρόλος στα open data
Είναι ενδιάμεσο μέτρο: μειώνει τον κίνδυνο αλλά δεν ισοδυναμεί με ανωνυμοποίηση.
Κατάλληλη όταν το dataset δεν μπορεί να ανωνυμοποιηθεί πλήρως, αλλά παρέχεται υπό ελεγχόμενη πρόσβαση (π.χ. για ερευνητές).
4.4 Παραδείγματα
Αντικατάσταση ονομάτων ασθενών με IDs, αλλά το mapping φυλάσσεται κρυπτογραφημένο σε άλλη βάση.
Σε open data, αυτό συνήθως οδηγεί σε restricted access data portals, όχι πλήρως ανοικτά.
5. Κίνδυνοι και περιορισμοί
5.1 Για την κρυπτογράφηση
Εξαρτάται από την ορθή διαχείριση κλειδιών.
Αν τα κλειδιά διαρρεύσουν, η προστασία μηδενίζεται.
5.2 Για την ψευδωνυμοποίηση
Αν κάποιος έχει πρόσβαση σε εξωτερικά datasets, μπορεί να κάνει re-identification (mosaic effect).
Παραμένει προσωπικό δεδομένο, δεν μπορεί να αναρτηθεί ως open data χωρίς επιπλέον μέτρα.
6. Σύνδεση με Ανωνυμοποίηση
Η ανωνυμοποίηση είναι μη αναστρέψιμη, τα δεδομένα δεν θεωρούνται πλέον προσωπικά. Στα open data, μόνο πλήρως ανωνυμοποιημένα datasets μπορούν να διατεθούν δημόσια χωρίς περιορισμούς.
7. Τι πρέπει να κάνουν οι δημόσιοι φορείς για τα Open Data
1. Κρυπτογράφηση όλων των raw datasets και των μεταφορών τους
Όλα τα ακατέργαστα δεδομένα (raw datasets), όσο βρίσκονται αποθηκευμένα στο φορέα, πρέπει να είναι κρυπτογραφημένα (encryption at rest).
Κάθε μεταφορά (π.χ. από τον server του φορέα προς την πύλη data.gov.gr) πρέπει να γίνεται με TLS/SSL ή άλλο ισχυρό πρωτόκολλο (encryption in transit).
Σκοπός: ακόμη κι αν συμβεί παραβίαση σε εσωτερικά συστήματα ή κατά τη μεταφορά, τα δεδομένα δεν θα είναι αναγνώσιμα.
2. Ψευδωνυμοποίηση μόνο ως ενδιάμεσο στάδιο, ποτέ μόνη της για open data
Η ψευδωνυμοποίηση (π.χ. αντικατάσταση ονομάτων με IDs) μειώνει τον κίνδυνο ταυτοποίησης, αλλά δεν αρκεί από μόνη της για να θεωρηθούν τα δεδομένα ανοικτά.
Ο GDPR τη θεωρεί απλώς «τεχνικό μέτρο», όχι πλήρη προστασία, γιατί αν υπάρχει το «κλειδί» μπορεί να γίνει επαναταυτοποίηση.
Άρα: χρησιμοποιείται ως ενδιάμεσο βήμα στη διαδικασία επεξεργασίας, πριν προχωρήσει η πλήρης ανωνυμοποίηση.
3. Ανωνυμοποίηση πριν από κάθε δημοσίευση open dataset
Κανένα dataset που περιέχει προσωπικά δεδομένα δεν μπορεί να δημοσιευθεί ως open data χωρίς πλήρη ανωνυμοποίηση.
Τεχνικές: k-anonymity, l-diversity, t-closeness, suppression, aggregation, differential privacy (ανάλογα με το είδος του dataset).
Στόχος: η ταυτοποίηση φυσικού προσώπου να είναι πρακτικά αδύνατη, ακόμα και με συνδυασμό άλλων πηγών (μείωση residual risk).
4. Τεκμηρίωση σε DPIA της μεθόδου και του residual risk
Για κάθε dataset υψηλού κινδύνου απαιτείται Data Protection Impact Assessment (DPIA).
Το DPIA πρέπει να τεκμηριώνει:
ποια τεχνική ανωνυμοποίησης χρησιμοποιήθηκε,
ποιος ήταν ο εκτιμώμενος υπολειπόμενος κίνδυνος (residual risk),
γιατί η διάθεση θεωρείται ασφαλής.
Σκοπός: η αρχή της λογοδοσίας (accountability) — να μπορεί ο φορέας να αποδείξει σε έλεγχο ότι έκανε όλα τα απαραίτητα βήματα.
5. Διαβάθμιση διάθεσης
Δεν είναι όλα τα δεδομένα για πλήρη δημοσίευση. Οι φορείς πρέπει να εφαρμόζουν τρία επίπεδα διάθεσης:
Πλήρως ανοικτά (ανωνυμοποιημένα): datasets που έχουν περάσει από ανωνυμοποίηση και δεν εμπεριέχουν κίνδυνο ταυτοποίησης. Δημοσιεύονται στην πύλη data.gov.gr.
Restricted (ψευδωνυμοποιημένα): datasets που είναι χρήσιμα για έρευνα ή εσωτερική χρήση αλλά δεν μπορούν να ανωνυμοποιηθούν πλήρως. Διατίθενται μόνο σε περιορισμένο κοινό με ειδικούς όρους πρόσβασης (π.χ. πανεπιστήμια με MoU).
Καθόλου διάθεση: datasets που, ακόμη και με μέτρα, παρουσιάζουν υψηλό residual risk. Σε αυτές τις περιπτώσεις προέχει η προστασία ιδιωτικότητας/ασφάλειας και η δημοσίευση απορρίπτεται.
Συμπέρασμα: Οι δημόσιοι φορείς πρέπει να βλέπουν τα ανοικτά δεδομένα όχι απλώς ως «ανάρτηση αρχείων», αλλά ως διαδικασία ασφάλειας και λογοδοσίας. Μόνο έτσι η διάθεση γίνεται με τρόπο που ενισχύει τη διαφάνεια, χωρίς να παραβιάζει δικαιώματα ή να δημιουργεί κινδύνους.
Last updated