Δημιουργία Ιεραρχιών Γενίκευσης

Αυτή είναι η πιο κρίσιμη φάση. Στο δεξί πάνελ, θα ορίσετε τον ρόλο κάθε στήλης.

Η καρτέλα Transformation μπορεί να χρησιμοποιηθεί για να οριστεί ο τύπος ενός χαρακτηριστικού (attribute) και η μέθοδος μετασχηματισμού που θα εφαρμοστεί σε αυτό. Επίσης, στην ίδια καρτέλα εμφανίζεται η ιεραρχία γενίκευσης του χαρακτηριστικού και παρέχεται context menu (με δεξί κλικ) για απευθείας επεξεργασία επί τόπου.

Τύποι δεδομένων που μπορεί να περιέχουν τα αρχεία:

Κατηγορία δεδομένων

Παράδειγμα

Χρήση στο ARX

Identifying (Αναγνωριστικές στήλες)

ΑΦΜ, ΑΜΚΑ, Όνομα

Πληροφορίες που μπορούν να εντοπίσουν άμεσα ένα άτομο. Συνήθως αφαιρούνται πριν την ανωνυμοποίηση

Quasi-identifiying (Ημι-αναγνωριστικές στήλες)

Ηλικία, Ταχυδρομικός κώδικας, Φύλο

Περιέχουν πληροφορίες που, αν συνδυαστούν, μπορούν να αναγνωρίσουν ένα άτομο Ανωνυμοποιούνται (π.χ. με γενίκευση ή κατακοπή)

Sensitive (Ευαίσθητα δεδομένα)

Ασθένεια, Μισθός

Δεδομένα που δεν μπορούν να χρησιμοποιηθούν για άμεση αναγνώριση, αλλά περιέχουν ευαίσθητες πληροφορίες

Διατηρούνται αλλά προστατεύονται από συνδυαστική αναγνώριση

Insensitive (Αμετάβλητα attributes)

Χώρα, Κατηγορία

Χρησιμοποιούνται για φιλτράρισμα ή ταξινόμηση

Το ARX προσφέρει διαφορετικές μεθόδους για τη δημιουργία ιεραρχιών γενίκευσης για διαφορετικούς τύπους χαρακτηριστικών. Οι ιεραρχίες γενίκευσης που δημιουργούνται με τον οδηγό αποθηκεύονται ως συναρτήσεις, πράγμα που σημαίνει ότι μπορούν να δημιουργηθούν για ολόκληρο το πεδίο τιμών ενός χαρακτηριστικού χωρίς να χρειάζεται να οριστούν ρητά οι συγκεκριμένες τιμές ενός συγκεκριμένου dataset. Επιπλέον, οι προδιαγραφές των ιεραρχιών μπορούν να εισαχθούν ή να εξαχθούν, και επομένως μπορούν να επαναχρησιμοποιηθούν για την ανωνυμοποίηση διαφορετικών συνόλων δεδομένων με παρόμοια χαρακτηριστικά. Για να δημιουργηθεί μια ιεραρχία επιλέγετε από το μενού “Edit” > “Create hierarchy…”

Είναι σημαντικό να έχουν οριστεί σωστοί τύποι δεδομένων πριν χρησιμοποιηθεί ο οδηγός. Ο οδηγός μπορεί να χρησιμοποιηθεί για να δημιουργηθούν τέσσερις διαφορετικοί τύποι ιεραρχιών:

Ιεραρχίες με βάση την απόκρυψη (masking-based): ένας μηχανισμός γενικής χρήσης που επιτρέπει τη δημιουργία ιεραρχιών για ένα ευρύ φάσμα χαρακτηριστικών.

Ιεραρχίες βάσει διαστημάτων (interval-based): κατάλληλες για μεταβλητές με αναλογική κλίμακα.

Ιεραρχίες βάσει σειράς (order-based): για μεταβλητές με τακτική κλίμακα.

Ιεραρχίες βάσει ημερομηνιών (date-based): χρησιμοποιούνται ειδικά για ημερομηνίες.

Ιεραρχίες βασισμένες σε απόκρυψη (masking-based)

Η απόκρυψη είναι ένας ευέλικτος μηχανισμός που μπορεί να εφαρμοστεί σε πολλούς τύπους χαρακτηριστικών και είναι ιδιαίτερα κατάλληλος για αλφαριθμητικούς κωδικούς, όπως οι ταχυδρομικοί κώδικες (ZIP codes). Η παρακάτω εικόνα δείχνει το αντίστοιχο βήμα του οδηγού:

Στον οδηγό, η απόκρυψη ακολουθεί μια διαδικασία δύο βημάτων. Πρώτα, οι τιμές στοιχίζονται είτε αριστερά είτε δεξιά. Έπειτα, οι χαρακτήρες «καλύπτονται» (masked), ξανά είτε από τα αριστερά προς τα δεξιά είτε από τα δεξιά προς τα αριστερά. Όλες οι τιμές προσαρμόζονται σε κοινό μήκος με την προσθήκη χαρακτήρων συμπλήρωσης (padding). Τόσο αυτός ο χαρακτήρας όσο και ο χαρακτήρας απόκρυψης μπορούν να καθοριστούν από τον χρήστη.

Ιεραρχίες βασισμένες σε διαστήματα (interval-based)

Τα διαστήματα αποτελούν έναν φυσικό τρόπο γενίκευσης για τιμές με αναλογική κλίμακα, όπως ακέραιοι ή δεκαδικοί αριθμοί. Το ARX προσφέρει έναν γραφικό επεξεργαστή για τον εύκολο ορισμό συνόλων διαστημάτων σε ολόκληρο το εύρος μιας μεταβλητής. Αρχικά ορίζεται μια ακολουθία διαστημάτων στο αριστερό τμήμα της προβολής. Στη συνέχεια μπορούν να καθοριστούν επίπεδα που αποτελούνται από ομάδες διαστημάτων του προηγούμενου επιπέδου. Κάθε ομάδα συνδυάζει έναν συγκεκριμένο αριθμό στοιχείων του προηγούμενου επιπέδου, και οποιαδήποτε ακολουθία επαναλαμβάνεται αυτόματα ώστε να καλύπτεται όλο το εύρος του χαρακτηριστικού. Για παράδειγμα, για να γενικευθούν ακέραιοι σε διαστήματα μήκους 10 αρκεί ο ορισμός του διαστήματος [0, 10]. Ορισμός ομάδας μεγέθους 2 στο επόμενο επίπεδο δημιουργεί αυτόματα διαστήματα μεγέθους 20. Ο επεξεργαστής υποδεικνύει αυτόματα επαναλήψεις των διαστημάτων και ομάδων.

Για να μπορούν να δημιουργηθούν ετικέτες για τα διαστήματα, κάθε στοιχείο πρέπει να συσχετιστεί με μια συνάρτηση σύνοψης (aggregate function). Υποστηρίζονται οι εξής συναρτήσεις:

  1. Set: επιστρέφει ένα σύνολο από τις αρχικές τιμές

  2. Prefix: επιστρέφει σύνολα προθεμάτων σε συγκεκριμένο μήκος

  3. Common-prefix: επιστρέφει το μεγαλύτερο κοινό πρόθεμα

  4. Bounds: επιστρέφει την πρώτη και τελευταία τιμή του συνόλου

  5. Interval: επιστρέφει το διάστημα από ελάχιστο έως μέγιστο

  6. Constant: επιστρέφει μια προκαθορισμένη σταθερή τιμή

Κάνοντας κλικ σε διάστημα ή ομάδα ανοίγει ένας επεξεργαστής για τον καθορισμό παραμέτρων. Στοιχεία μπορούν να αφαιρεθούν, προστεθούν ή συγχωνευθούν με δεξί κλικ. Τα διαστήματα ορίζονται από ελάχιστο (inclusive) και μέγιστο (exclusive) όριο. Οι ομάδες χαρακτηρίζονται από το μέγεθός τους.

Οι interval-based ιεραρχίες μπορούν να ορίσουν εύρος εφαρμογής. Οποιαδήποτε τιμή έξω από τα minimum και maximum value προκαλεί μήνυμα σφάλματος — χρήσιμο για ελέγχους εγκυρότητας.

Ιεραρχίες βασισμένες σε σειρά (order-based)

Ακολουθούν παρόμοια αρχή με τις interval-based, αλλά περιλαμβάνουν συμβολοσειρές που ταξινομούνται λεξικογραφικά. Πρώτα οι τιμές ταξινομούνται Έπειτα μπορούν να ομαδοποιηθούν όπως στα διαστήματα. Οι order-based ιεραρχίες είναι ιδιαίτερα χρήσιμες για τακτικές συμβολοσειρές, καθώς εμφανίζουν όλο το πιθανό domain και όχι μόνο τις πραγματικές τιμές του dataset. Το σύστημα αυτό επιτρέπει τη δημιουργία σημασιολογικών ιεραρχιών με βάση μια προκαθορισμένη σειρά των τιμών. Οι γενικεύσεις μπορούν να πάρουν ετικέτες καθορισμένες από τον χρήστη.

Ιεραρχίες βασισμένες σε ημερομηνίες (date-based)

Αυτός ο οδηγός υποστηρίζει τη δημιουργία ιεραρχιών για ημερομηνίες επιλέγοντας διαδοχικά επίπεδα γενίκευσης (π.χ. μέρα → μήνας → έτος → δεκαετία). Είναι σημαντικό τα επίπεδα να σχηματίζουν πραγματική ιεραρχία (π.χ. το day-of-week δεν μπορεί να ακολουθηθεί από week-of-year, καθώς η ίδια μέρα μπορεί να ανήκει σε διαφορετικές εβδομάδες). Αν παραβιαστεί αυτός ο κανόνας, το ARX θα εμφανίσει σφάλμα κατά την ανωνυμοποίηση.

Σε όλα τα είδη οδηγών, στο τέλος παρουσιάζεται πίνακας με την ιεραρχία που δημιουργήθηκε για το συγκεκριμένο dataset, καθώς και ο αριθμός ομάδων σε κάθε επίπεδο. Η ιεραρχία που δημιουργείται λειτουργικά μπορεί να εξαχθεί (export) και να επαναχρησιμοποιηθεί σε διαφορετικά datasets με παρόμοια χαρακτηριστικά.

Last updated