Faceting και εκκαθάριση δεδομένων
Στο OpenRefine, ένα facet είναι ένας τρόπος να απομονωθούν συγκεκριμένες εγγραφές που μοιράζονται κοινά χαρακτηριστικά. Ένα facet (όψη) ομαδοποιεί όλες τις τιμές που εμφανίζονται σε μια στήλη και σας επιτρέπει να φιλτράρετε τα δεδομένα με βάση αυτές τις τιμές, καθώς και να επεξεργάζεστε τιμές σε πολλές εγγραφές ταυτόχρονα.
Μία από τις πιο συχνά χρησιμοποιούμενες όψεις είναι το Text Facet. Αυτή ομαδοποιεί όλες τις τιμές κειμένου σε μια στήλη και παραθέτει κάθε τιμή μαζί με τον αριθμό των εγγραφών στις οποίες εμφανίζεται. Οι πληροφορίες του facet εμφανίζονται πάντα στο αριστερό πάνελ της διεπαφής του OpenRefine.
Για να δημιουργήσετε ένα text facet για μια στήλη, κάντε κλικ στο αναπτυσσόμενο μενού στην κορυφή της στήλης και επιλέξτε Facet -> Text Facet. Η όψη θα εμφανιστεί τότε στο αριστερό πάνελ.
Η όψη αποτελείται από μια λίστα τιμών που χρησιμοποιούνται στα δεδομένα. Μπορείτε να φιλτράρετε τα δεδομένα που εμφανίζονται κάνοντας κλικ σε μία από αυτές τις τιμές.
Μπορείτε επίσης να συμπεριλάβετε πολλές τιμές της όψης σε ένα φίλτρο ταυτόχρονα χρησιμοποιώντας την επιλογή Include, η οποία εμφανίζεται όταν τοποθετήσετε τον δείκτη του ποντικιού σας πάνω από μια τιμή στην όψη.
Μπορείτε ακόμη να αντιστρέψετε το φίλτρο ώστε να εμφανιστούν όλες οι εγγραφές που δεν ταιριάζουν με τις επιλεγμένες τιμές σας. Αυτή η επιλογή εμφανίζεται στο επάνω μέρος του πάνελ της Όψης, όταν έχετε επιλέξει μια τιμή για να εφαρμοστεί ως φίλτρο.

Δείτε τη λίστα jurisdiction που εμφανίζεται στην αριστερή πλευρά του παραθύρου του OpenRefine. Η λειτουργία facet του OpenRefine έχει ομαδοποιήσει κάθε όρο που εμφανίζεται στη στήλη jurisdiction, μαζί με το πόσες φορές εμφανίζεται. Μπορείτε να ταξινομήσετε τη λίστα των όρων αλφαβητικά, ανά όνομα, ή κατά πλήθος, ανάλογα με το πόσες φορές εμφανίζονται αυτοί οι όροι στη λίστα. Αν κάνετε κλικ σε έναν από τους όρους, θα επιλεγούν μόνο οι γραμμές που περιέχουν αυτόν τον όρο. Αυτό σας επιτρέπει να εργάζεστε με τα δεδομένα σας τμηματικά.

Εκκαθάριση Δεδομένων
Κοιτώντας προσεκτικά αυτή τη λίστα όρων διαπιστώνουμε ότι περιλαμβάνει δύο όρους που πιθανότατα προορίζονται να είναι ο ίδιος: ΠΕΡΙΦΕΡΕΙΑΚΗ Δ/ΝΣΗ Α/ΘΜΙΑΣ ΚΑΙ Β/ΘΜΙΑΣ ΕΚΠ/ΣΗΣ ΑΤΤΙΚΗΣ και ΠΕΡΙΦΕΡΕΙΑΚΗ Δ/ΝΣΗ Α/ΘΜΙΑΣ ΚΑΙ Β/ΘΜΙΑΣ ΕΚΠ/ΣΗΣ Αττικής. Παρόλο που ένας άνθρωπος μπορεί να καταλάβει ότι αναφέρονται στο ίδιο πράγμα, ο υπολογιστής δεν το γνωρίζει. Γι’ αυτό είναι σημαντικό να καθαρίσετε αυτά τα δεδομένα, ώστε να δημιουργηθούν ακριβείς απεικονίσεις και αναλύσεις. Τοποθετήστε τον δείκτη του ποντικιού πάνω από τον όρο ΠΕΡΙΦΕΡΕΙΑΚΗ Δ/ΝΣΗ Α/ΘΜΙΑΣ ΚΑΙ Β/ΘΜΙΑΣ ΕΚΠ/ΣΗΣ Αττικής στη λίστα της όψης, ώστε να δείτε την επιλογή Edit. Πατήστε Edit και, στο πλαίσιο που εμφανίζεται, αλλάξτε σε ΠΕΡΙΦΕΡΕΙΑΚΗ Δ/ΝΣΗ Α/ΘΜΙΑΣ ΚΑΙ Β/ΘΜΙΑΣ ΕΚΠ/ΣΗΣ ΑΤΤΙΚΗΣ και πατήστε Apply. Τώρα οι δύο όροι θα συγχωνευτούν σε έναν.
Εκκαθάριση Δεδομένων – Clustering
Ρίξτε ξανά μια ματιά στο πλαίσιο του facet. Θα δείτε ένα κουμπί με την ένδειξη Cluster.
Στο πλαίσιο που εμφανίζεται, θα δείτε όρους που το OpenRefine θεωρεί ότι πρέπει να συγχωνευτούν. Επιλέξτε τα πλαίσια δίπλα στους όρους που πιστεύετε ότι πρέπει να συγχωνευτούν και μετά κάντε κλικ στο Merge Selected and Re-Cluster. Δοκιμάστε μερικές από τις άλλες επιλογές στο αναπτυσσόμενο μενού Μέθοδος (Method). Καθεμία χρησιμοποιεί διαφορετικό αλγόριθμο για να προσπαθήσει να ταιριάξει όρους. Όταν τελειώσετε την πειραματική δοκιμή, κάντε κλικ στο Κλείσιμο (Close). Θα παρατηρήσετε ότι έχετε λιγότερους όρους στη λίστα της όψης σας.

Last updated