Σχετικά πρόσφατα είχα βρεθεί στην ανάγκη να κατηγοριοποιήσω κάποια κείμενα βάσει διαλέκτου / ιδιώματος.
Παρότι δεν είμαι διαλεκτολόγος την έκανα την προσπάθεια μου.
Όταν αναζήτησα βοήθεια από τους πλέον "ειδικούς", η απάντηση ήταν "I don't know".
Συχνά - πυκνά διαβάζω (ακόμα :-) κάποια άρθρα και δημοσιεύσεις στο διαδίκτυο για text classifiers και τα σχετικά, οπότε μπήκα στον πειρασμό να δοκιμάσω κι εγώ κάτι απ' αυτά τα "καλούδια".
Μήπως, είπα, τα μηχανήματα τα καταφέρνουν καλύτερα σε αυτό το θέμα.
Να μπορώ να δώσω, δηλαδή, ένα κειμενάκι στο μηχάνημα και να μου πει αν ταιριάζει περισσότερο στο ιδίωμα της Μύκης, του Δημαρίου κλπ.
Όλα αυτά τα σύγχρονα εργαλεία όμως χρησιμοποιούν κάποια μορφή μηχανικής μάθησης ή τεχνητής νοημοσύνης, για να δώσουν κάποια αξιοπρεπή αποτελέσματα.
Αυτό σημαίνει ότι χρειάζονται την καλύτερη δυνατή εκπαίδευση.
Αυτό με τη σειρά του προϋποθέτει την ύπαρξη ικανού όγκου δεδομένων στην κατάλληλη μορφή.
Ένα από τα πολλά εργαλεία που κυκλοφορούν ελεύθερα στο διαδίκτυο και υπόσχονται "απτά" αποτελέσματα είναι και το fasttext.
Το έχει αναπτύξει η Facebook και το διανέμει ελεύθερα.
Οπότε σκέφτηκα να δω τί παίζει μ' αυτό.
Το καλό είναι ότι στο νέο μου λινουξικό περιβάλλον δεν χρειάστηκε κάποια ιδιαίτερη προσπάθεια από την πλευρά μου και η μεταγλώττιση από τον πηγαίο κώδικα έγινε εύκολα και γρήγορα.
Το επόμενο βήμα ήταν να βρω κάποιο έτοιμο κείμενο "επισημειωμένο" και να εξοικειωθώ με το λεγόμενο workflow.
Τί έπρεπε να κάνω, δηλαδή, με ποιον τρόπο και με ποια σειρά, ώστε να δω κάποια αποτελέσματα.
Ούτε αυτό ήταν κάτι ιδιαίτερα δύσκολο και μετά από κάποιες ώρες είχα ξεκινήσει ήδη τη διαδικασία, για να πειραματιστώ με τα Πομακικά.
Σπάσιμο κειμένων σε απλές προτάσεις (από περίοδο σε περίοδο ή τελεία αν προτιμάτε).
"Επισημείωση" των προτάσεων αυτών με την κατάλληλη ετικέτα ανάλογα με το ιδίωμα.
Εκπαίδευση του fasttext με τις κατάλληλες ρυθμίσεις.
Και, τέλος, εκτίμηση των αποτελεσμάτων.
Ευτυχώς για όλα αυτά έχω και τα δικά μου "εργαλειάκια" και η όλη διαδικασία ήταν μια ευχάριστη ρουτίνα.
Η εκπαίδευση αυτή καθεαυτή στις 20.000 "εποχές" με τους 16 πυρήνες που διαθέτει το σαραβαλάκι μου κράτησε γύρω στα 6,5 πρώτα λεπτά της ώρας.
Τίποτα μπροστά στην εκπαίδευση άλλων εργαλείων που έχω κάνει για άλλο σκοπό.
Ομολογώ πως τα αποτελέσματα είναι κάτι παραπάνω από ενθαρρυντικά.
Χωρίς να τα έχω μελετήσει σε βάθος, ύψος και μήκος, τα δυο-τρία τεστάκια που έκανα με κείμενα που δεν είχαν συμπεριληφθεί στην εκπαίδευση με έπεισαν ότι το συγκεκριμένο τουλάχιστον εργαλείο άξιζε τον χρόνο που του αφιέρωσα και μπορεί να βοηθήσει τα μέγιστα στην "ταυτοποίηση / αναγνώριση" κειμένων μετά από μια σοβαρή και κατάλληλη εκπαίδευση.
Δοκιμάστε κι εσείς :-) Τη βιβλιοθήκη θα τη βρείτε εδώ
Ακολουθούν κάποια στιγμιότυπα οθόνης.