PomLex: Κατηγοριοποίηση κειμένων και αναγνώριση διαλέκτων / ιδιωμάτων με τη χρήση Η/Υ

Δευτέρα 24 Οκτωβρίου 2022

Κατηγοριοποίηση κειμένων και αναγνώριση διαλέκτων / ιδιωμάτων με τη χρήση Η/Υ

Σχετικά πρόσφατα είχα βρεθεί στην ανάγκη να κατηγοριοποιήσω κάποια κείμενα βάσει διαλέκτου / ιδιώματος.
Παρότι δεν είμαι διαλεκτολόγος την έκανα την προσπάθεια μου.
Όταν αναζήτησα βοήθεια από τους πλέον "ειδικούς", η απάντηση ήταν "I don't know".
Συχνά - πυκνά διαβάζω (ακόμα :-) κάποια άρθρα και δημοσιεύσεις στο διαδίκτυο για text classifiers και τα σχετικά, οπότε μπήκα στον πειρασμό να δοκιμάσω κι εγώ κάτι απ' αυτά τα "καλούδια".
Μήπως, είπα, τα μηχανήματα τα καταφέρνουν καλύτερα σε αυτό το θέμα.
Να μπορώ να δώσω, δηλαδή, ένα κειμενάκι στο μηχάνημα και να μου πει αν ταιριάζει περισσότερο στο ιδίωμα της Μύκης, του Δημαρίου κλπ.
Όλα αυτά τα σύγχρονα εργαλεία όμως χρησιμοποιούν κάποια μορφή μηχανικής μάθησης ή τεχνητής νοημοσύνης, για να δώσουν κάποια αξιοπρεπή αποτελέσματα.
Αυτό σημαίνει ότι χρειάζονται την καλύτερη δυνατή εκπαίδευση.
Αυτό με τη σειρά του προϋποθέτει την ύπαρξη ικανού όγκου δεδομένων στην κατάλληλη μορφή.
Ένα από τα πολλά εργαλεία που κυκλοφορούν ελεύθερα στο διαδίκτυο και υπόσχονται "απτά" αποτελέσματα είναι και το fasttext.
Το έχει αναπτύξει η Facebook και το διανέμει ελεύθερα.
Οπότε σκέφτηκα να δω τί παίζει μ' αυτό.
Το καλό είναι ότι στο νέο μου λινουξικό περιβάλλον δεν χρειάστηκε κάποια ιδιαίτερη προσπάθεια από την πλευρά μου και η μεταγλώττιση από τον πηγαίο κώδικα έγινε εύκολα και γρήγορα.
Το επόμενο βήμα ήταν να βρω κάποιο έτοιμο κείμενο "επισημειωμένο" και να εξοικειωθώ με το λεγόμενο workflow.
Τί έπρεπε να κάνω, δηλαδή, με ποιον τρόπο και με ποια σειρά, ώστε να δω κάποια αποτελέσματα.
Ούτε αυτό ήταν κάτι ιδιαίτερα δύσκολο και μετά από κάποιες ώρες είχα ξεκινήσει ήδη τη διαδικασία, για να πειραματιστώ με τα Πομακικά.
Σπάσιμο κειμένων σε απλές προτάσεις (από περίοδο σε περίοδο ή τελεία αν προτιμάτε).
"Επισημείωση" των προτάσεων αυτών με την κατάλληλη ετικέτα ανάλογα με το ιδίωμα.
Εκπαίδευση του fasttext με τις κατάλληλες ρυθμίσεις.
Και, τέλος, εκτίμηση των αποτελεσμάτων.
Ευτυχώς για όλα αυτά έχω και τα δικά μου "εργαλειάκια" και η όλη διαδικασία ήταν μια ευχάριστη ρουτίνα.
Η εκπαίδευση αυτή καθεαυτή στις 20.000 "εποχές" με τους 16 πυρήνες που διαθέτει το σαραβαλάκι μου κράτησε γύρω στα 6,5 πρώτα λεπτά της ώρας.
Τίποτα μπροστά στην εκπαίδευση άλλων εργαλείων που έχω κάνει για άλλο σκοπό.
Ομολογώ πως τα αποτελέσματα είναι κάτι παραπάνω από ενθαρρυντικά.
Χωρίς να τα έχω μελετήσει σε βάθος, ύψος και μήκος, τα δυο-τρία τεστάκια που έκανα με κείμενα που δεν είχαν συμπεριληφθεί στην εκπαίδευση με έπεισαν ότι το συγκεκριμένο τουλάχιστον εργαλείο άξιζε τον χρόνο που του αφιέρωσα και μπορεί να βοηθήσει τα μέγιστα στην "ταυτοποίηση / αναγνώριση" κειμένων μετά από μια σοβαρή και κατάλληλη εκπαίδευση.
Δοκιμάστε κι εσείς :-) Τη βιβλιοθήκη θα τη βρείτε εδώ

Ακολουθούν κάποια στιγμιότυπα οθόνης.

Για τον Ριτβάν

Είναι απόφοιτος της Ειδικής Παιδαγωγικής Ακαδημίας Θεσσαλονίκης (διετούς φοιτήσεως) και από το 2008 έως το 2014 εργάστηκε στο Μ/κό Γυμνάσιο - Λύκειο του Ιεροσπουδαστηρίου Εχίνου ως διοικητικό προσωπικό (Γραμματειακή υποστήριξη). Κατά τα σχολικά έτη 2014 - 2015 και 2015 - 2016 τελών σε άδεια άνευ αποδοχών αιτήθηκε τη μετάταξη του σε άλλη δημόσια υπηρεσία, μη δυνάμενος να ανταποκριθεί στα καθήκοντα του ως δασκάλου στο 4/θ Μειονοτικό Δημοτικό Σχολείο του Δημαρίου εξαιτίας της ανεπάρκειας του στην τουρκική γλώσσα, χωρίς να ικανοποιηθεί το αίτημα του για καθαρά πολιτικούς λόγους. Κατόπιν τούτου η αποχή από τα καθήκοντα του ήταν μονόδρομος για τον ίδιο. Παραπέμφθηκε τρεις φορές ενώπιον του Α/θμιου Πειθαρχικού Συμβουλίου της Περιφερειακής Διεύθυνσης Πρωτοβάθμιας & Δευτεροβάθμιας Εκπαίδευσης Ανατολικής Μακεδονίας & Θράκης από τον πειθαρχικώς προϊστάμενο του και Διευθυντή της Διεύθυνσης Πρωτοβάθμιας Εκπαίδευσης Ξάνθης κ. Μάρκου Αναστάσιο για το παράπτωμα της αδικαιολόγητης αποχής από τα καθήκοντα του χωρίς δυνατότητα νομικής υπεράσπισης εξαιτίας της "ευγενικής" άρνησης των δικηγόρων για τη νομική εκπροσώπηση του ενώπιον των πειθαρχικών οργάνων του ελληνικού δημοσίου. Στις 23/5/2018 του επιδόθηκε από τον Αστυνομικό Σταθμό Μύκης το υπ' αριθμό Π.Σ. 85/30-04-2018 έγγραφο του Πρωτοβάθμιου Πειθαρχικού Συμβουλίου της Περιφερειακής Διεύθυνσης Πρωτοβάθμιας & Δευτεροβάθμιας Εκπαίδευσης Ανατολικής Μακεδονίας & Θράκης, με το οποίο του κοινοποιήθηκε η πειθαρχική ποινή της οριστικής παύσης.

Από τα φοιτητικά του χρόνια (δύο δεκαετίες περίπου) στον ελεύθερο χρόνο του ασχολείται με την καταγραφή και κωδικοποίηση της μητρικής τους γλώσσας, της Πομακικής. Παράλληλα, σε ερασιτεχνικό επίπεδο και για τις ανάγκες του λεξικού κυρίως, ασχολείται και με τους υπολογιστές γενικότερα και τον προγραμματισμό ειδικότερα (html, xml, asp, asp.net, php, vb.net, c++, sql).

Κατά τη διάρκεια της στρατιωτικής του θητείας και στα πλαίσια του προγράμματος της Κοινωνικής Προσφοράς των Ενόπλων Δυνάμεων εργάστηκε μαζί με μια ομάδα φιλολόγων και συστρατιωτών του για τη σύνταξη του Πομακικού – Ελληνικού Λεξικού, του Ελληνικού – Πομακικού Λεξικού, της Γραμματικής και του Συντακτικού της Πομακικής Γλώσσας, τα οποία εκδόθηκαν από το Δ’ Σώμα Στρατού υπό τη Διοίκηση του Στρατηγού Μανούσου Παραγιουδάκη.

Εκτός από την Πομακική και την Ελληνική, γνωρίζει λίγα Βουλγαρικά, λίγα Τουρκικά και κατανοεί κάποια γραπτά Αγγλικά.

Προτού διοριστεί στο Δημόσιο έχει εργαστεί στον τραπεζικό τομέα (υπάλληλος στην πρώην Εθνική Κτηματική Τράπεζα της Ελλάδος), στον κατασκευαστικό (εργάτης οικοδόμος, βοηθός τοπογράφου) και στον τομέα της τυπογραφίας.

Είναι παντρεμένος και πατέρας τεσσάρων παιδιών.

Επικοινωνία: ritvank@gmail.com

Σελίδες

Δευτέρα 24 Οκτωβρίου 2022

Κατηγοριοποίηση κειμένων και αναγνώριση διαλέκτων / ιδιωμάτων με τη χρήση Η/Υ