Πριν από λίγο καιρό μια "αντάρτισσα" γλωσσολόγος ρωτούσε αν υπάρχει ήδη έτοιμο ή αν μπορεί να κατασκευαστεί κάποιο λογισμικό πακέτο γενικότερης χρήσης για την κατασκευή μορφολογικού λεξικού.
Τέτοιο λογισμικό θα υπάρχει σίγουρα σε πανεπιστήμια, οργανισμούς και ιδρύματα ή και σε ιδιώτες ακόμα.
Υποψιάζομαι όμως ότι στις περισσότερες περιπτώσεις αυτό είναι προσαρμοσμένο στις ανάγκες κάποιας συγκεκριμένης γλώσσας.
Εγώ στο μεταξύ είχα "μπανίσει" εδώ και λίγο καιρό την υλοποίηση ενός νευρωνικού (https://github.com/mfaruqui/morph-trans) που υπόσχεται αυτό ακριβώς το πράγμα.
Να κατασκευάσει μορφολογικό λεξικό αφού έχει εκπαιδευτεί πρώτα σε μια συγκεκριμένη γλώσσα με το κατάλληλο υλικό.
Εντάξει, η "αντάρτισσα" μιλούσε για κάτι "απλό" στη χρήση που θα μπορούσε να το "κουμαντάρει" κι ένας Κόκκας π.χ. (τώρα που μπορεί να ξεχωρίζει πλέον ένα συνημμένο αρχείο στο ηλ. ταχυδρομείο απ' αυτά που αναρτώνται στο Google Drive).
Το συγκεκριμένο "μαραφέτι" όμως δεν είναι για το "μπόι" του καθενός και χρειάζεται τον μάστορα του.
Από την ίδια τη μεταγλώττιση κι εγκατάσταση του, την πιθανή παρέμβαση στον κώδικα, μέχρι την προετοιμασία του εκπαιδευτικού υλικού και τη χρήση του.
Ο Αντώνης σε μια δημοσίευση του (https://arxiv.org/pdf/1701.03980.pdf) λέει ότι έχει χρησιμοποιηθεί και από άλλους χωρίς να αναφέρει κάτι πιο συγκεκριμένο.
Ο ίδιος μέχρι τώρα δεν έχω αντιληφθεί κάποια δημοσίευση για τη χρήση του συγκεκριμένου εργαλείου, την ακρίβεια του αποτελέσματος που μπορεί να δώσει ή κάποια άλλη πληροφορία.
Προσωπικά για το μορφολογικό λεξικό της Πομακικής έχω αναπτύξει τους δικούς μου (κλασικούς) αλγορίθμους, οι οποίοι όμως είναι και αυτοί προσαρμοσμένοι στις ανάγκες και τους κανόνες της αυτής γλώσσας.
Η περιέργεια μου παρά ταύτα για την αποτελεσματικότητα του συγκεκριμένου εργαλείου μ' έτρωγε και ήταν θέμα χρόνου να καταπιαστώ μαζί του κάπως πιο σοβαρά.
Το "ευτύχημα" είναι πως έχει υλοποιηθεί σε C++. Αν ήταν σε Πύθωνα, δεν ξέρω αν θα έβρισκα κουράγιο να κάτσω να μάθω μια νέα γλώσσα απ' την αρχή (σχεδόν).
Πάμε στο "ψητό".
Μέσα σε διάστημα κάποιων ημερών πόσα τεστ και πειράματα θα μπορούσε να κάνει κανείς, για να βεβαιωθεί για τη χρησιμότητα ενός τόσο σύνθετου και πολύπλοκου εργαλείου και να αποφασίσει για τη χρήση ή την απόρριψη του;
Όχι και πάρα πολλά νομίζω. Σίγουρα χρειάζονται αρκετές δοκιμές με διάφορα σχήματα και ρυθμίσεις.
Το ίδιο το εργαλείο υποστηρίζει τουλάχιστον καμιά οκταριά διαφορετικούς αλγορίθμους για την ίδια δουλειά.
Και ο καθένας απ' αυτούς μπορεί να δώσει λίγο καλύτερα ή χειρότερα αποτελέσματα ανάλογα με τις παραμέτους και το ίδιο το εκπαιδευτικό υλικό.
Μετά από μια γρήγορη δοκιμή των 6 απ' αυτούς (δυο έβγαζαν κάποιο σφάλμα και δεν είχα χρόνο να τους ψάξω περαιτέρω), το καλύτερο αποτέλεσμα το έδωσαν οι joint-enc-dec-morph και sep-morph.
Στους εξακολουθητικούς ρηματικούς τύπους του ενεστώτα της οριστικής η ακρίβεια κυμαίνεται γύρω στο 95% ή λίγο παραπάνω σ' ένα σετ 10.000 ρηματικών τύπων με αναλογία 80/10/10 (train/dev/test).
Καθόλου άσχημα θα έλεγα.
Αυτό και μόνο με βάζει στον πειρασμό να συνεχίσω περαιτέρω τις δοκιμές στο σύνολο του κλιτικού συστήματος, για να δω τί άλλο μπορεί να κάνει και πού "σκοντάφτει".
Αν κι εφ' όσον προκύψει κάτι ενδιαφέρον, η ανανέωση της ανάρτησης με τα όποια νέα δεδομένα θα πρέπει να θεωρείται σχεδόν βεβαία.
Μέχρι τότε θα σας ευχηθώ να περνάτε εσείς καλά κι εγώ ακόμα καλύτερα -:)
Δυο οθονιές νομίζω είναι αρκετές για να πάρετε μια πρώτη γεύση.
(Και το κουίζ της χρονιάς: μαντέψτε ποιο πληκτρολόγιο κρύβεται πίσω από τη γαλλική σημαία ;-)
Τρίτη 22 Νοεμβρίου 2022
Παραγωγή μορφολογικού λεξικού με τη χρήση μιας "αρχαίας" τεχνολογίας
Κυριακή 10 Απριλίου 2022
Η τεχνητή νοημοσύνη στην υπηρεσία της Πομακικής
Ποιος θα το έλεγε πριν από λίγο καιρό ότι μπορεί να είναι εφικτό κάτι τέτοιο;
Μάλλον ως θεωρία συνωμοσίας θα ηχούσε στα αυτιά κάποιου, παρά ως κάτι υλοποιήσιμο και ρεαλιστικό.
Τα υπόγεια ρεύματα, βέβαια, μέσα στη μέθη της φαυλότητας τους είδαν μια ευκαιρία να δείξουν τον απαράμιλλο "αλτρουισμό" τους.
Εδώ έχει απόλυτη εφαρμογή η ρήση: Όσα δεν φτάνει η αλεπού τα κάνει κρεμαστάρια.
Επικαλέστηκαν απίστευτες γελοιότητες, για να πείσουν (τον εαυτό τους μήπως;) ότι τα χρήματα (μαντέψτε ποιος τα δίνει) θα πάνε στράφι.
Ότι η ύπαρξη διαφόρων διαλέκτων και ιδιωμάτων θα ακυρώσει την τεχνολογία των νευρωνικών δικτύων.
Το γελοίον του πράγματος είναι πως οι ίδιοι δεν έχουν κάνει ούτε ένα πείραμα (γιατί άραγε;), για να στηρίξουν την "άποψη" τους αυτή.
Μετά άλλαξαν τροπάριο και εξέφρασαν τον φόβο τους ότι υπάρχει κίνδυνος κάποιο ιδίωμα (μαντέψτε ποιο) να "καπελώσει" τα υπόλοιπα.
Η απάντηση που πήραν ήταν: δώστε υλικό και κόψτε τη μαριχουάνα.
Και το θέμα είναι ότι εξακολουθούν να φαντασιώνονται τους τιμητές των πάντων.
Εγώ απλά θα υπενθυμίσω ότι η μαριχουάνα μπορεί να τους κοπεί με πολύ απλό και συγκεκριμένο τρόπο.
Εσείς εκεί στα υπόγεια, βάλτε καλά στο μυαλό σας ότι ο μόνος "εχθρός" των νευρωνικών είναι οι αμφισημίες και η φαυλότητα σας.
Στιγμιότυπο οθόνης από την εκπαίδευση του νευρωνικού UDPipe 1.2.0 (Windows) πάνω σε 6.000 προτάσεις μορφολογικά επισημειωμένες από άνθρωπο στα πρότυπα των Universal Dependencies
Ο έλεγχος της ακρίβειας (ACCURACY TEST)
Αποτέλεσμα αυτόματης μορφολογικής επισημείωσης μετά την εκπαίδευση
Το αρχικό κείμενο