Σελίδες

Παρασκευή 27 Μαΐου 2022

qpiem

Ένα μικρό μέρος από μια σειρά εργαλείων ρουτίνας που χρησιμοποίησα το τελευταίο διάστημα και χρησιμοποιώ ακόμα για την εκτέλεση διαφόρων εργασιών που υπό άλλες συνθήκες μπορεί να φαντάζουν έως και αδύνατες ή πολύ χρονοβόρες.
Ένα απ' αυτά που χρειάζεται οπωσδήποτε κάποιος που ασχολείται με επεξεργασία και ανάλυση κειμένων είναι ο τοκενάιζερ.
Το "σπάσιμο" ενός κειμένου σε προτάσεις και ακολούθως σε λέξεις για περαιτέρω ανάλυση δεν είναι τόσο απλό και κάθε γλώσσα έχει τις δικές της ιδιαιτερότητες.
Χαρακτηριστική περίπτωση αποτελούν τα multitokens.  Λέξεις σύνθετες κατά κανόνα που πρέπει να "σπάνε" στα μέρη που τις απαρτίζουν, για να μπορούν να αναλυθούν ακριβέστερα γραμματικά και συντακτικά.
Στα Ροδοπαίικα υπάρχουν κάποιοι αντωνυμικοί κι επιρρηματικοί τύποι, οι οποίοι σε άλλες γλώσσες κατά παράδοση γράφονται ως ενιαίοι.
Π.χ. ο παράγωγος τύπος της αρνητικής αντωνυμίας níkutri [κανείς] (никой στα Βουλγαρικά) αποτελείται από το αρνητικό μόριο ní (ου) και τον ερωτηματικό τύπο kutrí [ποιος] (Βουλγαρικά кой).
Επειδή όμως μια πιθανή απάντηση στην υποθετική ερώτηση "sas kutróga si dúmil za kóštoso?" [με ποιον μίλησες για το σπίτι;] θα μπορούσε να είναι και η "ní sas kutróga" [με κανέναν], τα πράγματα αρχίζουν να περιπλέκονται "σκανδαλωδώς".
Βλέπουμε δηλαδή την πρόθεση "sas" [με] να παρεμβάλλεται μεταξύ του αρνητικού μορίου "ní" και του κύριου τύπου "kutróga".
Έπρεπε να αποφασίσουμε, επομένως, αν θα τους γράφουμε σε όλες τις περιπτώσεις ως μία ενιαία λέξη ή θα τους χωρίζουμε στα μέρη που τους απαρτίζουν.
Προσωπικά δεν είχα καμία - μα καμία - αντίρρηση να γράφονται είτε με τον έναν είτε με τον άλλον τρόπο, όχι όμως και έτσι και αλλιώς.
Αυτά λέει ένας κοινός νους.
Ο συγκεκριμένος τοκενάιζερ, λοιπόν, κάνει χρήση ενός ειδικού λεξικού για να "σπάσει" και να αναλύσει όλους αυτούς τους τύπους που μπορεί να εμφανίζονται σε κάποιο κείμενο.
Βελτιώσεις μπορεί να "σηκώσει" κατά πάσα πιθανότητα.  Σε γενικές γραμμές όμως κάνει καλά όλη τη "βρώμικη" δουλειά. Μπορεί να αναγνωρίσει αριθμούς, ημερομηνίες, κλάσματα, διευθύνσεις web και e-mail, ip κλπ. με τις κανονικές εκφράσεις να "σηκώνουν" το κύριο βάρος.
Σίγουρα δεν είναι ο ταχύτερος στον κόσμο αλλά θα μπορέσει να ανταπεξέλθει με αξιοπρέπεια ακόμα και σε μεγάλα κείμενα.
Τον τοκενάιζερ συνοδεύουν και κάποια άλλα (δευτερεύοντα) μικροεργαλεία (μετατροπείς κυρίως) που μπορεί να φανούν χρήσιμα σε κάποιον που θα θελήσει να "πειραματιστεί" με κείμενα κι εργαλεία, να κάνει συγκρίσεις και δοκιμές κλπ. κλπ.
Μπορούν να μετατρέψουν κείμενο από κυριλλικά (Βουλγαρικά) σε λατινικά και το αντίστροφο, από πεζά σε κεφαλαία και το αντίστροφο, να ανακατασκευάσουν "σπασμένο" κείμενο, να συγχωνεύσουν αρχεία, να καταργήσουν τον τόνο από τις λέξεις κλπ.
Αργότερα (αν είμαστε ζωντανοί) μπορεί να προστεθούν και πιο "βαριά" συστήματα, όπως η προεπισημείωση κειμένων με τη χρήση του μορφολογικού λεξικού κ.ά.

Μείνετε ζωντανοί και μην ακούτε τί λένε οι "χολυγουντιανοί" :-)

Υ.Γ. Ήταν καιρός να κάνω τη μετάβαση στην 64-μπιτη αρχιτεκτονική και το συγκεκριμένο εργαλείο με την παρούσα μορφή μπορεί να τρέξει μόνο σ' αυτήν. 

Σύνδεσμος μεταφόρτωσης: https://www.rodopsky.gr/content.php