Σελίδες

Παρασκευή 27 Μαΐου 2022

qpiem

Ένα μικρό μέρος από μια σειρά εργαλείων ρουτίνας που χρησιμοποίησα το τελευταίο διάστημα και χρησιμοποιώ ακόμα για την εκτέλεση διαφόρων εργασιών που υπό άλλες συνθήκες μπορεί να φαντάζουν έως και αδύνατες ή πολύ χρονοβόρες.
Ένα απ' αυτά που χρειάζεται οπωσδήποτε κάποιος που ασχολείται με επεξεργασία και ανάλυση κειμένων είναι ο τοκενάιζερ.
Το "σπάσιμο" ενός κειμένου σε προτάσεις και ακολούθως σε λέξεις για περαιτέρω ανάλυση δεν είναι τόσο απλό και κάθε γλώσσα έχει τις δικές της ιδιαιτερότητες.
Χαρακτηριστική περίπτωση αποτελούν τα multitokens.  Λέξεις σύνθετες κατά κανόνα που πρέπει να "σπάνε" στα μέρη που τις απαρτίζουν, για να μπορούν να αναλυθούν ακριβέστερα γραμματικά και συντακτικά.
Στα Ροδοπαίικα υπάρχουν κάποιοι αντωνυμικοί κι επιρρηματικοί τύποι, οι οποίοι σε άλλες γλώσσες κατά παράδοση γράφονται ως ενιαίοι.
Π.χ. ο παράγωγος τύπος της αρνητικής αντωνυμίας níkutri [κανείς] (никой στα Βουλγαρικά) αποτελείται από το αρνητικό μόριο ní (ου) και τον ερωτηματικό τύπο kutrí [ποιος] (Βουλγαρικά кой).
Επειδή όμως μια πιθανή απάντηση στην υποθετική ερώτηση "sas kutróga si dúmil za kóštoso?" [με ποιον μίλησες για το σπίτι;] θα μπορούσε να είναι και η "ní sas kutróga" [με κανέναν], τα πράγματα αρχίζουν να περιπλέκονται "σκανδαλωδώς".
Βλέπουμε δηλαδή την πρόθεση "sas" [με] να παρεμβάλλεται μεταξύ του αρνητικού μορίου "ní" και του κύριου τύπου "kutróga".
Έπρεπε να αποφασίσουμε, επομένως, αν θα τους γράφουμε σε όλες τις περιπτώσεις ως μία ενιαία λέξη ή θα τους χωρίζουμε στα μέρη που τους απαρτίζουν.
Προσωπικά δεν είχα καμία - μα καμία - αντίρρηση να γράφονται είτε με τον έναν είτε με τον άλλον τρόπο, όχι όμως και έτσι και αλλιώς.
Αυτά λέει ένας κοινός νους.
Ο συγκεκριμένος τοκενάιζερ, λοιπόν, κάνει χρήση ενός ειδικού λεξικού για να "σπάσει" και να αναλύσει όλους αυτούς τους τύπους που μπορεί να εμφανίζονται σε κάποιο κείμενο.
Βελτιώσεις μπορεί να "σηκώσει" κατά πάσα πιθανότητα.  Σε γενικές γραμμές όμως κάνει καλά όλη τη "βρώμικη" δουλειά. Μπορεί να αναγνωρίσει αριθμούς, ημερομηνίες, κλάσματα, διευθύνσεις web και e-mail, ip κλπ. με τις κανονικές εκφράσεις να "σηκώνουν" το κύριο βάρος.
Σίγουρα δεν είναι ο ταχύτερος στον κόσμο αλλά θα μπορέσει να ανταπεξέλθει με αξιοπρέπεια ακόμα και σε μεγάλα κείμενα.
Τον τοκενάιζερ συνοδεύουν και κάποια άλλα (δευτερεύοντα) μικροεργαλεία (μετατροπείς κυρίως) που μπορεί να φανούν χρήσιμα σε κάποιον που θα θελήσει να "πειραματιστεί" με κείμενα κι εργαλεία, να κάνει συγκρίσεις και δοκιμές κλπ. κλπ.
Μπορούν να μετατρέψουν κείμενο από κυριλλικά (Βουλγαρικά) σε λατινικά και το αντίστροφο, από πεζά σε κεφαλαία και το αντίστροφο, να ανακατασκευάσουν "σπασμένο" κείμενο, να συγχωνεύσουν αρχεία, να καταργήσουν τον τόνο από τις λέξεις κλπ.
Αργότερα (αν είμαστε ζωντανοί) μπορεί να προστεθούν και πιο "βαριά" συστήματα, όπως η προεπισημείωση κειμένων με τη χρήση του μορφολογικού λεξικού κ.ά.

Μείνετε ζωντανοί και μην ακούτε τί λένε οι "χολυγουντιανοί" :-)

Υ.Γ. Ήταν καιρός να κάνω τη μετάβαση στην 64-μπιτη αρχιτεκτονική και το συγκεκριμένο εργαλείο με την παρούσα μορφή μπορεί να τρέξει μόνο σ' αυτήν. 

Σύνδεσμος μεταφόρτωσης: https://www.rodopsky.gr/content.php

 




 


 


 


 


 


 
























 

Κυριακή 15 Μαΐου 2022

Μόρφω η Ροδοπαία

Αυτή είναι η Μόρφω η Ροδοπαία, παιδιά
με μια ματιά σε ζαλίζει, με δυο σε κατακτά
στην τρίτη αρχίζει το βάσανο, σε λιώνει γλυκά - γλυκά
στην τέταρτη αφήνεσαι, δεν βρίσκεις γιατρειά

https://www.rodopsky.gr/morpho.php







Κυριακή 8 Μαΐου 2022

Περί αλφαβήτων και πλητρολογίων συνέχεια (και τέλος)

Ο εικοσαετής κύκλος των δοκιμών και πειραμάτων με τα διάφορα αλφάβητα και πληκτρολόγια φαίνεται πως οδεύει προς το τέλος του (σε ό,τι με αφορά τουλάχιστον).
Πάνω που είχα καταλήξει σε κάποιο σχήμα έρχονται οι γλωσσολόγοι και αρχίζουν τα δικά τους.
Τα γράμματα "ʒ" και "ǯ", λέει, δεν μου αρέσουν και στη θέση τους θα προτιμούσα τα "ǵ" και "ǧ" αντίστοιχα.
Επίσης, θα ήθελα, λέει, και δύο επιπλέον γράμματα (ļ, ņ) για τους συνδυασμούς "lj" και "nj" αντίστοιχα.
Τί να τους κάνεις - γλωσσολόγοι είναι αυτοί.
Ευτυχώς (για μένα) οι αλλαγές αυτές δεν ήταν κάτι τόσο δύσκολο και τρομερό, ακόμα κι αν επρόκειτο για τη μεταγραφή ολόκληρου του λεξικού (χώρια από όλα τα άλλα).
Έγινε και αυτό, τέλος πάντων.
Αυτό όμως συνεπάγεται και την ενημέρωση κάποιων βασικών εργαλείων, όπως το πληκτρολόγιο.
Το καλό της υπόθεσης είναι ότι η SIL έχει αναπτύξει ένα εξαιρετικό εργαλείο κατασκευής πληκτρολογίων (Keyman) που μπορούν να εγκατασταθούν σε όλες σχεδόν τις δημοφιλείς πλατφόρμες (Windows, Linux, Mac - συμπεριλαμβανομένων των φορητών συσκευών - κινητά, τάμπλετ κλπ.).
Το ακόμα καλύτερο είναι ότι το συγκεκριμένο λογισμικό επιτρέπει τη μεταφορά (αντιγραφή) διατάξεων από άλλα πληκτρολόγια.
Ένα τέτοιο είχα φτιάξει παλαιότερα με άλλο λογισμικό που έτρεχε μόνο σε Windows, οπότε και επωφελήθηκα από τη δυνατότητα αυτή.
Κάποιες μικροδιορθώσεις στον κώδικα και αυτό ήταν.
Ο ίδιος το δοκίμασα σε Windows και Android (κινητό και τάμπλετ) και απ' ό,τι φαίνεται (μέχρι τώρα τουλάχιστον) δουλεύει μια χαρά στην απλή του χρήση.
Εκεί που δείχνει να "ζορίζεται" λίγο είναι στη χρήση κάποιου λεξικού για την υπόδειξη λέξεων καθώς πληκτρολογεί κάποιος (φορητές συσυκευές), ιδίως αν αυτό είναι λίγο "υπέρβαρο" (περίπτωση Rodopsky), οπότε και ο χρόνος που απαιτείται για τη φόρτωση του μπορεί να μην είναι ανεκτός για κάποιους.
Σε κάθε περίπτωση είναι απαραίτητη η παρουσία της εφαρμογής Keyman για να είναι εφικτή η χρήση του.

Όλοι οι "ειδικοί" χαρακτήρες στις desktop πλατφόρμες βγαίνουν με τη χρήση κάποιων συνδυασμών ειδικών πλήκτρων και του αντίστοιχου απλού γράμματος.

Οι συνδυασμοί αυτοί είναι:

Για τα πεζά:

[ ; ], [a] = á
[ ' ], [a] = æ
[[Shift] + [ ' ]], [a] = ǽ
[ ; ], [c] = č
[ ; ], [e] = é
[ ; ], [g] = ǵ
[ ' ], [g] = ǧ
[ ; ], [l] = ļ
[ ; ], [n] = ņ
[ ; ], [o] = ó
[ ' ], [o] = ø
[[Shift] + [ ' ]], [o] = ǿ
[ ; ], [s] = š
[ ; ], [u] = ú
[ ' ], [u] = ü
[[Shift] + [ ' ]], [u] = ǘ
[ ; ], [y] = ý
[ ; ], [z] = ž

Για τα κεφαλαία:

[ ; ], [Α] = Á
[ ' ], [Α] = Æ
[[Shift] + [ ' ]], [A] = Ǽ
[ ; ], [C] = Č
[ ; ], [E] = É
[ ; ], [G] = Ǵ
[ ' ], [G] = Ǧ
[ ; ], [L] = Ļ
[ ; ], [N] = Ņ
[ ; ], [O] = Ó
[ ' ], [O] = Ø
[[Shift] + [ ' ]], [O] = Ǿ
[ ; ], [S] = Š
[ ; ], [U] = Ú
[ ' ], [U] = Ü
[[Shift] + [ ' ]], [U] = Ǘ
[ ; ], [Y] = Ý
[ ; ], [Z] = Ž

Το κόμμα (",") σημαίνει ότι πατάμε το πλήκτρο που προηγείται και το αφήνουμε, ενώ το συν ("+") ότι ενώ κρατάμε πατημένο το πλήκτρο που προηγείται, πατάμε και το επόμενο και στη συνέχεια τα αφήνουμε και τα δύο, για να πληκτρολογήσουμε το αντίστοιχο απλό γράμμα.
Απλό είναι νομίζω και η εξοικείωση με τους συνδυασμούς είναι θέμα χρόνου κι εξάσκησης.

Σε ό,τι αφορά το θέμα της συμβατότητας του αλφαβήτου με τις γραμματοσειρές το Keyman αναφέρει πάνω από εκατό τέτοιες στο δικό μου μηχάνημα με 100% κάλυψη.

Το πληκτρολόγιο μπορείτε να το κατεβάσετε από τον ακόλουθο σύνδεσμο:
https://www.rodopsky.gr/content.php

Ακολουθούν κάποια στιγμιότυπα οθόνης ως συμπλήρωμα και στήριξη των γραφομένων.








 

Ενημέρωση: 08/05/2022 22:30

Ένα πειραματικό λεξικό μοντέλο για το πληκτρολόγιο στις φορητές συσκευές είναι στη διάθεση των ενδιαφερομένων.
Αποτελείται από περίπου 290.000 τύπους λέξεων που προκύπτουν από 6.000 λήμματα κατά προσέγγιση.
Από τους τύπους αυτούς οι 15.000 περίπου έχουν μια ειδική κατάταξη με βάση τη συχνότητα εμφάνισης τους στα 10.000 παραδείγματα και φράσεις / εκφράσεις του λεξικού, όπως και κάποια άλλα κείμενα.
Οπότε ο αλγόριθμος υπόδειξης πάντα θα ψάχνει πρώτα σ' αυτούς και μετά στους υπόλοιπους τύπους.
Το τελικό περιεχόμενο του λεξικού μοντέλου είναι υπό διαμόρφωση ακόμα.

Σύνδεσμος μεταφόρτωσης: https://www.rodopsky.gr/content.php

 


 




Καλό μας καλοκαίρι