Σελίδες

Κυριακή 25 Δεκεμβρίου 2022

Drébnata ríba Kajlí


Kak da si izperéte sílno zamyrsénite parí.

Čújte kakvó kázva g-n Márkov i ne mu misléte mnógo.
V tázi móštna i nadéždna evropéjska "perálnæ" mógat da se perát vsǽkakvi mrysotíi.
Ne sym síguren obáče za mrýsnite mózyci i duší.
Šte trǽbva da pítate tam na mǽsto.
Popóvete i hóǧite mógat da vi býdat ot pólza :-)
Amí próbvajte, be hóra... ta kakvó ímate da izgúbite?
Nasladéte se na čísti krádeni parí i storéte se (dorí za poslédno) na svešténi čovéčeta.



Τρίτη 20 Δεκεμβρίου 2022

Bójko, kójto ne šte da se výrne tózi pyt

Níšto če bilí po-sílni ot háosa!
Za Cípras da ne govórim segá.
Šte dójde i négovoto vréme.
Strášnoto e tová, koéto se čúva sled 57:00.
Pyk víe zrítelite móžete da si míslite za demokrácia, ízbori i vyobšté kakvóto si poželáete.
Nalí živéem v civilizóvan svæt :-)




Τρίτη 13 Δεκεμβρίου 2022

Παιχνίδια με τη Μόρφω σε "προκλητικές" διαστάσεις

Της αρέσουν της κυρά Μόρφως τα "δύσκολα" παιχνίδια και το δείχνει "ξεδιάντροπα" πλέον :-)
Στην αρχή παριστάνει τη "δύσκολη" τάχα μου, αλλά μόλις τη "στριμώξεις" στις 6 ίντσες αρχίζεις να βλέπεις το φλογερό ταμπεραμέντο της.
Δεν ξέρω αν έχει αποπειραθεί να κάνει και κάποιος άλλος κάτι ανάλογο, μα για εμένα είναι σκέτη πρόκληση.
Κοτζάμ Μόρφω να τη βάλεις να "χορέψει" στην παλάμη σου!
Το ότι είναι εφικτό κάτι τέτοιο δεν μπορώ να το αμφισβητήσω ούτε εγώ ο "αμφισβητίας".
Να θυμίσω ότι μιλάμε για περίπου 3.000.000 μοναδικούς μορφολογικούς τύπους και άλλους τόσους περίπου γραμματικούς.
Και όλο αυτό σ' ένα υβριδικό περιβάλλον Java και C++ (Το JNI και τα τζίνια μου).
Ακούω φωνές στο διάδρομο ή μου φαίνεται;


  

Ενημέρωση 18/12/2022

Να το "λανσάρω" να φεύγει από το κεφάλι μου.
Εδώ είμαστε, λοιπόν!
Η Μόρφω στις ομορφιές της.

Μοναδικοί μορφολογικοί τύποι: 3550503 (bytes: 28404024)
Μοναδικοί γραμματικοί τύποι: 5358875 (bytes: 85742000)
Μοναδικοί λημματικοί τύποι: 51901 (bytes: 2698852)

Αναπτύχθηκε σε Android Studio Dolphin | 2021.3.1 Patch 1 σε περιβάλλον Linux Mint 21
MinSDK = 26 (Android 8.0 - Oreo)
TargetSDK = 32 (Android 12.0 - Sv2)
Ικανή να "χορέψει" σε armeabi-v7a, arm64-v8a, x86, x86_64

Δοκιμάστηκε σε:
1) Realme C21 (RMX3201), Android 11.0, 4GB RAM

Δεν πωλείται.
Χαρίζεται υπό τους παρακάτω όρους και προϋποθέσεις:
1) Δεν πρέπει να είστε άνθρωπος των υπογείων (ισόγειο και πάνω - βεβαίωση από την πολεοδομία).
2) Δεν πρέπει να συμμετέχετε σε μαφιόζικη οργάνωση, σύλλογο κλπ. (κυβερνητικό ή μη - βεβαίωση από βελγική εισαγγελική αρχή).
3) Το όνομα σας δεν πρέπει να θυμίζει σε τίποτα κόκα, μαριχουάνα, χασίς, ηρωίνη και τα συναφή (έχω θανάσιμη αλλεργία - τα ψευδώνυμα ελέγχονται εξονυχιστικά).

Αν πιστεύετε ότι πληροίτε τα παραπάνω, μπορείτε να τη διεκδικήσετε γράφοντας στη διεύθυνση:

Ριτβάν Καρα - Χότζα
Προσήλιο
Ξάνθη 67150

ή στο τηλέφωνο 6942235710

Υ.Γ.
1) Μπορεί να διατεθεί σε διάφορες μορφές (απλό κείμενο [csv], xml, εφαρμογή desktop [linux], εφαρμογή android).
2) Τα features έχουν εμπλουτιστεί κατάτι σε λίγες περιπτώσεις κι εκτός απ' αυτό έχουν συμπεριληφθεί και μερικές εκατοντάδες ανδρικών και γυναικείων ονομάτων (πάνω από 80.000 τύποι).







Πέμπτη 1 Δεκεμβρίου 2022

Προσαρμοσμένο πληκτρολόγιο σε Linux (Mint 21)

Ξυπνάς κάπως περίεργα ένα πρωινό και αποφασίζεις να πειραματιστείς μ' ένα νέο για 'σένα λειτουργικό σύστημα απ' αυτό που έχεις μάθει και χρησιμοποιούσες για δεκαετίες ολόκληρες.
Και λοιπόν; Πού είναι το κακό;
Κάνεις τα απαραίτητα αντίγραφα ασφαλείας, τραβάς ένα φορμάτ το σκληρό, κατεβάζεις το νέο σου λειτουργικό (τσάμπα), το κάνεις εγκατάσταση και αρχίζεις να οργανώνεις το περιβάλλον σου με τα απαραίτητα εργαλεία με σκοπό να συνεχίσεις τη δουλειά σου από 'κει που την άφησες.
Δεν περνάει πολύς χρόνος όμως και συνειδητοποιείς την ανάγκη να γράψεις κάτι κάπου και καταλαβαίνεις ότι χρειάζεσαι κι ένα πληκτρολόγιο.
Αμέσως θυμάσαι ότι σε μια προηγούμενη ζωή σου είχες φτιάξει ένα τέτοιο πληκτρολόγιο που υποσχόταν διαλειτουργικότητα.
Εντοπίζεις το "πακέτο", κάνεις τα απαραίτητα και δεν βλέπεις τον χρόνο να το δοκιμάσεις.
Αμ δε! Σιγά που θα δούλευε!
Αναφέρομαι, βεβαίως, στο Keyman.
Κι ενώ σε Windows και Android δουλεύει μια χαρά, στο Linux Mint 21 για κάποιον λόγο απλά δεν κατάφερα να το δουλέψω ό,τι κι αν δοκίμασα παρά μόνο σε εφαρμογές Windows σε περιβάλλον Wine.
Και τί κάνει κάποιος σε μια τέτοια περίπτωση;
Τα παρατάει και επιστρέφει στο παλιό λειτουργικό;
Αμ δε! Σιγά που θα επιστρέψει!
Το μόνο που χρειάζεται είναι λίγο παραπάνω ψάξιμο και να βάλει το μυαλό του να δουλέψει.
Το αποτέλεσμα μετά από λίγο διάστημα είναι ένα προσαρμοσμένο πληκτρολόγιο σε καθαρά λινουξικό περιβάλλον χωρίς τη χρήση οποιουδήποτε άλλου εργαλείου.
Ένας απλός επεξεργαστής κειμένου και λίγες γραμμές κώδικα είναι υπεραρκετές για την επίτευξη του στόχου.
Βέβαια, αν έχεις ενεργοποιήσει την αντιστοίχιση γλωσσών και σημαιών, δεν αποκλείεται να δεις και κάποια περίεργα στη γραμμή εργασιών.
Αυτό όμως σε καμία περίπτωση δεν αλλάζει την ουσία που δεν είναι άλλη από ένα καθόλα λειτουργικό πληκτρολόγιο.

Αν ενδιαφέρεται κάποιος για τα αρχεία, ας γράψει στη διεύθυνση:
Ριτβάν Καρα - Χότζα
Προσήλιο
Ξάνθη 67150










Τρίτη 22 Νοεμβρίου 2022

Παραγωγή μορφολογικού λεξικού με τη χρήση μιας "αρχαίας" τεχνολογίας

Πριν από λίγο καιρό μια "αντάρτισσα" γλωσσολόγος ρωτούσε αν υπάρχει ήδη έτοιμο ή αν μπορεί να κατασκευαστεί κάποιο λογισμικό πακέτο γενικότερης χρήσης για την κατασκευή μορφολογικού λεξικού.
Τέτοιο λογισμικό θα υπάρχει σίγουρα σε πανεπιστήμια, οργανισμούς και ιδρύματα ή και σε ιδιώτες ακόμα.
Υποψιάζομαι όμως ότι στις περισσότερες περιπτώσεις αυτό είναι προσαρμοσμένο στις ανάγκες κάποιας συγκεκριμένης γλώσσας.
Εγώ στο μεταξύ είχα "μπανίσει" εδώ και λίγο καιρό την υλοποίηση ενός νευρωνικού (https://github.com/mfaruqui/morph-trans) που υπόσχεται αυτό ακριβώς το πράγμα.
Να κατασκευάσει μορφολογικό λεξικό αφού έχει εκπαιδευτεί πρώτα σε μια συγκεκριμένη γλώσσα με το κατάλληλο υλικό.
Εντάξει, η "αντάρτισσα" μιλούσε για κάτι "απλό" στη χρήση που θα μπορούσε να το "κουμαντάρει" κι ένας Κόκκας π.χ. (τώρα που μπορεί να ξεχωρίζει πλέον ένα συνημμένο αρχείο στο ηλ. ταχυδρομείο απ' αυτά που αναρτώνται στο Google Drive).
Το συγκεκριμένο "μαραφέτι" όμως δεν είναι για το "μπόι" του καθενός και χρειάζεται τον μάστορα του.
Από την ίδια τη μεταγλώττιση κι εγκατάσταση του, την πιθανή παρέμβαση στον κώδικα, μέχρι την προετοιμασία του εκπαιδευτικού υλικού και τη χρήση του.
Ο Αντώνης σε μια δημοσίευση του (https://arxiv.org/pdf/1701.03980.pdf) λέει ότι έχει χρησιμοποιηθεί και από άλλους χωρίς να αναφέρει κάτι πιο συγκεκριμένο.
Ο ίδιος μέχρι τώρα δεν έχω αντιληφθεί κάποια δημοσίευση για τη χρήση του συγκεκριμένου εργαλείου, την ακρίβεια του αποτελέσματος που μπορεί να δώσει ή κάποια άλλη πληροφορία.
Προσωπικά για το μορφολογικό λεξικό της Πομακικής έχω αναπτύξει τους δικούς μου (κλασικούς) αλγορίθμους, οι οποίοι όμως είναι και αυτοί προσαρμοσμένοι στις ανάγκες και τους κανόνες της αυτής γλώσσας.
Η περιέργεια μου παρά ταύτα για την αποτελεσματικότητα του συγκεκριμένου εργαλείου μ' έτρωγε και ήταν θέμα χρόνου να καταπιαστώ μαζί του κάπως πιο σοβαρά.
Το "ευτύχημα" είναι πως έχει υλοποιηθεί σε C++.  Αν ήταν σε Πύθωνα, δεν ξέρω αν θα έβρισκα κουράγιο να κάτσω να μάθω μια νέα γλώσσα απ' την αρχή (σχεδόν).
Πάμε στο "ψητό".
Μέσα σε διάστημα κάποιων ημερών πόσα τεστ και πειράματα θα μπορούσε να κάνει κανείς, για να βεβαιωθεί για τη χρησιμότητα ενός τόσο σύνθετου και πολύπλοκου εργαλείου και να αποφασίσει για τη χρήση ή την απόρριψη του;
Όχι και πάρα πολλά νομίζω. Σίγουρα χρειάζονται αρκετές δοκιμές με διάφορα σχήματα και ρυθμίσεις.
Το ίδιο το εργαλείο υποστηρίζει τουλάχιστον καμιά οκταριά διαφορετικούς αλγορίθμους για την ίδια δουλειά.
Και ο καθένας απ' αυτούς μπορεί να δώσει λίγο καλύτερα ή χειρότερα αποτελέσματα ανάλογα με τις παραμέτους και το ίδιο το εκπαιδευτικό υλικό.
Μετά από μια γρήγορη δοκιμή των 6 απ' αυτούς (δυο έβγαζαν κάποιο σφάλμα και δεν είχα χρόνο να τους ψάξω περαιτέρω), το καλύτερο  αποτέλεσμα το έδωσαν οι joint-enc-dec-morph και sep-morph.
Στους εξακολουθητικούς ρηματικούς τύπους του ενεστώτα της οριστικής η ακρίβεια κυμαίνεται γύρω στο 95% ή λίγο παραπάνω σ' ένα σετ 10.000 ρηματικών τύπων με αναλογία 80/10/10 (train/dev/test).
Καθόλου άσχημα θα έλεγα.
Αυτό και μόνο με βάζει στον πειρασμό να συνεχίσω περαιτέρω τις δοκιμές στο σύνολο του κλιτικού συστήματος, για να δω τί άλλο μπορεί να κάνει και πού "σκοντάφτει".
Αν κι εφ' όσον προκύψει κάτι ενδιαφέρον, η ανανέωση της ανάρτησης με τα όποια νέα δεδομένα θα πρέπει να θεωρείται σχεδόν βεβαία.
Μέχρι τότε θα σας ευχηθώ να περνάτε εσείς καλά κι εγώ ακόμα καλύτερα -:)

Δυο οθονιές νομίζω είναι αρκετές για να πάρετε μια πρώτη γεύση.
(Και το κουίζ της χρονιάς: μαντέψτε ποιο πληκτρολόγιο κρύβεται πίσω από τη γαλλική σημαία ;-)


Δευτέρα 24 Οκτωβρίου 2022

Κατηγοριοποίηση κειμένων και αναγνώριση διαλέκτων / ιδιωμάτων με τη χρήση Η/Υ

Σχετικά πρόσφατα είχα βρεθεί στην ανάγκη να κατηγοριοποιήσω κάποια κείμενα βάσει διαλέκτου / ιδιώματος.
Παρότι δεν είμαι διαλεκτολόγος την έκανα την προσπάθεια μου.
Όταν αναζήτησα βοήθεια από τους πλέον "ειδικούς", η απάντηση ήταν "I don't know".
Συχνά - πυκνά διαβάζω (ακόμα :-) κάποια άρθρα και δημοσιεύσεις στο διαδίκτυο για text classifiers και τα σχετικά, οπότε μπήκα στον πειρασμό να δοκιμάσω κι εγώ κάτι απ' αυτά τα "καλούδια".
Μήπως, είπα, τα μηχανήματα τα καταφέρνουν καλύτερα σε αυτό το θέμα.
Να μπορώ να δώσω, δηλαδή, ένα κειμενάκι στο μηχάνημα και να μου πει αν ταιριάζει περισσότερο στο ιδίωμα της Μύκης, του Δημαρίου κλπ.
Όλα αυτά τα σύγχρονα εργαλεία όμως χρησιμοποιούν κάποια μορφή μηχανικής μάθησης ή τεχνητής νοημοσύνης, για να δώσουν κάποια αξιοπρεπή αποτελέσματα.
Αυτό σημαίνει ότι χρειάζονται την καλύτερη δυνατή εκπαίδευση.
Αυτό με τη σειρά του προϋποθέτει την ύπαρξη ικανού όγκου δεδομένων στην κατάλληλη μορφή.
Ένα από τα πολλά εργαλεία που κυκλοφορούν ελεύθερα στο διαδίκτυο και υπόσχονται "απτά" αποτελέσματα είναι και το fasttext.
Το έχει αναπτύξει η Facebook και το διανέμει ελεύθερα.
Οπότε σκέφτηκα να δω τί παίζει μ' αυτό.
Το καλό είναι ότι στο νέο μου λινουξικό περιβάλλον δεν χρειάστηκε κάποια ιδιαίτερη προσπάθεια από την πλευρά μου και η μεταγλώττιση από τον πηγαίο κώδικα έγινε εύκολα και γρήγορα.
Το επόμενο βήμα ήταν να βρω κάποιο έτοιμο κείμενο "επισημειωμένο" και να εξοικειωθώ με το λεγόμενο workflow.
Τί έπρεπε να κάνω, δηλαδή, με ποιον τρόπο και με ποια σειρά, ώστε να δω κάποια αποτελέσματα.
Ούτε αυτό ήταν κάτι ιδιαίτερα δύσκολο και μετά από κάποιες ώρες είχα ξεκινήσει ήδη τη διαδικασία, για να πειραματιστώ με τα Πομακικά.
Σπάσιμο κειμένων σε απλές προτάσεις (από περίοδο σε περίοδο ή τελεία αν προτιμάτε).
"Επισημείωση" των προτάσεων αυτών με την κατάλληλη ετικέτα ανάλογα με το ιδίωμα.
Εκπαίδευση του fasttext με τις κατάλληλες ρυθμίσεις.
Και, τέλος, εκτίμηση των αποτελεσμάτων.
Ευτυχώς για όλα αυτά έχω και τα δικά μου "εργαλειάκια" και η όλη διαδικασία ήταν μια ευχάριστη ρουτίνα.
Η εκπαίδευση αυτή καθεαυτή στις 20.000 "εποχές" με τους 16 πυρήνες που διαθέτει το σαραβαλάκι μου κράτησε γύρω στα 6,5 πρώτα λεπτά της ώρας.
Τίποτα μπροστά στην εκπαίδευση άλλων εργαλείων που έχω κάνει για άλλο σκοπό.
Ομολογώ πως τα αποτελέσματα είναι κάτι παραπάνω από ενθαρρυντικά.
Χωρίς να τα έχω μελετήσει σε βάθος, ύψος και μήκος, τα δυο-τρία τεστάκια που έκανα με κείμενα που δεν είχαν συμπεριληφθεί στην εκπαίδευση με έπεισαν ότι το συγκεκριμένο τουλάχιστον εργαλείο άξιζε τον χρόνο που του αφιέρωσα και μπορεί να βοηθήσει τα μέγιστα στην "ταυτοποίηση / αναγνώριση" κειμένων μετά από μια σοβαρή και κατάλληλη εκπαίδευση.
Δοκιμάστε κι εσείς :-) Τη βιβλιοθήκη θα τη βρείτε εδώ


Ακολουθούν κάποια στιγμιότυπα οθόνης.


Κυριακή 16 Οκτωβρίου 2022

Κοίτα να δεις κάτι πράματα...

Σε καλό δρόμο είμαστε νομίζω, παρότι το αρχικό μοντέλο της συντακτικής εκπαίδευσης ήταν ένα πολύ μικρό σετ προτάσεων (γύρω στις 2000, αν θυμάμαι καλά) και κάπως πρόχειρα στημένο. Από το τίποτα κάτι είναι κι αυτό. Να δούμε, βέβαια, τί θα προκύψει στο τέλος του εγχειρήματος μετά την ολοκλήρωση και της "κανονικής" συντακτικής επισημείωσης. Ίδωμεν...

 




Τρίτη 16 Αυγούστου 2022

Šántava rábata

Izvóndüņoska glavá beré kahóra za düņóskokse boklúka!
A be šántavčina, já sí glǿdyj rábatoto!
Ty še nú kážaš námi kaná da právime...

 


 

Τετάρτη 13 Ιουλίου 2022

Οι ηλίθιοι της γης που τα ξέρουν όλα

 


Κατάφεραν να δουν, λέει, την αρχή του σύμπαντος, αλλά ακόμα δεν ξέρουν πού είναι η μέση και πού το τέλος του.
Τί είναι πιο σημαντικό άραγε;
Το πώς ήταν το σύμπαν πριν από κάποια δισεκατομμύρια χρόνια ή πώς θα είναι τις αμέσως επόμενες δεκαετίες;
Και πίστεψαν οι ηλίθιοι της γης πως όλα αυτά τα "φωτάκια" που μας δείχνουν στις εικόνες είναι όντως από "αντικείμενα" που βρίσκονται εκεί που μας δείχνουν.
Πώς είπατε; Να με λυπηθώ εμένα τον αφελή και ηλίθιο;
Δεν υπάρχει τέτοια περίπτωση.
Εγώ μόνο μια απάντηση γυρεύω από κάποιον συνηλίθιο μου:
Γιατί να μου κόψει την υποκριτική του "καλημέρα" ο "ανακατωσούρας" (ή "καριστιρματζής" στην αθηναϊκή υποδιάλεκτο);

Σάββατο 11 Ιουνίου 2022

RodopSky Dictionary - Android Application

Μια φρέσκια έκδοση του λεξικού για την πλατφόρμα Android με λίγες πρσθήκες και διορθώσεις που προέκυψαν κατά τη διάρκεια της συμμετοχής μου στο πρόγραμμα Philotis.
Έχουν γίνει και κάποιες μικρές αλλαγές στο αλφάβητο σε σχέση με την αρχική έκδοση (πληροφορίες θα βρείτε εντός της εφαρμογής).
Αναπτύχθηκε σε περιβάλλον B4A (https://www.b4x.com/b4a.html) και μεταγλωττίστηκε με τις μεταβλητές minSdkVersion="14" και targetSdkVersion="30".  Αυτό σημαίνει ότι μπορεί να τρέξει στις εκδόσεις 4.0 έως 11 του συγκεκριμένου λειτουργικού.

Για την ακρίβεια δοκιμάστηκε σε τρεις φυσικές συσκευές χωρίς κανένα πρόβλημα.

1) Xiaomi Redmi Go, Android 8.1.0, 1 GB RAM
2) Samsung A21s, Android 11, 3 GB RAM
3) Realme C21, Android 11, 4 GB RAM

Για την εγκατάσταση της εφαρμογής απαιτούνται γύρω στα 100 ΜΒ χώρου στη συσκευή.

Για την ώρα μπορείτε να το βρείτε μόνο εδώ

















 

Κυριακή 5 Ιουνίου 2022

ΝΟΥΜΕΡΑ... ΚΑΛΟΚΑΙΡΙΝΑ

Είχα την τύχη (και την ατυχία μαζί) να δουλέψω το προηγούμενο διάστημα πάνω σ' ένα κόρπους 343 κειμένων που προέχρχονται από διάφορες περιοχές της Ροδόπης. Σε κάποιες περιπτώσεις, δυστυχώς, οι "καταγραφείς" δεν αναφέρουν στοιχεία για την ακριβή προέλευση τους. Οι "πομακολόγοι" δεν μπορούσαν να βοηθήσουν ούτε αυτοί για την "ταυτοποίηση" τους. Έπρεπε να γίνει όμως μια πρώτη κατηγοριοποίηση των κειμένων, έστω και κατ' εκτίμηση, δεδομένου ότι σε κάποιες περιπτώσεις οι όποιες "διαφορές" μπορεί να μην είναι ευδιάκριτες. Το μόνο σίγουρο είναι ότι χρειάζονται πολλά δεδομένα ακόμα, για να μπορεί να βγάλει κανείς κάποια "ασφαλέστερα" συμπεράσματα. Μέχρι τότε θα μπορούμε να μιλάμε μόνο για "τάσεις" και "ενδείξεις". Μια τέτοια "ένδειξη" που παρατηρήθηκε είναι πως στα "υπερβόρεια" ιδιώματα δεν "αρέσουν" ιδιαίτερα οι πτώσεις και τείνουν να τις αποβάλουν. Σε επίπεδο μορφολογίας και λεξιλογίου, τώρα, να, τί καταγράφουν τα μηχανήματα. (Όταν με το καλό δημοσιευτεί όλο το υλικό - αυτή ήταν η συμφωνία και δεν είναι δική μου ευθύνη -, θα μπορεί ο κάθε ενδιαφερόμενος να κάνει τις δικές του μετρήσεις).



Παρασκευή 27 Μαΐου 2022

qpiem

Ένα μικρό μέρος από μια σειρά εργαλείων ρουτίνας που χρησιμοποίησα το τελευταίο διάστημα και χρησιμοποιώ ακόμα για την εκτέλεση διαφόρων εργασιών που υπό άλλες συνθήκες μπορεί να φαντάζουν έως και αδύνατες ή πολύ χρονοβόρες.
Ένα απ' αυτά που χρειάζεται οπωσδήποτε κάποιος που ασχολείται με επεξεργασία και ανάλυση κειμένων είναι ο τοκενάιζερ.
Το "σπάσιμο" ενός κειμένου σε προτάσεις και ακολούθως σε λέξεις για περαιτέρω ανάλυση δεν είναι τόσο απλό και κάθε γλώσσα έχει τις δικές της ιδιαιτερότητες.
Χαρακτηριστική περίπτωση αποτελούν τα multitokens.  Λέξεις σύνθετες κατά κανόνα που πρέπει να "σπάνε" στα μέρη που τις απαρτίζουν, για να μπορούν να αναλυθούν ακριβέστερα γραμματικά και συντακτικά.
Στα Ροδοπαίικα υπάρχουν κάποιοι αντωνυμικοί κι επιρρηματικοί τύποι, οι οποίοι σε άλλες γλώσσες κατά παράδοση γράφονται ως ενιαίοι.
Π.χ. ο παράγωγος τύπος της αρνητικής αντωνυμίας níkutri [κανείς] (никой στα Βουλγαρικά) αποτελείται από το αρνητικό μόριο ní (ου) και τον ερωτηματικό τύπο kutrí [ποιος] (Βουλγαρικά кой).
Επειδή όμως μια πιθανή απάντηση στην υποθετική ερώτηση "sas kutróga si dúmil za kóštoso?" [με ποιον μίλησες για το σπίτι;] θα μπορούσε να είναι και η "ní sas kutróga" [με κανέναν], τα πράγματα αρχίζουν να περιπλέκονται "σκανδαλωδώς".
Βλέπουμε δηλαδή την πρόθεση "sas" [με] να παρεμβάλλεται μεταξύ του αρνητικού μορίου "ní" και του κύριου τύπου "kutróga".
Έπρεπε να αποφασίσουμε, επομένως, αν θα τους γράφουμε σε όλες τις περιπτώσεις ως μία ενιαία λέξη ή θα τους χωρίζουμε στα μέρη που τους απαρτίζουν.
Προσωπικά δεν είχα καμία - μα καμία - αντίρρηση να γράφονται είτε με τον έναν είτε με τον άλλον τρόπο, όχι όμως και έτσι και αλλιώς.
Αυτά λέει ένας κοινός νους.
Ο συγκεκριμένος τοκενάιζερ, λοιπόν, κάνει χρήση ενός ειδικού λεξικού για να "σπάσει" και να αναλύσει όλους αυτούς τους τύπους που μπορεί να εμφανίζονται σε κάποιο κείμενο.
Βελτιώσεις μπορεί να "σηκώσει" κατά πάσα πιθανότητα.  Σε γενικές γραμμές όμως κάνει καλά όλη τη "βρώμικη" δουλειά. Μπορεί να αναγνωρίσει αριθμούς, ημερομηνίες, κλάσματα, διευθύνσεις web και e-mail, ip κλπ. με τις κανονικές εκφράσεις να "σηκώνουν" το κύριο βάρος.
Σίγουρα δεν είναι ο ταχύτερος στον κόσμο αλλά θα μπορέσει να ανταπεξέλθει με αξιοπρέπεια ακόμα και σε μεγάλα κείμενα.
Τον τοκενάιζερ συνοδεύουν και κάποια άλλα (δευτερεύοντα) μικροεργαλεία (μετατροπείς κυρίως) που μπορεί να φανούν χρήσιμα σε κάποιον που θα θελήσει να "πειραματιστεί" με κείμενα κι εργαλεία, να κάνει συγκρίσεις και δοκιμές κλπ. κλπ.
Μπορούν να μετατρέψουν κείμενο από κυριλλικά (Βουλγαρικά) σε λατινικά και το αντίστροφο, από πεζά σε κεφαλαία και το αντίστροφο, να ανακατασκευάσουν "σπασμένο" κείμενο, να συγχωνεύσουν αρχεία, να καταργήσουν τον τόνο από τις λέξεις κλπ.
Αργότερα (αν είμαστε ζωντανοί) μπορεί να προστεθούν και πιο "βαριά" συστήματα, όπως η προεπισημείωση κειμένων με τη χρήση του μορφολογικού λεξικού κ.ά.

Μείνετε ζωντανοί και μην ακούτε τί λένε οι "χολυγουντιανοί" :-)

Υ.Γ. Ήταν καιρός να κάνω τη μετάβαση στην 64-μπιτη αρχιτεκτονική και το συγκεκριμένο εργαλείο με την παρούσα μορφή μπορεί να τρέξει μόνο σ' αυτήν. 

Σύνδεσμος μεταφόρτωσης: https://www.rodopsky.gr/content.php

 




 


 


 


 


 


 
























 

Κυριακή 15 Μαΐου 2022

Μόρφω η Ροδοπαία

Αυτή είναι η Μόρφω η Ροδοπαία, παιδιά
με μια ματιά σε ζαλίζει, με δυο σε κατακτά
στην τρίτη αρχίζει το βάσανο, σε λιώνει γλυκά - γλυκά
στην τέταρτη αφήνεσαι, δεν βρίσκεις γιατρειά

https://www.rodopsky.gr/morpho.php







Κυριακή 8 Μαΐου 2022

Περί αλφαβήτων και πλητρολογίων συνέχεια (και τέλος)

Ο εικοσαετής κύκλος των δοκιμών και πειραμάτων με τα διάφορα αλφάβητα και πληκτρολόγια φαίνεται πως οδεύει προς το τέλος του (σε ό,τι με αφορά τουλάχιστον).
Πάνω που είχα καταλήξει σε κάποιο σχήμα έρχονται οι γλωσσολόγοι και αρχίζουν τα δικά τους.
Τα γράμματα "ʒ" και "ǯ", λέει, δεν μου αρέσουν και στη θέση τους θα προτιμούσα τα "ǵ" και "ǧ" αντίστοιχα.
Επίσης, θα ήθελα, λέει, και δύο επιπλέον γράμματα (ļ, ņ) για τους συνδυασμούς "lj" και "nj" αντίστοιχα.
Τί να τους κάνεις - γλωσσολόγοι είναι αυτοί.
Ευτυχώς (για μένα) οι αλλαγές αυτές δεν ήταν κάτι τόσο δύσκολο και τρομερό, ακόμα κι αν επρόκειτο για τη μεταγραφή ολόκληρου του λεξικού (χώρια από όλα τα άλλα).
Έγινε και αυτό, τέλος πάντων.
Αυτό όμως συνεπάγεται και την ενημέρωση κάποιων βασικών εργαλείων, όπως το πληκτρολόγιο.
Το καλό της υπόθεσης είναι ότι η SIL έχει αναπτύξει ένα εξαιρετικό εργαλείο κατασκευής πληκτρολογίων (Keyman) που μπορούν να εγκατασταθούν σε όλες σχεδόν τις δημοφιλείς πλατφόρμες (Windows, Linux, Mac - συμπεριλαμβανομένων των φορητών συσκευών - κινητά, τάμπλετ κλπ.).
Το ακόμα καλύτερο είναι ότι το συγκεκριμένο λογισμικό επιτρέπει τη μεταφορά (αντιγραφή) διατάξεων από άλλα πληκτρολόγια.
Ένα τέτοιο είχα φτιάξει παλαιότερα με άλλο λογισμικό που έτρεχε μόνο σε Windows, οπότε και επωφελήθηκα από τη δυνατότητα αυτή.
Κάποιες μικροδιορθώσεις στον κώδικα και αυτό ήταν.
Ο ίδιος το δοκίμασα σε Windows και Android (κινητό και τάμπλετ) και απ' ό,τι φαίνεται (μέχρι τώρα τουλάχιστον) δουλεύει μια χαρά στην απλή του χρήση.
Εκεί που δείχνει να "ζορίζεται" λίγο είναι στη χρήση κάποιου λεξικού για την υπόδειξη λέξεων καθώς πληκτρολογεί κάποιος (φορητές συσυκευές), ιδίως αν αυτό είναι λίγο "υπέρβαρο" (περίπτωση Rodopsky), οπότε και ο χρόνος που απαιτείται για τη φόρτωση του μπορεί να μην είναι ανεκτός για κάποιους.
Σε κάθε περίπτωση είναι απαραίτητη η παρουσία της εφαρμογής Keyman για να είναι εφικτή η χρήση του.

Όλοι οι "ειδικοί" χαρακτήρες στις desktop πλατφόρμες βγαίνουν με τη χρήση κάποιων συνδυασμών ειδικών πλήκτρων και του αντίστοιχου απλού γράμματος.

Οι συνδυασμοί αυτοί είναι:

Για τα πεζά:

[ ; ], [a] = á
[ ' ], [a] = æ
[[Shift] + [ ' ]], [a] = ǽ
[ ; ], [c] = č
[ ; ], [e] = é
[ ; ], [g] = ǵ
[ ' ], [g] = ǧ
[ ; ], [l] = ļ
[ ; ], [n] = ņ
[ ; ], [o] = ó
[ ' ], [o] = ø
[[Shift] + [ ' ]], [o] = ǿ
[ ; ], [s] = š
[ ; ], [u] = ú
[ ' ], [u] = ü
[[Shift] + [ ' ]], [u] = ǘ
[ ; ], [y] = ý
[ ; ], [z] = ž

Για τα κεφαλαία:

[ ; ], [Α] = Á
[ ' ], [Α] = Æ
[[Shift] + [ ' ]], [A] = Ǽ
[ ; ], [C] = Č
[ ; ], [E] = É
[ ; ], [G] = Ǵ
[ ' ], [G] = Ǧ
[ ; ], [L] = Ļ
[ ; ], [N] = Ņ
[ ; ], [O] = Ó
[ ' ], [O] = Ø
[[Shift] + [ ' ]], [O] = Ǿ
[ ; ], [S] = Š
[ ; ], [U] = Ú
[ ' ], [U] = Ü
[[Shift] + [ ' ]], [U] = Ǘ
[ ; ], [Y] = Ý
[ ; ], [Z] = Ž

Το κόμμα (",") σημαίνει ότι πατάμε το πλήκτρο που προηγείται και το αφήνουμε, ενώ το συν ("+") ότι ενώ κρατάμε πατημένο το πλήκτρο που προηγείται, πατάμε και το επόμενο και στη συνέχεια τα αφήνουμε και τα δύο, για να πληκτρολογήσουμε το αντίστοιχο απλό γράμμα.
Απλό είναι νομίζω και η εξοικείωση με τους συνδυασμούς είναι θέμα χρόνου κι εξάσκησης.

Σε ό,τι αφορά το θέμα της συμβατότητας του αλφαβήτου με τις γραμματοσειρές το Keyman αναφέρει πάνω από εκατό τέτοιες στο δικό μου μηχάνημα με 100% κάλυψη.

Το πληκτρολόγιο μπορείτε να το κατεβάσετε από τον ακόλουθο σύνδεσμο:
https://www.rodopsky.gr/content.php

Ακολουθούν κάποια στιγμιότυπα οθόνης ως συμπλήρωμα και στήριξη των γραφομένων.








 

Ενημέρωση: 08/05/2022 22:30

Ένα πειραματικό λεξικό μοντέλο για το πληκτρολόγιο στις φορητές συσκευές είναι στη διάθεση των ενδιαφερομένων.
Αποτελείται από περίπου 290.000 τύπους λέξεων που προκύπτουν από 6.000 λήμματα κατά προσέγγιση.
Από τους τύπους αυτούς οι 15.000 περίπου έχουν μια ειδική κατάταξη με βάση τη συχνότητα εμφάνισης τους στα 10.000 παραδείγματα και φράσεις / εκφράσεις του λεξικού, όπως και κάποια άλλα κείμενα.
Οπότε ο αλγόριθμος υπόδειξης πάντα θα ψάχνει πρώτα σ' αυτούς και μετά στους υπόλοιπους τύπους.
Το τελικό περιεχόμενο του λεξικού μοντέλου είναι υπό διαμόρφωση ακόμα.

Σύνδεσμος μεταφόρτωσης: https://www.rodopsky.gr/content.php

 


 




Καλό μας καλοκαίρι