Παρασκευή, 1 Νοεμβρίου 2013

PomLex Hyphenator (Optimized)

Με μια απλή αντικατάσταση του map container της STL (Standard Template Library) με το unordered_map του TR1 (C++ Technical Report 1),  που ενσωματώθηκε πρόσφατα στη C++11, καθώς και κάποιες μικροδιορθώσεις  στον κώδικα, με την απομάκρυνση κυρίως κάποιων "πλεονασμών", κατάφερα να διπλασιάσω σχεδόν την ταχύτητα του συλλαβιστή PomLex.

Ο συλλαβισμός 97.000 λέξεων (159.000 μεμονωμένων συλλαβισμών) σε σώμα κειμένου με 160.000 λέξεις επιτυγχάνεται μόλις σε 1,2 δευτερόλεπτα, ταχύτητα που θα ζήλευαν ακόμα και εμπορικά πακέτα συλλαβιστών γραμμένα από επαγγελματίες προγραμματιστές.

Για να έχετε μια τάξη μεγέθους, με έναν πρόχειρο υπολογισμό που έκανα, αυτό μεταφράζεται σε κείμενο 330 περίπου σελίδων μεγέθους Α4 με πλήρη στοίχιση (προεπιλεγμένα περιθώρια – 2,54 εκ. κατακόρυφα και 3,17 εκ. οριζόντια), μονό διάστημα γραμμής και γραμματοσειρά Andika 12 στιγμών.

Μετά απ’ αυτό νομίζω πως δεν χρειάζεται να το «σκαλίσω» άλλο το πράγμα, ούτε να «εκμηδενίσω» τους χρόνους είναι στις προθέσεις μου.  Και πώς θα μπορούσε, εξάλλου, να γίνει κάτι τέτοιο;  Ένας μελλοντικός στόχος όμως θα ήταν η ενσωμάτωση του συστήματος συλλαβισμού, μαζί με κάποιον «ορθογράφο» ίσως, σε κάποιον δημοφιλή, ανοιχτού κώδικα κατά προτίμηση, επεξεργαστή κειμένου, είτε ως πρόσθετο είτε απ’ ευθείας στο σώμα του πηγαίου κώδικα.

Οι αριθμοί που εμφανίζονται στις εικόνες είναι, βεβαίως, ενδεικτικοί, καθώς η ίδια η ταχύτητα του υπολογιστή παίζει καθοριστικό ρόλο.  Οι μετρήσεις έγιναν σε διπύρηνο μηχάνημα με επεξεργαστή Intel Core 2 6400 στα 2.13 GHz με 2 GB RAM και λειτουργικό σύστημα Windows 7 (32-bit)

Ο συλλαβιστής θα μπορούσε να συλλαβίσει κείμενο σε οποιαδήποτε σχεδόν γλώσσα του κόσμου (με κάποια επιφύλαξη για τα σύνθετα συστήματα γραφής, όπως Κινέζικα, Αραβικά, Εβραϊκά κλπ.) με τους κατάλληλους κώδικες συλλαβισμού.


Κι εδώ ένα στιγμιότυπο με τον συλλαβιστή PomLex να τρέχει σε ένα τετραπύρηνο turbo laptop με επεξεργαστή Intel Core i7-3630QM στα 2.40 GHz με 16GB RAM σε λειτουργικό Windows 8 (64-bit).  Η διαφορά στην ταχύτητα είναι σοκαριστική.


Δευτέρα, 5 Αυγούστου 2013

Ο δρόμος είχε τη δική του ιστορία

Στίχοι: Κωστούλα Μητροπούλου 
Μουσική: Μάνος Λοΐζος 
Πρώτη εκτέλεση: Σούλα Μπιρμπίλη
Άλλες ερμηνείες:
Μάνος Λοΐζος
Χαρούλα Αλεξίου & Δήμητρα ΓαλάνηΔευτέρα, 24 Ιουνίου 2013

Περί αλφαβήτων

Latı́nıcata, kı́rılıcata ı elını́cata

 

Izkáralı so, póyem faf ınternéta, pomácko alfávıto sas latı́nckı̈ hárfove faf Türkı́ye za Pomácehne, žı́ne žı̈vót ıtám, ta da móžot da sı pı́savot ı da payót na pomáckı̈ ı da sı na zabarávet máyčınokne sı yezı̈́ka, Pomáckoso.  Bastı́salı so ı annó alfavıtárče (bukvárče), za da spaznót ı da naučót Pomácıne 29no hárfove.  Vı́deh pı́sano nókade, če faf Türkı́ye žı̈vót kazá dva mılyóna Pomácı, po mlózıno so so preméstılı ad Bulgarı́ye ıtám, ı ı́štot faf mečı́tevene dečyána mı da so učót Pomáckı̈.  Kakvó po húbavo nóvo ad to.

Stána mı ı móne málko merák da vı́dem kakvó ye tä́hnono alfávıto ı kutrı̈́ hárfove ı kak gı kullandı́savot ı zafátıh da trósem ı da abıyı́skavom faf ınternéta dalı́ go ı́ma nä́yde pakáčeno.  Na znom kak go so ızmı̈́slılı ı kaná ı́štot da stóret, alá kólkoto ı da go abıyı́skavah nı́kade na mažı̈́h da go náydom, nı́ta faf sáytane (ıstoselı́dono) mı, nı́ta drúgade nä́yde.  Annók futugráfa yálnı̈s ad alfavıtárčeno ı́mot pakáčena ı to mu ye vıdé le kapákane.  Na annó mä́sto pad futugráfane vı́deh da pı́sava če go predávot za on evró ı́lı on túrckı̈ lı́rı̈, na pómnem húbbe.  Stána mı málko šüfpä́ ı prekárah sı prez akı̈́lase samı̈́y “kak stánava tya ınázı rábata ını̈́y, alfávıto predáva lı so?”.  Háyde alfavıtárčeno go sı bastı́sal ı ı́šteš da go predadéš, húbbe, amá pı́šı̈y nä́yde ı alfávıtono, ta da móžot da go vı́det ı naučót ı bannı́ drúzı.  On evró ı́lı on túrckı̈ lı́rı̈ móža za bannä́h da so ne nı́kana, alá ne ı za vrıtsä́h.

Izpı́sah mı annók ıméıla ı mı go kázah, če právet nókakva yalnı̈šlı̈́ka.  Usramı́ho lı so, kutrı́ zno, ı nı́ta stórıho zahméte da mı advórnot.   Ne če mı so adbáve nä́ko, káksa vı́dıte ya sı pı́savom kákna sı ya znom ı móžom.  I akú be čákal täh  ı́lı bannä́h druzä́h da ızkárot alfávıto, za da móžom da sı spı́šom nášoso dúmenye pa ıtúzı ı da sı svóršom réčnıkase, te da čákom le bayá vréme yéšte ı netä́h da som stórıl nı́kana da ısä́na.  Amá na, dráznet go čulä́ka na bannóš ısakvı̈́zne rábatı̈.  Spravı́lo mı so ye béykı ta sas annó alfavıtárče še da móžot da zengınyásot.  Kak ı́nak da go abyesnı́ badı́n.

Annı́ “nášı” pak pa ıtúzı da na čúvot za latı́nıco ı́lı za kı́rılıco.  Íštot ad námı da pı́savame yálnı̈s na elını́co.  Ta kutrı́ mı ye kázal pak täm če móžot da nu sódet kak še dúmıme ı kak še pı́savame?  Ne lı da ısä́ nu ızučı́ho túrckı̈, kaná so yéšte kócot ınélkus za námı?  Íštot ı résto na varhú?  Zabarávet če zaradı́ täh Pomácıse sı na učót faf mečı́tevese máyčınokne sı yezı̈́ka, ótı kugána mı ye kef täm Pomácı sme, kugána ı́štot tı́ye Túrcı sme ı útre zaútrešnık akú paı́štot ı rečót móža da nu stóret ı ya na znom kakvä́h.  Ne lı?  I kak móža da ı́ma vä́ro badı́n na täh? 

Ne lı go so kázalı če malmı́na móžaš da gı razvórtaš za mlógo vréme, mlózeh móžaš da gı razvórtaš za málko vréme, alá na móžaš vrıtsä́h da gı razvórtaš pa cä́lo vréme.

Kutrı́ kákna ı́šte móža da dúmı ı da pı́sava ı némot nı́kakvo právo da so bórkot kadéna mı ye ne rábata.  To akú astáne faf tä́hnı̈ rókı̈ Pomáckoso, za málko vréme néma da ı́ma nı́kana, še ye battı́salo sı́čkoso, káksa battı́saho ı hükümétese.  Ílı mı so ye spravı́lo če móžot yéšte da nu kupóvot ı da nu predávot.  Ne, néma da stáne, svórša ıtazı́ vréme.

Ta za to ı ya, káksa vı́dıte, kullandı́savom ı latı́nıcoso ı kı́rılıcoso ı akú ı kugána móžom po nah sétne še kullandı́savom ı elını́coso.  Da sı derót ustána kólkono ı́štot, nı́ta mı préčı nı́ta mı so adbáve. E ını̈́y. 

Изка́рали со, по́йем фаф интерне́та, пома́цко алфа́вито сас лати́нцкъ ха́рфове фаф Тӱрки́йе за Пома́цехне, жи́не жъво́т ита́м, та да мо́жот да си пи́савот и да пайо́т на пома́цкъ и да си на забара́вет ма́йчинокне си йезъ́ка, Пома́цкосо.  Басти́сали со и анно́ алфавита́рче (буква́рче), за да спазно́т и да научо́т Пома́цине 29но ха́рфове.  Ви́дех пи́сано но́каде, че фаф Тӱрки́йе жъво́т каза́ два милйо́на Пома́ци, по мло́зино со со преме́стили ад Булгари́йе ита́м, и и́щот фаф мечи́тевене дечя́на ми да со учо́т Пома́цкъ.  Какво́ по ху́баво но́во ад то.

Ста́на ми и мо́не ма́лко мера́к да ви́дем какво́ йе тӓ́хноно алфа́вито и кутръ́ ха́рфове и как ги кулланди́савот и зафа́тих да тро́сем и да абийи́скавом фаф интерне́та дали́ го и́ма нӓ́йде пака́чено.  На зном как го со измъ́слили и кана́ и́щот да сто́рет, ала́ ко́лкото и да абийи́скавах ни́каде на мажъ́х да го на́йдом, ни́та фаф са́йтане (истосели́доно) ми, ни́та дру́гаде нӓ́йде.  Анно́к футугра́фа я́лнъс ад алфавита́рчено и́мот пака́чена и то му йе виде́ ле капа́кане.  На анно́ мӓ́сто пад футугра́фане ви́дех да пи́сава че го преда́вот за он евро́ и́ли за он ту́рцкъ ли́ръ, на по́мнем ху́ббе.  Ста́на ми ма́лко шӱфпӓ́ и прека́рах си през акъ́ласе самъ́й “как ста́нава тйа ина́зи ра́бата инъ́й, алфа́вито преда́ва ли со?“.  Ха́йде алфавита́рчено го си басти́сал и и́щеш да го предаде́ш, ху́ббе, ама́ пи́шъй нӓ́йде и алфа́витоно, та да мо́жот да го ви́дет и научо́т и банни́ дру́зи.  Он евро́ и́ли он ту́рцкъ ли́ръ мо́жа за баннӓ́х да со не ни́кана, ала́ не и за вритсӓ́х.

Изпи́сах ми анно́к име́ила и ми го ка́зах, че пра́вет но́каква ялнъшлъ́ка.  Усрами́хо ли со, кутри́ зно, и ни́та сто́рихо захме́те да ми адво́рнот.  Не че ми со адба́ве нӓ́ко, ка́кса ви́дите я си пи́савом ка́кна си я зном и мо́жом.  И аку́ бе ча́кал тӓх и́ли баннӓ́х друзӓ́х да изка́рот алфа́вито, за да мо́жом да си спи́шом на́шосо ду́менйе па иту́зи и да си сво́ршом ре́чникасе, те да ча́ком ле бая́ вре́ме йе́ще и нетӓ́х да сом сто́рил ни́кана да исӓ́на.  Ама́ на, дра́знет го на банно́ш чулӓ́ка исаквъ́зне ра́батъ.  Справи́ло ми со йе бе́йки та сас анно́ алфавита́рче ше зенгиня́сот.  Как и́нак да го абйесни́ бади́н.

Анни́ „на́ши“ пак па иту́зи да на чу́вот за лати́ницо и́ли за ки́рилицо.  И́щот ад на́ми да пи́саваме я́лнъс на елини́цо.  Та кутри́ ми йе ка́зал пак тӓм че мо́жот да ну со́дет как ше ду́миме и как ше пи́саваме? Не ли да исӓ́ ну изучи́хо ту́рцкъ, кана́ со йе́ще ко́цот ине́лкус за на́ми?  И́щот и ре́сто на варху́?  Забара́вет че заради́ тӓх Пома́цисе си на учо́т фаф мечи́тевесе ма́йчинокне си йезъ́ка, о́ти куга́на ми йе кеф тӓм Пома́ци сме, куга́на и́щот ти́йе Ту́рци сме и у́тре зау́трешник аку́ паи́щот и речо́т мо́жа да ну сто́рет и я на зном каквӓ́х.  Не ли?  И как мо́жа да и́ма вӓ́ро бади́н на тӓх?

Не ли го со ка́зали че малми́на мо́жаш да ги разво́рташ за мло́го вре́ме, мло́зех мо́жаш да ги разво́рташ за ма́лко вре́ме, ала́ на мо́жаш вритсӓ́х да ги разво́рташ па цӓ́ло вре́ме.

Кутри́ ка́кна и́ще мо́жа да ду́ми и да пи́сава и не́мот ни́какво пра́во да со бо́ркот каде́на ми йе не ра́бата.  То аку́ аста́не фаф тӓ́хнъ ро́къ Пома́цкосо, за ма́лко вре́ме не́ма да и́ма ни́кана, ше йе батти́сало си́чкосо, ка́кса батти́сахо и хӱкӱме́тесе.  И́ли ми со йе справи́ло че мо́жот йе́ще да ну купо́вот и да ну преда́вот.  Не, не́ма да ста́не, сво́рша итази́ вре́ме.

Та за то и я, ка́кса ви́дите, кулланди́савом и лати́ницосо и ки́рилицосо и аку́ и куга́на мо́жом по нах се́тне ше кулланди́савом и елини́цосо.  Да си деро́т уста́на ко́лконо и́щот, ни́та ми пре́чи ни́та ми со адба́ве.  Е инъ́й.