[gnome-el] Πιθανή πρόταση για GSOC (iate for stardict/goldendict)



Καλησπέρα, 
Ζητώ συγγνώμη για το σπαμ, αλλά τα τελευταία χρόνια έχω χάσει την επαφή με την κοινότητα και δεν ήξερα που να απευθυνθώ.
Δεν ξέρω κατά πόσο η πρότασή μου θα ήταν κατάλληλη για το Google Summer of Code, και δεν έχω αρκετές γνώσεις προγραμματισμού για να αναλάβω αποκλειστικά ως mentor, οπότε την καταθέτω εδώ με την ελπίδα ότι ίσως ενδιαφέρει και κάποιον άλλο.
Το iate είναι η πολύγλωσση βάση ορολογίας της Ευρωπαϊκής Επιτροπής, που πλέον διατίθεται για κατέβασμα και ελεύθερη χρήση σε μορφή xml.
Εδώ και κάποια χρόνια χρησιμοποιώ ένα απλό σκριπτ perl για να μετατρέπω το αρχείο αυτό xml στις μορφές text που διαβάζουν το goldendict ή το stardict (ΕΛΛΑΚ προγράμματα λεξικών - διαθέσιμα για linux, win). Και αποκτώ πχ ένα λεξικό ορολογίας αγγλο-γαλλο-γερμανο-ελληνικό με 750.000 λήμματα. Επισυνάπτω ένα screenshot λήμματος από το goldendict. 
Η πρότασή μου θα ήταν να δημιουργηθεί μία gui εφαρμογή που να αυτοματοποιεί αυτή τη μετατροπή. Ο επίδοξος χρήστης να επιλέγει τις γλώσσες εργασίας του, και το λεξικό να κατεβαίνει έτοιμο προς χρήση. Από τεχνικής πλευράς, θα έπρεπε να φτιαχτεί το gui, και ένα πρόγραμμα (ενδεχομένως σε python;) που να κάνει regexxing σε ένα μεγάλο αρχείο (2gb), και στο τέλος συμπίεση με dictzip  ή compile με τα υπάρχοντα script του stardict-tools (και τα δύο υπάρχουν στα αποθετήρια). 
Πέρα από linux και win, ιδανικά θα μπορούσε να κατασκευαστεί και εφαρμογή για android. Με το μόνο πρόβλημα ότι τότε το λεξικό θα μπορούσε μεν να χρησιμοποιηθεί από διάφορες εφαρμογές, αλλά καμία τους δεν είναι ΕΛΛΑΚ. Και τους πιθανούς τεχνικούς περιορισμούς εφόσον μιλάμε για επεξεργασία αρχείου 2gb.

Σας ευχαριστώ για την προσοχή σας και είμαι στη διάθεση όλων όσων ενδιαφέρονται. 

Φιλικά, 
Τζένη Πετούμενου


Attachment: Screenshot_20191217-233940_GoldenDict.jpg
Description: JPEG image



[Date Prev][Date Next]   [Thread Prev][Thread Next]   [Thread Index] [Date Index] [Author Index]