Tο Meltemi είναι το πρώτο Ελληνικό Μεγάλο Γλωσσικό Μοντέλο (LLM) το οποίο δημιουργήθηκε από το Ινστιτούτο Επεξεργασίας του Λόγου του Ερευνητικού Κέντρου Αθηνά για να καλυφθούν τα όποια κενά υπάρχουν σε ελληνικό περιεχόμενο αλλά και στην απόδοση της ελληνικής γλώσσας, μια και η βάση όλων είναι η αγγλική γλώσσα όπως και το σχετικό περιεχόμενο εκπαίδευσης. Βέβαια, σχετικά με άλλες γλώσσες μοντέλα όπως το GPT-4 τα πάνε αρκετά καλά με το ελληνικό περιεχόμενο μια και υπάρχει ένας σημαντικός όγκος (ελληνικού) περιεχομένου σε πολλές δημόσιες πηγές του Internet.
Παρόμοιες προσπάθειες έχουν γίνει και σε άλλες γλώσσες χρησιμοποιώντας ανοικτά LLM, όπως τα Llama και Mistral, LeoLM για τα γερμανικά, Aguila για τα ισπανικά π.χ.
Το Meltemi είναι χτισμένο πάνω στο LLM της μεγάλης ευρωπαϊκής Startup Mistral-7B και έχει εκπαιδευτεί σε ένα corpus ελληνικών κειμένων υψηλής ποιότητας. Υπάρχουν δύο παραλλαγές του Meltemi στην έκδοση 1 και τα δυο 8k: το θεμελιώδες μοντέλο Meltemi-7B-v1 και το παράγωγό του, Meltemi-7B-Instruct-v1 που μπορεί να χρησιμοποιηθεί για εφαρμογές συνομιλίας. Και τα δύο μοντέλα κυκλοφορούν υπό την άδεια Apache 2.0.
Για να αξιολογηθούν οι δυνατότητες του Meltemi LLM κατασκευάστηκε μια τυποποιημένη σουίτα αξιολόγησης για την ελληνική γλώσσα, με την εκπαίδευση των μοντέλων να έχει πραγματοποιηθεί σε υποδομές AWS χάρη σε επιχορήγηση του ΕΔΥΤΕ (Εθνικό Δίκτυο Υποδομών Τεχνολογίας και Έρευνας).
Το Meltemi αναπτύσσεται ως δίγλωσσο μοντέλο, διατηρώντας τις δυνατότητές του για την αγγλική γλώσσα, ενώ επεκτείνεται στην κατανόηση και παραγωγή κειμένου στα νέα ελληνικά χρησιμοποιώντας σύγχρονες τεχνικές.
Περισσότερες πληροφορίες και τεχνικά στοιχεία θα βρείτε εδώ.