Ενόψει της ανακοίνωσης του iOS 18, το οποίο αναμένεται να είναι γεμάτο με λειτουργίες τεχνητής νοημοσύνης, οι ερευνητές της Apple δημοσίευσαν ένα έγγραφο που υπογραμμίζει τον τρόπο με τον οποίο εκπαιδεύουν ένα νέο μεγάλο γλωσσικό μοντέλο (LLMs).
Με την ονομασία MM1, αυτό το LLM μπορεί να ενσωματώσει κείμενο και οπτικές πληροφορίες ως ένα. Το έγγραφο υποβλήθηκε την περασμένη εβδομάδα και προσφέρει μια ενδιαφέρουσα ματιά στη σημασία διαφόρων αρχιτεκτονικών στοιχείων και επιλογών δεδομένων. Οι ερευνητές λένε ότι μπόρεσαν να “αποδείξουν ότι για την προ-εκπαίδευση μεγάλης κλίμακας πολυτροπικών μοντέλων η χρήση ενός προσεκτικού μείγματος δεδομένων εικόνας-επικεφαλίδων, διαδοχικών δεδομένων εικόνας-κειμένου και δεδομένων μόνο για κείμενο είναι ζωτικής σημασίας για την επίτευξη κορυφαίων (SOTA) αποτελεσμάτων λίγων βολών σε πολλαπλά σημεία αναφοράς, σε σύγκριση με άλλα δημοσιευμένα αποτελέσματα προ-εκπαίδευσης”.
Επιπλέον, έδειξαν ότι “ο κωδικοποιητής εικόνας μαζί με την ανάλυση της εικόνας και τον αριθμό των συμβόλων εικόνας έχει σημαντικό αντίκτυπο, ενώ ο σχεδιασμός του συνδέσμου όρασης-γλώσσας είναι συγκριτικά αμελητέας σημασίας”.
Το μοντέλο Τεχνητής Νοημοσύνης MM1 της Apple χρησιμοποιεί μια οικογένεια πολυτροπικών μοντέλων με έως και 300 παραμέτρους, που αποτελείται τόσο από πυκνά μοντέλα όσο και από παραλλαγές μείγματος ειδικών (MoE), τα οποία είναι SOTA σε μετρικές προ-εκπαίδευσης και επιτυγχάνουν ανταγωνιστικές επιδόσεις μετά από τελειοποίηση σε μια σειρά καθιερωμένων πολυτροπικών συγκριτικών μετρήσεων.
Η Apple έχει πειράξει τις εφαρμογές τεχνητής νοημοσύνης της εδώ και σχεδόν ένα χρόνο. O διευθύνων σύμβουλος της εταιρείας δήλωσε ότι έχουν πολλά χαρακτηριστικά να ανακοινώσουν. Το πιο ενδιαφέρον είναι ότι, ενώ η Apple δημοσιεύει έγγραφα και προϊδεάζει για τα επερχόμενα χαρακτηριστικά AI, ο Mark Gurman του Bloomberg δήλωσε ότι η Apple βρίσκεται επίσης σε συζητήσεις για τη χρήση του Google Gemini με το iOS 18.
Η Apple προφανώς βρίσκεται σε συνομιλίες με την Google για την αδειοδότηση του Gemini, αφού προηγουμένως είχε εξετάσει το ChatGPT της OpenAI.
Αν και δεν μπορούμε να πούμε αν η Apple θα συνεργαστεί με την Google, η κίνηση αυτή δεν αποτελεί απαραίτητα έκπληξη. Το Gemini τροφοδοτεί ήδη τα χαρακτηριστικά generative AI στο Pixel 8 και το Galaxy S24. Το τελευταίο έκανε σίγουρα εντύπωση νωρίτερα φέτος. Ένα από τα σημαντικότερα σημεία του Galaxy S24 προέρχεται από την Google.