Η start-up που στοχεύει σε άλμα στη ρομποτική ευφυΐα

Στο Σαν Φρανσίσκο, μέσα σε μια αποθήκη με γυαλιστερά ατσάλινα πάνελ, μου προσφέρουν ένα φλιτζάνι φρέσκο καφέ που έχει ετοιμάσει εξ ολοκλήρου ένα ρομπότ. Το γεγονός αυτό από μόνο του δεν εντυπωσιάζει ιδιαίτερα, καθώς τα ρομπότ φτιάχνουν καφέ εδώ και περισσότερο από μία δεκαετία. Το ρομποτικό «μυαλό» όμως που έφτιαξε αυτόν τον καφέ δεν περιορίζεται σε μία μόνο ικανότητα. Έχει μάθει επίσης να διεκπεραιώνει πολλές ακόμη εργασίες, όπως να διπλώνει ρούχα, να ξεφλουδίζει λαχανικά και να καθαρίζει κουζίνες, σε χρόνο που τα περισσότερα νήπια μόλις μαθαίνουν να περπατούν.

Η Physical Intelligence, μια start-up που ιδρύθηκε το 2024, ποντάρει στο ότι ένα ρομποτικό σύστημα ευφυΐας, ικανό να μαθαίνει πολλές διαφορετικές εργασίες, θα επιτρέψει στο όχι και τόσο μακρινό μέλλον στα ρομπότ να μπουν στην καθημερινή μας ζωή. Αντί να εστιάζει σε ένα μόνο μηχάνημα, όπως τα ανθρωποειδή ρομπότ που κατασκευάζουν η Tesla ή η Boston Dynamics ή τα βιομηχανικά ρομπότ που χρησιμοποιεί η Amazon, η εταιρεία θέλει να δημιουργήσει ένα προσαρμόσιμο σύστημα ελέγχου που θα μπορεί να εκτελεί πολλές εργασίες με πολλά διαφορετικά μηχανήματα.

Η ιδέα μιας γενικής ρομποτικής ευφυΐας δεν είναι καινούργια. Πολλοί ειδικοί στη ρομποτική θα έλεγαν ότι αποτελεί στόχο εδώ και δεκαετίες. Όμως, όπως στις αρχές της δεκαετίας του 2020 άνθησαν τα μεγάλα γλωσσικά μοντέλα που τροφοδοτούν τα chatbot της τεχνητής νοημοσύνης, χάρη στον σωστό συνδυασμό υπολογιστικής ισχύος, δεδομένων και αλγοριθμικών εξελίξεων, έτσι και η Physical Intelligence ελπίζει να προκαλέσει μια αντίστοιχη άλμα προόδου στη γενική ρομποτική.

«Στους περισσότερους τομείς, η επίλυση περισσότερων προβλημάτων απλώς κάνει τα πράγματα πιο δύσκολα, αλλά στην τεχνητή νοημοσύνη τα κάνει πιο εύκολα, επειδή τότε έχεις περισσότερες και πιο διαφορετικές πηγές γνώσης από τις οποίες μπορείς να μάθεις», λέει ο Sergey Levine από το Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϊ, ένας από τους ιδρυτές της εταιρείας.

Η επιτυχία των LLMs έχει οδηγήσει σε ένα νέο είδος ρομποτικής τεχνητής νοημοσύνης, το λεγόμενο μοντέλο vision-language-action (VLA), που στηρίζει μεγάλο μέρος της έρευνας της Physical Intelligence. Αντί να διδάσκει σε ένα ρομπότ μία δεξιότητα τη φορά, ένα VLA αξιοποιεί τη μεγάλη γνώση ενός LLM για να μεταφράζει γενικές εντολές σε συγκεκριμένες κινήσεις, επιτρέποντας στα ρομπότ να ακολουθούν οδηγίες και να εκτελούν πολλές διαφορετικές εργασίες. «[Τα VLAs] είναι πιθανότατα η πιο άμεση μεταφορά του ενθουσιασμού που έχουμε για τα μεγάλα γλωσσικά μοντέλα», λέει ο Ingmar Posner από το Πανεπιστήμιο της Οξφόρδης. Αντί να προβλέπουν την επόμενη λέξη, αυτά τα συστήματα προβλέπουν την επόμενη ρομποτική κίνηση που χρειάζεται για να ολοκληρωθεί μια συγκεκριμένη εργασία, εξηγεί.

Μία από τις μεγάλες προκλήσεις στην εκπαίδευση ρομπότ είναι ότι για κάθε εργασία υπάρχουν σχεδόν άπειρες παραλλαγές της πραγματικής ζωής και πολύ λίγα δεδομένα πάνω στα οποία μπορούν να μάθουν. Η αυτοματοποίηση της εκμάθησης —να μαθαίνουν δηλαδή τα ρομπότ να εκπαιδεύουν τους εαυτούς τους— είναι μια πιθανή λύση, όμως οι περισσότεροι δημιουργοί ρομπότ έχουν απομακρυνθεί από αυτήν, επειδή η συγκέντρωση αρκετών δεδομένων είναι πολύ δύσκολη υπόθεση, λέει ο Levine. «Ακόμα κι αν θεωρητικά θα έπρεπε να είναι αυτόματη διαδικασία, στην πράξη η δουλειά που απαιτούνταν για να συγκεντρώσεις τα δεδομένα για τη δική σου εφαρμογή ήταν μεγαλύτερη από τη δουλειά που χρειαζόταν για να τα κάνεις όλα με το χέρι».

Ο Levine και οι συνεργάτες του ελπίζουν ότι, χάρη στα VLAs, θα χρειάζονται πολύ λιγότερα δεδομένα για να πετύχουν. Κάτω από την αίθουσα συνεδριάσεων όπου μίλησα με τον Levine, μια ομάδα εργαζομένων εκπαίδευε τα ρομπότ να κάνουν μια σειρά από φαινομενικά απλές εργασίες: να διπλώνουν πουκάμισα, να τοποθετούν μαξιλάρια σε ράφια, να κόβουν φιόγκους σε κουτιά δώρων. Σε μια γωνία, έμαθα πως υπήρχαν δύο αποθήκες με ψεύτικα σούπερ μάρκετ, υπνοδωμάτια και κουζίνες, τα οποία ανακαινίζονταν κάθε εβδομάδα, ώστε τα ρομπότ και τα μοντέλα AI της Physical Intelligence να μαθαίνουν να ανταποκρίνονται σε διαφορετικά περιβάλλοντα. Η εταιρεία δοκιμάζει επίσης τα ρομπότ της σε πραγματικά σπίτια, όπου ζουν άνθρωποι, για να δει πώς μπορούν να αντιμετωπίσουν τη φασαρία της πραγματικής ζωής.

Η ποικιλία αυτή είναι ένα από τα βασικά στοιχεία που έχουν οδηγήσει σε μια εντυπωσιακή πρόοδο, ανάμεσά τους και το γεγονός ότι τα ρομπότ μαθαίνουν να γενικεύουν πέρα από τις εργασίες που έχουν ήδη δει. Ένα πρόσφατο μοντέλο, το π0.7, κατάφερε να μαγειρέψει γλυκοπατάτες σε air fryer με βήμα προς βήμα προφορικές οδηγίες από άνθρωπο, παρότι δεν είχε χρησιμοποιήσει ποτέ ξανά air fryer.

Η ταχύτητα της προόδου στα δύο χρόνια λειτουργίας της Physical Intelligence έχει εκπλήξει τον Levine. «Στην πραγματικότητα, τα πράγματα έχουν προχωρήσει αρκετά πιο γρήγορα απ’ όσο περιμέναμε», λέει.

Και άλλες εταιρείες παρακολουθούν στενά τις εξελίξεις. Μια σειρά από start-ups με χρηματοδότηση δισεκατομμυρίων δολαρίων, αλλά και πιο καθιερωμένες εταιρείες, όπως η Amazon και η Google DeepMind, επιχειρούν να αναπτύξουν τα δικά τους ρομπότ γενικής χρήσης.

Παρά τις ταχείες εξελίξεις μέχρι τώρα, είναι δύσκολο να προβλέψει κανείς πόσο γρήγορα θα κινηθεί ο κλάδος από εδώ και πέρα. Η πρόοδος για εταιρείες τεχνητής νοημοσύνης όπως η OpenAI και η Anthropic ήταν, όπως είναι γνωστό, γρήγορη, όμως στον χώρο της ρομποτικής τα πράγματα συχνά προχωρούν πιο αργά. Κάθε ερευνητής της ρομποτικής θα γνωρίζει το παράδοξο του Moravec: ο επιστήμονας υπολογιστών Hans Moravec παρατήρησε το 1988 ότι είναι εύκολο για τα ρομπότ να κατακτούν παιχνίδια όπως το σκάκι ή να πετυχαίνουν υψηλές επιδόσεις σε τεστ IQ, αλλά «δύσκολο ή αδύνατο να τους δοθούν οι δεξιότητες ενός παιδιού ενός έτους όταν πρόκειται για την αντίληψη και την κινητικότητα».

Παραμένει ακόμη ασαφές πόσα δεδομένα θα χρειαστεί η Physical Intelligence για να προετοιμάσει τα ρομπότ της για χρήση στον πραγματικό κόσμο, λέει ο Posner. «Θα έλεγα ότι αυτή τη στιγμή βλέπουμε πρώιμα σημάδια ότι ίσως συμβαίνει κάτι ενδιαφέρον, αλλά το αν αυτή είναι πραγματικά η σωστή κατεύθυνση είναι άλλο ερώτημα».

Ο ίδιος θεωρεί πως η επιτυχία στον πραγματικό κόσμο απέχει ακόμη πολύ, εν μέρει επειδή οι χρήστες θα δοκιμάζουν τα ρομπότ στα όριά τους. «Οι άνθρωποι είναι αντιδραστικοί. Τους αρέσει να πειράζουν ένα ρομπότ, αν μη τι άλλο, απλώς επειδή είναι διασκεδαστικό», λέει ο Posner. «Πιστεύω ότι όλα αυτά θα αναπτυχθούν σε μεγάλη κλίμακα σύντομα, με ένα επιχειρηματικό μοντέλο που όντως θα βγάζει χρήματα; Όχι, σίγουρα όχι. Θα το θεωρούσα πολύ δύσκολο να το πιστέψω».

Σχετικά άρθρα