Μέσα στο start-up που στοχεύει σε άλμα στην ευφυΐα των ρομπότ

Στο Σαν Φρανσίσκο, μέσα σε μια αποθήκη με γυαλιστερές ατσάλινες επενδύσεις, μου προσφέρουν έναν φρεσκοφτιαγμένο καφέ από ένα ρομπότ. Δεν είναι είδηση ότι τα ρομπότ φτιάχνουν καφέ εδώ και χρόνια. Το ενδιαφέρον είναι ο «εγκέφαλος» που το έκανε: μπορεί να μάθει και άλλες δουλειές, από δίπλωμα ρούχων και καθάρισμα κουζίνας μέχρι ξεφλούδισμα λαχανικών, στον χρόνο που τα περισσότερα νήπια μόλις μαθαίνουν να περπατούν.

Η Physical Intelligence, start-up που ιδρύθηκε το 2024, ποντάρει ότι ένας ρομποτικός εγκέφαλος ικανός να μαθαίνει πολλές διαφορετικές εργασίες θα επιτρέψει σύντομα τα ρομπότ να ενταχθούν στην καθημερινότητα. Αντί να επικεντρώνεται σε μία μόνο μηχανή, όπως τα ανθρωποειδή της Tesla ή της Boston Dynamics ή τα ρομπότ εργοστασίου της Amazon, θέλει να φτιάξει ένα ευέλικτο σύστημα ελέγχου που να εκτελεί πολλές εργασίες σε διαφορετικά μηχανήματα.

Η ιδέα μιας ρομποτικής νοημοσύνης γενικού σκοπού δεν είναι νέα· αποτελεί διαχρονικό στόχο στη ρομποτική. Όπως όμως στις αρχές της δεκαετίας του 2020 άνθισαν τα large language models (LLMs) χάρη στη σωστή μίξη υπολογιστικής ισχύος, δεδομένων και αλγορίθμων, η Physical Intelligence ελπίζει σε αντίστοιχο άλμα στη γενική ρομποτική.

«Στους περισσότερους τομείς, το να λύνεις περισσότερα προβλήματα το κάνει πιο δύσκολο, αλλά στην τεχνητή νοημοσύνη το κάνει ευκολότερο, γιατί έτσι έχεις πιο ποικίλες πηγές γνώσης για να μάθεις», λέει ο Sergey Levine στο University of California, Berkeley, ένας από τους ιδρυτές της εταιρείας.

Η επιτυχία των LLMs έφερε μια νέα κατηγορία ρομποτικής ΤΝ, τα vision-language-action (VLA) μοντέλα, που βρίσκονται στον πυρήνα της έρευνας της Physical Intelligence. Αντί να διδάσκεις στο ρομπότ μία δεξιότητα κάθε φορά, ένα VLA αξιοποιεί τη διευρυμένη γνώση ενός LLM για να μεταφράζει γενικά αιτήματα σε συγκεκριμένες κινήσεις, επιτρέποντας στα ρομπότ να ακολουθούν οδηγίες και να εκτελούν πολλά είδη εργασιών. «[Τα VLAs] είναι πιθανότατα η πιο άμεση μετάφραση του ενθουσιασμού που έχουμε από τα large language models», λέει ο Ingmar Posner στο University of Oxford. Αντί να προβλέπουν την επόμενη λέξη, αυτά τα συστήματα προβλέπουν την επόμενη κίνηση του ρομπότ που απαιτείται για να ολοκληρωθεί μια εργασία, προσθέτει.

Μεγάλη πρόκληση στην εκπαίδευση ρομπότ είναι οι αμέτρητες παραλλαγές του πραγματικού κόσμου για κάθε εργασία και η έλλειψη επαρκών δεδομένων. Η αυτοματοποίηση της μάθησης –να διδάσκονται τα ρομπότ μόνα τους– είναι μια πιθανή λύση, όμως οι περισσότεροι την αποφεύγουν λόγω του όγκου δεδομένων που απαιτείται, λέει ο Levine. «Παρότι κατ’ αρχήν θα έπρεπε να είναι αυτόματο, στην πράξη ο όγκος δουλειάς για να συγκεντρώσεις δεδομένα για τη δική σου εφαρμογή ήταν μεγαλύτερος από το να τα κάνεις όλα στο χέρι».

Η ομάδα του ελπίζει ότι, με τη βοήθεια των VLA, θα χρειάζεται πολύ λιγότερα δεδομένα. Κάτω από την αίθουσα συσκέψεων όπου μιλούσαμε, υπάλληλοι εκπαίδευαν ρομπότ σε μια σειρά φαινομενικά τετριμμένων εργασιών: δίπλωμα πουκαμίσων, τοποθέτηση μαξιλαριών σε ράφια, δέσιμο φιόγκων σε κουτιά δώρων. Λίγο παρακάτω, σε δύο αποθήκες είχαν στηθεί ψεύτικα σούπερ μάρκετ, κρεβατοκάμαρες και κουζίνες, που ανακαινίζονταν κάθε εβδομάδα, ώστε τα ρομπότ και τα μοντέλα της Physical Intelligence να προσαρμόζονται σε ποικιλία περιβαλλόντων. Η εταιρεία άρχισε επίσης να δοκιμάζει ρομπότ σε κανονικά, κατοικημένα σπίτια για να δει πώς τα πάνε στο πραγματικό χάος.

Αυτή η ποικιλία φαίνεται να έφερε απρόσμενη πρόοδο, με τα ρομπότ να γενικεύουν πέρα από όσα έχουν ξαναδεί. Ένα πρόσφατο μοντέλο, το π0.7, κατάφερε να μαγειρέψει γλυκοπατάτες σε air fryer ακολουθώντας προφορικές, βήμα-βήμα οδηγίες, παρότι δεν είχε χρησιμοποιήσει ξανά air fryer.

Ο ρυθμός προόδου στα δύο χρόνια που η Physical Intelligence δραστηριοποιείται έχει εκπλήξει τον Levine. «Έχει προχωρήσει αρκετά πιο γρήγορα απ’ όσο νομίζαμε», λέει.

Και άλλες εταιρείες κινούνται στην ίδια κατεύθυνση. Μια σειρά start-up με χρηματοδότηση δισεκατομμυρίων, αλλά και πιο καθιερωμένοι παίκτες, όπως η Amazon και η Google DeepMind, αναπτύσσουν δικά τους ρομπότ γενικού σκοπού.

Παρά την ταχεία πρόοδο, η πορεία δεν είναι εύκολο να προβλεφθεί. Εταιρείες όπως οι OpenAI και Anthropic έχουν καταγράψει γρήγορες επιτυχίες, όμως στη ρομποτική τα βήματα είναι συχνά πιο αργά. Όλοι οι ερευνητές ρομποτικής γνωρίζουν το παράδοξο του Moravec: το 1988, ο Hans Moravec παρατήρησε ότι είναι εύκολο για τα ρομπότ να μάθουν σκάκι ή να πετυχαίνουν υψηλές επιδόσεις σε τεστ IQ, αλλά είναι «δύσκολο ή αδύνατο να τους δώσεις τις δεξιότητες ενός παιδιού ενός έτους στην αντίληψη και την κινητικότητα».

Παραμένει ασαφές πόσα δεδομένα θα χρειαστεί η Physical Intelligence για να ετοιμάσει τα ρομπότ της για χρήση στον πραγματικό κόσμο, λέει ο Posner. «Θα έλεγα ότι τώρα βλέπουμε πρώιμα σημάδια πως κάτι ενδιαφέρον μπορεί να συμβαίνει, αλλά το αν αυτός είναι πράγματι ο δρόμος που πρέπει να ακολουθήσουμε είναι διαφορετικό ερώτημα».

Εκτιμά ότι η επιτυχία σε πραγματικές συνθήκες αργεί, και ένας λόγος είναι πως οι χρήστες θα δοκιμάζουν τα όρια των ρομπότ. «Οι άνθρωποι είναι αντιμαχόμενοι. Τους αρέσει να πειράζουν ένα ρομπότ, αν μη τι άλλο, απλώς επειδή είναι διασκεδαστικό», λέει ο Posner. «Πιστεύω ότι αυτά τα συστήματα θα αναπτυχθούν σύντομα σε κλίμακα, με επιχειρηματικό μοντέλο που βγάζει χρήματα; Όχι, σίγουρα όχι. Θα μου ήταν πολύ δύσκολο να το πιστέψω».

Σχετικά άρθρα