Η εταιρεία Deep Mind με έδρα το Λονδίνο, παρουσίασε τις προβλεπόμενες δομές για περίπου 220 εκατομμύρια πρωτεΐνες, καλύπτοντας σχεδόν κάθε πρωτεΐνη από γνωστούς οργανισμούς στις βάσεις δεδομένων DNA. Τώρα, ένας άλλος τεχνολογικός γίγαντας συμπληρώνει τη σκοτεινή ύλη του πρωτεϊνικού μας σύμπαντος.
Οι ερευνητές της Meta (Facebook) χρησιμοποίησαν ένα σύστημα τεχνητής νοημοσύνης για να προβλέψουν τις δομές περίπου 600 εκατομμυρίων πρωτεϊνών από βακτήρια, ιούς και άλλα μικρόβια που δεν έχουν χαρακτηριστεί ακόμη.
«Αυτές είναι οι δομές για τις οποίες γνωρίζουμε τα λιγότερα. Πρόκειται για απίστευτα μυστηριώδεις πρωτεΐνες. Νομίζω ότι προσφέρουν τη δυνατότητα για μεγάλη διορατικότητα στη βιολογία», δήλωσε στο «Nature» ο Αλεξάντερ Ριβς, επικεφαλής της έρευνας στην Meta AI.
Η ομάδα δημιούργησε τις προβλέψεις χρησιμοποιώντας ένα μεγάλο γλωσσικό μοντέλο, ένα είδος τεχνητής νοημοσύνης που αποτελεί τη βάση για εργαλεία τα οποία μπορούν να προβλέψουν κείμενο από λίγα μόνο γράμματα ή λέξεις.
Συνήθως τα γλωσσικά μοντέλα εκπαιδεύονται σε μεγάλους όγκους κειμένου. Για να τα εφαρμόσουν στις πρωτεΐνες, ο Ριβς και οι συνάδελφοί του τα τροφοδότησαν με αλληλουχίες γνωστών πρωτεϊνών, οι οποίες μπορούν να εκφραστούν από μια αλυσίδα 20 διαφορετικών αμινοξέων, καθένα από τα οποία αντιπροσωπεύεται από ένα γράμμα. Στη συνέχεια, το δίκτυο έμαθε να συμπληρώνει αυτόματα τις πρωτεΐνες.
(Meta AI)
Αυτή η εκπαίδευση έδωσε στο δίκτυο μια διαισθητική κατανόηση των πρωτεϊνικών αλληλουχιών, οι οποίες περιέχουν πληροφορίες σχετικά με το σχήμα τους, εξήγησε ο Ριβς. Ένα δεύτερο βήμα – εμπνευσμένο από την πρωτοποριακή τεχνητή νοημοσύνη πρωτεϊνικών δομών AlphaFold της DeepMind – συνδυάζει αυτές τις γνώσεις με πληροφορίες σχετικά με τις σχέσεις μεταξύ γνωστών πρωτεϊνικών δομών και αλληλουχιών, για να δημιουργήσει προβλεπόμενες δομές από πρωτεϊνικές αλληλουχίες.
Το δίκτυο της Meta, που ονομάζεται ESMFold, δεν είναι τόσο ακριβές όσο το AlphaFold, είχε αναφέρει η ομάδα του Ριβς νωρίτερα αυτό το καλοκαίρι, αλλά είναι περίπου 60 φορές ταχύτερο στην πρόβλεψη δομών. «Αυτό σημαίνει ότι μπορούμε να επεκτείνουμε την πρόβλεψη δομών σε πολύ μεγαλύτερες βάσεις δεδομένων».
Οι επιστήμονες δοκίμασαν το μοντέλο τους σε μια βάση δεδομένων με μαζική αλληλουχία μεταγονιδιωματικού DNA από περιβαλλοντικές πηγές, όπως το έδαφος, το θαλασσινό νερό, το ανθρώπινο έντερο, το δέρμα και άλλα μικροβιακά ενδιαιτήματα. Διαπίστωσαν ότι η συντριπτική πλειονότητα των δεδομένων DNA προέρχονταν από οργανισμούς που δεν έχουν καλλιεργηθεί ποτέ και είναι άγνωστοι στην επιστημονική κοινότητα.
Συνολικά, το σύστημα της Meta προέβλεψε τις δομές περισσότερων από 617 εκατομμυρίων πρωτεϊνών μέσα σε 2 εβδομάδες, ενώ το AlphaFold μπορεί να χρειαστεί λεπτά για να δημιουργήσει μια απλή πρόβλεψη. Οι προβλέψεις είναι ελεύθερα διαθέσιμες για χρήση από οποιονδήποτε, όπως και ο κώδικας που διέπει το μοντέλο, είπαν οι ερευνητές.
Από αυτές τις 617 εκατομμύρια προβλέψεις, το μοντέλο έκρινε ότι περισσότερο από το ένα τρίτο είναι υψηλής ποιότητας. Έτσι, οι ερευνητές είναι σίγουροι ότι το συνολικό σχήμα της πρωτεΐνης είναι σωστό και, σε ορισμένες περιπτώσεις, μπορούν να διακρίνουν περισσότερες λεπτομέρειες σε ατομικό επίπεδο.
Ένα μεγάλο κομμάτι της βάσης δεδομένων AlphaFold αποτελείται από δομές που είναι σχεδόν πανομοιότυπες μεταξύ τους, και οι μεταγονιδιωματικές βάσεις δεδομένων «θα πρέπει να καλύπτουν ένα μεγάλο μέρος του προηγουμένως αθέατου πρωτεϊνικού σύμπαντος», δήλωσε ο Μάρτιν Στάινεγκερ, υπολογιστικός βιολόγος στο Εθνικό Πανεπιστήμιο της Σεούλ.