Το MIT χρησιμοποίησε AI για να βρει εκατοντάδες νέα εργαλεία γονιδιακής επεξεργασίας

Ερευνητές του MIT ανέπτυξαν ένα σύστημα τεχνητής νοημοσύνης που εντοπίζει νέες αμυντικές πρωτεΐνες βακτηρίων σε πέντε λεπτά — δουλειά που παλιά απαιτούσε μήνες. Σε μια πρώτη δοκιμή με στελέχη E. coli, το σύστημα ανακάλυψε πάνω από 600 πρωτεΐνες που δεν είχαν ποτέ συνδεθεί με ανοσολογική άμυνα. Μερικές από αυτές θα μπορούσαν να γίνουν τα επόμενα εργαλεία γονιδιακής μηχανικής — όπως κάποτε έγινε το CRISPR.

Το CRISPR δεν εφευρέθηκε σε εργαστήριο. Ανακαλύφθηκε σε βακτήρια που το χρησιμοποιούσαν εδώ και εκατομμύρια χρόνια για να επιβιώνουν από ιούς. Οι φάγοι — ιοί που μολύνουν βακτήρια — μπορούν να εξαλείψουν το ένα τέταρτο ενός βακτηριακού πληθυσμού μέσα σε μια μέρα. Κάτω από αυτή την πίεση, τα βακτήρια εξέλιξαν ένα εντυπωσιακό οπλοστάσιο άμυνας. Το CRISPR είναι απλώς το πιο διάσημο κομμάτι του.

Το πρόβλημα είναι ότι η παραδοσιακή αναζήτηση για τέτοια συστήματα είναι αργή και επίπονη. Από τις εκατοντάδες χιλιάδες πρωτεΐνες που κρύβονται στα βακτηριακά γονιδιώματα, μόνο περίπου 250 αμυντικά συστήματα έχουν επαληθευτεί μέχρι σήμερα. Τα υπόλοιπα παραμένουν στο σκοτάδι — ιδίως όσα δεν ακολουθούν τα γνωστά μοτίβα οργάνωσης στο γονιδίωμα.

Ερευνητές του MIT αποφάσισαν να αλλάξουν αυτή την εικόνα. Ανέπτυξαν ένα σύστημα AI που ονόμασαν DefensePredictor, το οποίο μπορεί να σαρώσει εκατοντάδες χιλιάδες πρωτεΐνες και να εντοπίσει υποψήφια αμυντικά συστήματα σε πέντε λεπτά. Στον πυρήνα του βρίσκεται ένα μοντέλο γλώσσας πρωτεϊνών, το ESM-2, που λειτουργεί με παρόμοιο τρόπο με τα γλωσσικά μοντέλα τύπου ChatGPT — μόνο που αντί για λέξεις, επεξεργάζεται αλληλουχίες αμινοξέων και μαθαίνει να αναγνωρίζει τη «γλώσσα» των πρωτεϊνών.

Για να εκπαιδεύσουν το σύστημα, οι ερευνητές χρησιμοποίησαν περίπου 17.000 μικροβιακά γονιδιώματα και δημιούργησαν μια βάση δεδομένων με 15.000 αντιφαγικές πρωτεΐνες και 186.000 πρωτεΐνες χωρίς αμυντική λειτουργία. Το DefensePredictor έμαθε να ξεχωρίζει τις δύο κατηγορίες — και στη συνέχεια το έβαλαν στη δουλειά. Σαρώνοντας 69 στελέχη E. coli, το σύστημα εντόπισε πάνω από 600 πρωτεΐνες που δεν είχαν ποτέ συνδεθεί με ανοσολογική άμυνα, ανάμεσά τους περισσότερες από 100 που δεν έμοιαζαν με τίποτα γνωστό. Το αξιοσημείωτο: σχεδόν οι μισές δεν βρίσκονταν ομαδοποιημένες στο γονιδίωμα όπως συνήθως — ήταν διάσπαρτες, αλλά πιθανώς λειτουργούν συντονισμένα.

Για να επαληθεύσουν τα αποτελέσματα, οι επιστήμονες μηχανολόγησαν ένα ευάλωτο στέλεχος E. coli ώστε να εκφράζει τις υποψήφιες πρωτεΐνες και το εξέθεσαν σε 24 επιθετικούς φάγους. Σχεδόν το 45% των πρωτεϊνών πρόσφερε προστασία έναντι τουλάχιστον ενός φάγου — ένα ποσοστό που οι ερευνητές χαρακτηρίζουν ενθαρρυντικό για ένα πρώτο πέρασμα. Επεκτείνοντας την αναζήτηση σε 1.000 επιπλέον μικροοργανισμούς, βρήκαν χιλιάδες ακόμα υποψήφιες πρωτεΐνες που δεν έχουν ξαναδεί.

Η σημασία αυτής της δουλειάς ξεπερνά την ακαδημαϊκή περιέργεια. Κάθε νέο αμυντικό σύστημα που ανακαλύπτεται σε βακτήρια είναι δυνητικά ένα νέο εργαλείο για τη γονιδιακή μηχανική. Το CRISPR έγινε η βάση για θεραπείες γονιδίων που αλλάζουν ζωές. Άλλα συστήματα έχουν μετατραπεί σε «διακόπτες θανάτου» για γενετικά τροποποιημένους οργανισμούς ή σε αισθητήρες για τη συνθετική βιολογία. Τα νέα συστήματα με ονόματα σαν βιντεοπαιχνίδια — Zorya, Thoeris — διερευνώνται ήδη για εφαρμογές που μέχρι πρότινος ήταν αδύνατες.

Η ίδια εβδομάδα που δημοσιεύτηκε η εργασία του MIT, ερευνητές του Ινστιτούτου Παστέρ ανακοίνωσαν ότι συνδύασαν πολλαπλά μοντέλα AI για να χαρτογραφήσουν αντιφαγικά συστήματα σε πάνω από 32.000 βακτηριακά γονιδιώματα — εντοπίζοντας σχεδόν 2,4 εκατομμύρια υποψήφιες πρωτεΐνες, τις περισσότερες άγνωστες μέχρι τώρα. Δημοσίευσαν έναν ανοιχτό άτλαντα για να τον εξερευνήσει η επιστημονική κοινότητα.

Τα βακτήρια έχουν εξελιχθεί επί δισεκατομμύρια χρόνια κάτω από ασφυκτική πίεση επιβίωσης. Αυτό που κρύβουν στα γονιδιώματά τους είναι, κατά κάποιον τρόπο, η πιο δοκιμασμένη βιοτεχνολογία στον πλανήτη. Μόλις τώρα αρχίζουμε να έχουμε τα εργαλεία για να τη διαβάσουμε.

Σχετικά άρθρα