Home Science

Το παράδοξο που αναποδογυρίζει τα στατιστικά αποτελέσματα

Από Trantorian 1 Απριλίου 2026 1 λεπτό ανάγνωσης
Το παράδοξο που αναποδογυρίζει τα στατιστικά αποτελέσματα

Το παράδοξο του Simpson δείχνει πώς τα ίδια δεδομένα μπορούν να οδηγήσουν σε εντελώς αντίθετα συμπεράσματα ανάλογα με τον τρόπο που τα αναλύουμε. Από δίκες για διακρίσεις σε πανεπιστήμια μέχρι κλινικές μελέτες φαρμάκων, το φαινόμενο αυτό υπενθυμίζει ότι οι αριθμοί δεν μιλούν ποτέ από μόνοι τους.

Στα τέλη της δεκαετίας του 1970, το Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϊ βρέθηκε στο εδώλιο. Η κατηγορία ήταν σοβαρή: διακρίσεις σε βάρος των γυναικών στις εισαγωγές μεταπτυχιακών φοιτητών. Τα νούμερα φαίνονταν αδιάψευστα — 44% ποσοστό αποδοχής για τους άνδρες, μόλις 35% για τις γυναίκες. Ποιος θα μπορούσε να αμφισβητήσει κάτι τέτοιο;

Ο στατιστικολόγος Peter Bickel και οι συνεργάτες του ανέλαβαν να κοιτάξουν πιο προσεκτικά. Και αυτό που βρήκαν ανέτρεψε τα πάντα. Όταν ανέλυσαν τα δεδομένα ανά τμήμα, διαπίστωσαν ότι σε τέσσερα από τα έξι μεγαλύτερα τμήματα γίνονταν δεκτές περισσότερες γυναίκες από άνδρες. Η εξήγηση ήταν απλή αλλά κρυμμένη: οι γυναίκες τείνανε να υποβάλλουν αίτηση σε πιο ανταγωνιστικά τμήματα με χαμηλότερα ποσοστά εισαγωγής, ενώ οι άνδρες επέλεγαν τμήματα με περισσότερες διαθέσιμες θέσεις. Το συνολικό αποτέλεσμα έδειχνε μεροληψία εκεί που δεν υπήρχε.

Αυτό είναι το παράδοξο του Simpson — ένα φαινόμενο που περιγράφηκε για πρώτη φορά από τον μαθηματικό Karl Pearson το 1899, ξαναανακαλύφθηκε από τον συνάδελφό του George Udny Yule το 1903, και τελικά έγινε ευρύτερα γνωστό όταν ο Edward Simpson αφιέρωσε σε αυτό μια δημοσίευση το 1951. Η ουσία του είναι ότι μια τάση που παρατηρείται σε συνολικά δεδομένα μπορεί να αντιστραφεί πλήρως όταν τα δεδομένα χωριστούν σε υποομάδες — και το αντίστροφο.

Το παράδοξο δεν είναι απλώς θεωρητική περιέργεια. Το 2021, στατιστικά από την πανδημία έδειχναν ότι ο Covid-19 ήταν σχεδόν διπλάσια θανατηφόρος στην Ιταλία σε σχέση με την Κίνα — παρόλο που κάθε μεμονωμένη ηλικιακή ομάδα Ιταλών είχε υψηλότερες πιθανότητες επιβίωσης. Η διαφορά εξηγείται από τη δημογραφική σύνθεση: η Ιταλία είχε σημαντικά μεγαλύτερο ποσοστό ηλικιωμένων, που αποτελούν την πιο ευάλωτη ομάδα. Το συνολικό νούμερο αντανακλούσε αυτή τη δομή, όχι κάποια ιδιαίτερη επικινδυνότητα του ιού στη χώρα.

Ιδιαίτερα δύσκολες είναι οι περιπτώσεις στην ιατρική έρευνα. Φανταστείτε ένα φάρμακο που σε συνολικό επίπεδο φαίνεται πιο αποτελεσματικό από το εικονικό σκεύασμα. Όταν όμως οι ασθενείς χωριστούν σε υποομάδες — ας πούμε ανδρών και γυναικών — το εικονικό σκεύασμα υπερτερεί και στις δύο. Τι κάνεις τότε; Εγκρίνεις το φάρμακο επειδή τα συνολικά δεδομένα το υποστηρίζουν, ή το απορρίπτεις επειδή δεν λειτουργεί για καμία υποομάδα ξεχωριστά;

Δεν υπάρχει καθολική απάντηση. Αυτό που υπάρχει είναι η υποχρέωση για βαθύτερη ανάλυση — να ψάξεις για κρυφές μεταβλητές, να κατανοήσεις τη δομή των δεδομένων σου πριν βγάλεις συμπέρασμα. Το παράδοξο του Simpson δεν είναι σφάλμα της στατιστικής· είναι υπενθύμιση ότι τα δεδομένα δεν ερμηνεύουν τον εαυτό τους. Αυτό το κάνουν οι άνθρωποι — και μπορούν να κάνουν λάθος.