Table of Contents
Η μεγαλύτερη μελέτη χρηστών σχετικά με τα μεγάλα γλωσσικά μοντέλα (LLMs) για την υποβοήθηση του κοινού στη λήψη ιατρικών αποφάσεων, διαπίστωσε ότι αυτά εγκυμονούν κινδύνους λόγω της τάσης τους να παρέχουν ανακριβείς πληροφορίες. Η έρευνα, η οποία δημοσιεύθηκε στο περιοδικό Nature Medicine, διεξήχθη από το Oxford Internet Institute και το Nuffield Department of Primary Care Health Sciences του Πανεπιστημίου της Οξφόρδης, σε συνεργασία με το MLCommons. Τα αποτελέσματα αποκαλύπτουν ένα σημαντικό χάσμα μεταξύ των δυνατοτήτων των μοντέλων στα τυποποιημένα τεστ και της πραγματικής τους χρησιμότητας για τους ασθενείς που αναζητούν ιατρικές συμβουλές για τα συμπτώματά τους.
Σύμφωνα με τα στοιχεία της μελέτης, ενώ τα μοντέλα επιτυγχάνουν υψηλές βαθμολογίες σε εξετάσεις ιατρικών γνώσεων, θέτουν σε κίνδυνο τους χρήστες όταν καλούνται να βοηθήσουν σε πραγματικά σενάρια. Οι ερευνητές διεξήγαγαν μια τυχαιοποιημένη δοκιμή με 1.298 συμμετέχοντες στο Ηνωμένο Βασίλειο, οι οποίοι κλήθηκαν να εντοπίσουν πιθανές παθήσεις και να προτείνουν την κατάλληλη πορεία δράσης βασισμένοι σε δέκα ιατρικά σενάρια. Τα σενάρια αυτά, τα οποία αναπτύχθηκαν από γιατρούς, κυμαίνονταν από έναν νεαρό άνδρα με έντονο πονοκέφαλο μετά από νυχτερινή έξοδο έως μια νέα μητέρα που ένιωθε συνεχή δύσπνοια και εξάντληση, καλύπτοντας ένα ευρύ φάσμα καθημερινών περιστατικών.
Σύγκριση Απόδοσης Μοντέλων και Ανθρώπινης Κρίσης
Οι συμμετέχοντες χωρίστηκαν σε ομάδες. Μια ομάδα χρησιμοποίησε ένα LLM (GPT-4o, Llama 3 ή Command R+) για να βοηθηθεί στη λήψη αποφάσεων, ενώ μια ομάδα ελέγχου χρησιμοποίησε παραδοσιακές πηγές, όπως αναζήτηση στο διαδίκτυο. Οι ερευνητές αξιολόγησαν την ακρίβεια με την οποία οι συμμετέχοντες εντόπισαν το ιατρικό πρόβλημα και το κατάλληλο επόμενο βήμα, όπως επίσκεψη σε γιατρό ή στα επείγοντα. Σύμφωνα με τα ευρήματα, όσοι χρησιμοποίησαν LLMs δεν έλαβαν καλύτερες αποφάσεις από εκείνους που βασίστηκαν σε παραδοσιακές μεθόδους. Αντιθέτως, η ομάδα ελέγχου είχε 1,76 φορές περισσότερες πιθανότητες να εντοπίσει μια σχετική πάθηση σε σύγκριση με τους χρήστες των LLMs.
Η αντίθεση μεταξύ της απόδοσης των μοντέλων όταν λειτουργούσαν αυτόνομα και όταν χρησιμοποιούνταν από ανθρώπους ήταν εντυπωσιακή. Όταν τα LLMs δοκιμάστηκαν μόνα τους στα ίδια σενάρια, εντόπισαν τις σχετικές παθήσεις στο 94,9% των περιπτώσεων και πρότειναν τη σωστή διαχείριση (disposition) στο 56,3% κατά μέσο όρο. Ωστόσο, οι άνθρωποι που χρησιμοποίησαν τα ίδια μοντέλα κατάφεραν να εντοπίσουν τις σχετικές παθήσεις σε λιγότερο από το 34,5% των περιπτώσεων και τη σωστή διαχείριση σε λιγότερο από το 44,2%. Αυτό αποδεικνύει ότι η τεχνική επάρκεια των μοντέλων δεν μεταφράζεται απαραίτητα σε αποτελεσματική υποβοήθηση των χρηστών σε πραγματικές συνθήκες.
Σοβαρά Προβλήματα Επικοινωνίας και Ασυνέπεια Απαντήσεων
Η μελέτη ανέδειξε σοβαρά προβλήματα στην αλληλεπίδραση ανθρώπου-μηχανής. Συγκεκριμένα, παρατηρήθηκε μια αμφίδρομη ρήξη επικοινωνίας. Οι συμμετέχοντες συχνά δεν γνώριζαν ποιες πληροφορίες έπρεπε να δώσουν στο LLM για να λάβουν ακριβείς συμβουλές, ενώ οι απαντήσεις που λάμβαναν συνδύαζαν συχνά σωστές και λανθασμένες συστάσεις, καθιστώντας δύσκολο τον εντοπισμό της βέλτιστης ενέργειας. Επιπλέον, τα LLMs παρείχαν πολύ διαφορετικές απαντήσεις βασισμένες σε μικρές παραλλαγές των ερωτήσεων. Για παράδειγμα, σε δύο παρόμοιες περιγραφές συμπτωμάτων υπαραχνοειδούς αιμορραγίας, ένας χρήστης έλαβε τη λάθος συμβουλή να ξαπλώσει, ενώ ένας άλλος τη σωστή συμβουλή να αναζητήσει επείγουσα βοήθεια.
Οι τρέχουσες μέθοδοι αξιολόγησης των LLMs κρίθηκαν ανεπαρκείς από την ερευνητική ομάδα, καθώς δεν αντικατοπτρίζουν την πολυπλοκότητα της αλληλεπίδρασης με ανθρώπινους χρήστες. Σύμφωνα με τη μελέτη, τα τυποποιημένα τεστ ιατρικών γνώσεων (όπως το MedQA) στα οποία τα μοντέλα αριστεύουν, αλλά και οι προσομοιώσεις με “ασθενείς AI”, απέτυχαν να προβλέψουν τις αστοχίες που εμφανίστηκαν κατά τη χρήση από πραγματικούς ανθρώπους. Όπως δήλωσε η Dr. Rebecca Payne, ιατρός και επικεφαλής ιατρική σύμβουλος της μελέτης, τα ευρήματα υπογραμμίζουν τη δυσκολία δημιουργίας συστημάτων AI που μπορούν να υποστηρίξουν πραγματικά τους ανθρώπους σε ευαίσθητους τομείς όπως η υγεία, παρά τον ενθουσιασμό που επικρατεί.
Επιτακτική Ανάγκη για Αυστηρότερο Πλαίσιο Ελέγχου
Ο Andrew Bean, διδακτορικός ερευνητής στο Oxford Internet Institute και επικεφαλής συγγραφέας, τόνισε ότι ο σχεδιασμός ισχυρών δοκιμών είναι το κλειδί για την κατανόηση της χρησιμότητας αυτής της νέας τεχνολογίας. Σύμφωνα με τον Bean, η αλληλεπίδραση με ανθρώπους αποτελεί πρόκληση ακόμη και για τα κορυφαία LLMs, και η εργασία αυτή στοχεύει στην ανάπτυξη ασφαλέστερων συστημάτων. Οι συμμετέχοντες στη μελέτη έλαβαν αμοιβή 2,25 λιρών Αγγλίας (περίπου 2,70 ευρώ) για τη συμμετοχή τους, ενώ η συλλογή των δεδομένων πραγματοποιήθηκε μεταξύ Αυγούστου και Οκτωβρίου 2024, διασφαλίζοντας ένα αντιπροσωπευτικό δείγμα του πληθυσμού του Ηνωμένου Βασιλείου.
Η αποσύνδεση μεταξύ των βαθμολογιών στα benchmarks και της απόδοσης στον πραγματικό κόσμο θα πρέπει να λειτουργήσει ως προειδοποίηση για τους προγραμματιστές και τις ρυθμιστικές αρχές, όπως επεσήμανε ο Dr. Adam Mahdi, Αναπληρωτής Καθηγητής στο Πανεπιστήμιο της Οξφόρδης και ανώτερος συγγραφέας. Ο Dr. Mahdi εξήγησε ότι πολλές αξιολογήσεις αποτυγχάνουν να μετρήσουν αυτό που ισχυρίζονται και ότι δεν μπορούμε να βασιζόμαστε μόνο σε τυποποιημένα τεστ για να καθορίσουμε αν τα συστήματα είναι ασφαλή. Απαιτούνται κλινικές δοκιμές με πραγματικούς χρήστες, παρόμοιες με αυτές των νέων φαρμάκων, για να κατανοηθούν οι πραγματικές δυνατότητες στην υγειονομική περίθαλψη.
Διαβάστε επίσης: Πώς να βγάζεις καλύτερες φωτογραφίες με το κινητό σου ακολουθώντας έναν απλό κανόνα
ΠΗΓΗ: Digital Life
Δείτε το πλήρες άρθρο εδώ.