Έρευνα Stanford: Το ChatGPT έχει γίνει πιο «χαζό» απ’ ότι ήταν όταν το γνωρίσαμε

Έπεσε κατακόρυφα το επίπεδο των απαντήσεων
20 Ιουλίου 2023 08:45
Έρευνα Stanford: Το ChatGPT έχει γίνει πιο «χαζό» απ’ ότι ήταν όταν το γνωρίσαμε

Μέσα στους τελευταίους μήνες υπήρχαν διάφορα μεμονωμένα παράπονα από τους χρήστες του ChatGPT, πως το επίπεδο των απαντήσεων έχει μειωθεί αισθητά σε σχέση με τις απαντήσεις που έδιναν τα μοντέλα της OpenAI όταν έγιναν αρχικά διαθέσιμα. Πρακτικά, πολλοί ισχυριζόντουσαν πως ChatGPT έχει γίνει πιο «χαζό» τον τελευταίο καιρό.

Μάλιστα, παρόλο που δεν υπήρχαν ξεκάθαρες αποδείξεις, το θέμα συζητιόταν τόσο έντονα που ο Peter Welinder, υψηλόβαθμο στέλεχος της OpenAI, πήρε δημόσια θέση στο Twitter, λέγοντας: «Όχι, δεν κάναμε το GPT-4 πιο ηλίθιο. Ακριβώς το αντίθετο: κάνουμε κάθε νέα έκδοση πιο έξυπνη από την προηγούμενη. Η τρέχουσα υπόθεση είναι η εξής: Όταν το χρησιμοποιείτε περισσότερο, αρχίζετε να παρατηρείτε προβλήματα που δεν είχατε δει πριν». Μάλιστα, ο Welinder ζήτησε όποιος έχει παραδείγματα να έρθει σε επικοινωνία, για να το μελετήσει σοβαρά η εταιρία.

Τελικά τα παραδείγματα ήρθαν και μάλιστα από το Στάνφορντ και το Πανεπιστήμιο Berkeley. Συγκεκριμένα, τρείς αναγνωρισμένοι ακαδημαϊκοί, οι Matei Zaharia, Lingjiao Chen και James Zou  αποφάσισαν να ερευνήσουν αν όντως υπήρξε υποβάθμιση και να βρουν τρόπο να προσδιορίσουν πόσο μεγάλη ή μικρή είναι η αλλαγή. Πράγματι, λοιπόν, η επιστημονική τους έρευνα κατέληξε πως υπήρξε βουτιά -και σε πολλές περιπτώσεις τεράστια- στην ποιότητα των απαντήσεων του ChatGPT.

Περνώντας σε λεπτομέρειες, ανακαλύφθηκαν ακραίες αποκλίσεις ακόμη και σε φαινομενικά απλά ερωτήματα. Για παράδειγμα, οι ερευνητές δοκίμασαν την ερώτηση «είναι αυτός ο αριθμός πρώτος;» στο πιο ισχυρό GPT-4 μοντέλο που είναι διαθέσιμο επί πληρωμή. Από τον Μάρτιο που η AI απαντούσε με ποσοστό επιτυχίας 97.6%, τον Ιούνιο απαντούσε με ποσοστό επιτυχίας 2.4%. Αυτό σημαίνει πως έκανε σχεδόν κάθε φορά λάθος, σε μια ερώτηση που παλιά απάνταγε σχεδόν πάντα σωστά! Παραδόξως, στο ίδιο ερώτημα το θεωρητικά χειρότερο GPT-3.5 μοντέλο έγινε καλύτερο με την πάροδο του χρόνου.

Δυστυχώς για τους προγραμματιστές που χρησιμοποιούσαν το ChatGPT για βοήθεια, οι δυνατότητες παραγωγής εκτελέσιμου κώδικα έπεσαν κατακόρυφα και στα δύο μοντέλα. Απ’ εκεί που το 52% του κώδικα που παρήγαγε το GPT-4 το Μάρτιο ήταν άμεσα εκτελέσιμο, πλέον το ποσοστό αυτό έχει πέσει στο 10%. Παράλληλα, από το 22% του GPT-3.5, το ποσοστό έπεσε σε μόλις 2%.

Παρακάτω μπορείτε να δείτε ένα γράφημα που συνοψίζει τα ευρήματα των επιστημόνων όσον αφορά την επίλυση μαθηματικών προβλημάτων, την απάντηση σε ευαίσθητες ερωτήσεις, τη δημιουργία κώδικα και τον οπτικό συλλογισμό.

Φυσικά, μιας και οι AIs αρχίζουν να παίζουν ολοένα και πιο έντονο ρόλο στις ζωές μας, με την Google για παράδειγμα να ετοιμάζεται να αλλάξει οριστικά τη μηχανή αναζήτησής της, η ανακάλυψη αυτή είναι εξαιρετικά σημαντική.

Όπως επισημαίνουν και οι ερευνητές, είναι πολύ πιθανό πως πληροφορίες που έχουν παραχθεί από AI θα επηρεάσουν με κάποιον τρόπο τη ζωή σας, οπότε είναι σίγουρα ανησυχητικό αν η ποιότητά τους υποβαθμίζεται με την πάροδο του χρόνου.

Για περισσότερα μπορείτε να διαβάσετε ολόκληρη την έρευνα πατώντας εδώ.