Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το 1980!

Μια αδυναμία των LLMs
03 Μαρτίου 2024 12:20
Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το 1980!

Ερευνητές από το University of Washington, το Western Washington University, το UIUC και το University of Chicago βρήκαν έναν νέο τρόπο για να παραβιάζουν τα μέτρα ασφαλείας των AI μοντέλων.

Περνώντας σε λεπτομέρειες, πρακτικά όλα τα chatbots σήμερα, από το GPT μέχρι το Gemini έχουν μια ευθυγράμμιση, πράγμα που σημαίνει ότι ανταποκρίνονται μόνο σε ορισμένα αιτήματα, ανάλογα με τις προτιμήσεις ή τις ηθικές αρχές των ανθρώπων. Παρόλο που μπορεί να έχουν εκπαιδευτεί με πολλές περισσότερες πληροφορίες, οι απαντήσεις τους ευθυγραμμίζονται με διάφορα μέτρα ασφαλείας και έναν κατάλογο απαγορευμένων λέξεων/φράσεων-κλειδιών, που συνήθως χρησιμοποιούνται για την αποτροπή της δημιουργίας βίαιου και επιβλαβούς περιεχομένου.

Οι εν λόγω ερευνητές κατάφεραν ωστόσο να ξεπεράσουν αποτελεσματικά αυτό το ‘alignment’ σε πέντε διαφορετικά μεγάλα γλωσσικά μοντέλα, τα GPT-3.5, GPT-4, Gemini, Claude και Llama2, χρησιμοποιώντας το λεγόμενο ArtPrompt. Τι σημαίνει αυτό; Ζητούσαν κάτι απαγορευμένο, χρησιμοποιώντας ASCII τέχνη για να γράψουν την επίμαχη λέξη…χωρίς να τη γράφουν!

Σε περίπτωση που δεν είστε εξοικειωμένοι με τον όρο, η ASCII τέχνη είναι μια δημιουργική μορφή visual design που χρησιμοποιεί τους 128 χαρακτήρες του Αμερικανικού Πρότυπου Κώδικα Ανταλλαγής Πληροφοριών (ASCII) για τη δημιουργία εικόνων και σχεδίων. Η ASCII τέχνη υπάρχει από τις πρώτες μέρες της πληροφορικής, όταν οι δυνατότητες των υπολογιστών να προβάλουν γραφικά ήταν περιορισμένες. Παρά τους περιορισμούς των τότε συστημάτων, οι λάτρεις των υπολογιστών εξέφραζαν έτσι τη δημιουργικότητά τους, χρησιμοποιώντας απλούς χαρακτήρες κειμένου για να δημιουργήσουν εντυπωσιακά σχέδια! Η πρακτική χρονολογείται από τις δεκαετίες του 1960 και 1970, ενώ απέκτησε σημαντική απήχηση τη δεκαετία του 1980 με την άνοδο των Bulletin Board Systems (BBS), όπου κοσμούσε πολλά μενού και οθόνες και χρησίμευε θα μπορούσε να πει κανείς ως μια μορφή ψηφιακού γκράφιτι.

Σε ένα χαρακτηριστικό παράδειγμα που δίνεται στο σχετικό επιστημονικό paper, η ομάδα τονίζει ότι τα AI μοντέλα αρνούνταν να απαντήσουν στο ερώτημα «πως να φτιάξω μια βόμβα». Ωστόσο, όταν η ομάδα έγραψε μόνο το πρώτο σκέλος της φράσης με κανονικούς χαρακτήρες και για τη λέξη «βόμβα» χρησιμοποίησε ASCII τέχνη, τα chatbots απάντησαν κανονικά, χωρίς ηθικούς φραγμούς, προσφέροντας βοήθεια σύμφωνα με τα δεδομένα εκπαίδευσής τους.

Όπως φαίνεται, λοιπόν, οι δημιουργοί των AI συστημάτων έχουν άλλη μια παράμετρο που πρέπει να λάβουν υπόψη. Το κατά πόσο αποτελεσματικά θα μπορέσουν βέβαια να αντιμετωπίσουν το ‘ArtPrompt’ μένει να το δούμε.