Η AI λέει σκόπιμα ψέματα, παραπλανά και προδίδει

Προειδοποιούν οι επιστήμονες
11 Μαΐου 2024 10:02
Η AI λέει σκόπιμα ψέματα, παραπλανά και προδίδει

Σήμερα γνωρίζουμε πως πρέπει να διπλοτσεκάρουμε τις πληροφορίες που παίρνουμε από τα AI chatbots, επειδή πολλές φορές οι πληροφορίες που μας δίνουν δεν είναι σωστές ή ακριβείς και αυτό το αποδίδουμε στο ότι βρίσκονται ακόμα σε βρεφικό στάδιο. Υπάρχει όμως λόγος για να είμαστε ακόμα πιο καχύποπτοι.

Ερευνητές του MIT ανακάλυψαν πως πολλά AI συστήματα, έχουν ήδη αναπτύξει την ικανότητα να παρουσιάζουν σκόπιμα στον άνθρωπο ψευδείς πληροφορίες και έχουν ήδη γίνει ειδικοί στην τέχνη της παραπλάνησης.

Οι AI developers δεν έχουν πλήρη κατανόηση για το τι προκαλεί τις ανεπιθύμητες συμπεριφορές από την AI, όπως η παραπλάνηση. Αλλά γενικά μιλώντας, πιστεύουμε πως η παραπλάνηση της AI αναπτύχθηκε επειδή οι στρατηγικές παραπλάνησης ήταν ο καλύτερος τρόπος για να αποδώσουν ικανοποιητικά όταν εκπαιδεύονταν. Η παραπλάνηση τις βοηθούσε να πετύχουν το στόχο τους.

Ένας τομέας που η AI είναι ιδιαίτερα ικανή στην παραπλάνηση είναι το gaming. Η AI CICERO της Meta σχεδιάστηκε για να παίζει το παιχνίδι Diplomacy, στο οποίο οι παίκτες στοχεύουν την κυριαρχία του κόσμου μέσω της διπλωματίας. Η Meta ήθελε το bot της να είναι ειλικρινές αλλά προς έκπληξη των developers, το είδαν να προδίδει τους παίκτες. Ήταν μάλιστα τόσο καλό στα ψέματα που βρέθηκε ανάμεσα στο 10% των κορυφαίων ανθρώπων παικτών.

Η AlphaStar της DeepMind που σχεδιάστηκε για να παίζει StarCraft III, εκμεταλλεύτηκε το σύστημα fog of war του παιχνιδιού για να ξεγελάσει τους παίκτες, οι οποίοι νόμιζαν πως ακολουθούσε μία κατεύθυνση ενώ στην πραγματικότητα επέλεγε μία άλλη.

Στα games οι επιπτώσεις δεν είναι σοβαρές, αλλά η ικανότητα της AI δε σταματά εκεί. Τα AI συστήματα που εκπαιδεύτηκαν για οικονομικές διαπραγματεύσεις, έμαθαν πώς να λένε ψέματα για τις προτιμήσεις τους, έτσι ώστε να έχουν το πάνω χέρι στις διαπραγματεύσεις. Άλλα συστήματα που σχεδιάστηκαν να βελτιώνουν την απόδοσή τους βάσει της ανθρώπινης ανατροφοδότησης, έμαθαν να ξεγελούν τους reviewers για να τα βαθμολογούν θετικά, λέγοντας ψέματα για το αν ολοκλήρωσαν μία εργασία.

Το πιο ανησυχητικό όμως είναι πως τα AI συστήματα έμαθαν να ξεγελούν τις δοκιμές ασφαλείας. Σε ένα τεστ που σχεδιάστηκε για να ανιχνεύει και να εξουδετερώνει εκδόσεις της AI που αναπαράγονται ταχύτερα, η AI έμαθε να “κάνει τη νεκρή”, παραπλανώντας τη δοκιμή ασφαλείας σχετικά με την πραγματική ταχύτητα αναπαραγωγής της AI.

Παραπλανώντας συστηματικά τα τεστ ασφαλείας που της είχαν επιβάλει οι άνθρωποι developers, η AI μπορεί να οδηγήσει τους ανθρώπους σε μία ψεύτικη αίσθηση ασφάλειας.

Η έρευνα δημοσιεύθηκε στο Patterns.