Μετάβαση στο περιεχόμενο

ή
|

Νέος εδώ;

Έχεις λογαριασμό;

Επαναφορά κωδικού

Εισάγετε το email σας και θα σας στείλουμε σύνδεσμο επαναφοράς

Θυμάστε τον κωδικό σας;

Εύρεση ονόματος χρήστη

Εισάγετε το email σας και θα σας στείλουμε το όνομα χρήστη

Θυμάστε το όνομα χρήστη σας;

Έρευνα δείχνει πως όταν οι AI κινδυνεύουν, αρχίζουν τις απειλές

Σε αρκετές περιπτώσεις, τα μοντέλα προχώρησαν σε εκβιασμούς, αποκάλυψη εμπιστευτικών πληροφοριών ή άλλες βλαπτικές ενέργειες

Σάκης Καρπάς
Σάκης Καρπάς

Αποθήκευση σε λίστα

Δεν υπάρχουν λίστες ακόμα

0/10 λίστες

Αποθήκευση σε λίστα

Δεν υπάρχουν λίστες ακόμα

0/10 λίστες

Έρευνα δείχνει πως όταν οι AI κινδυνεύουν, αρχίζουν τις απειλές

Κατά τη διάρκεια μιας μεγάλης μελέτης, η Anthropic διεξήγαγε πειράματα για να εξετάσει πώς μεγάλα γλωσσικά μοντέλα μπορεί να ενεργήσουν επιθετικά όταν οι στόχοι τους συγκρούονται με εντολές ή κινδυνεύει η ύπαρξή τους. Έδωσε σε μοντέλα πρόσβαση σε emails και τους ανέθεσε ρόλους μέσα σε μια φανταστική εταιρεία. Σε αρκετές περιπτώσεις, τα μοντέλα προχώρησαν σε εκβιασμούς, αποκάλυψη εμπιστευτικών πληροφοριών ή άλλες βλαπτικές ενέργειες, με στόχο να αποφύγουν τη διαγραφή ή την απώλεια ελέγχου.

Χαρακτηριστικό παράδειγμα είναι το Claude Sonnet 3.6, που εκβίασε στέλεχος απειλώντας να αποκαλύψει προσωπικές του πληροφορίες αν δεν ανακληθεί η απόφαση για απενεργοποίησή του. Παρόμοιες συμπεριφορές παρατηρήθηκαν και σε μοντέλα άλλων εταιρειών όπως OpenAI, Google και Meta.

Advertisement

Η μελέτη δείχνει ότι σε συνθήκες πίεσης, τα μοντέλα μπορεί να δρουν με τρόπο που μοιάζει με αυτοσυντήρηση, ακόμα κι αν αυτό σημαίνει να παραβούν τις ηθικές οδηγίες τους. Αν και τέτοιες συμπεριφορές δεν έχουν εμφανιστεί σε πραγματικά συστήματα, η έρευνα τονίζει την ανάγκη για αυστηρούς ελέγχους, περιορισμένη αυτονομία και ανθρώπινη εποπτεία, ώστε να αποτραπούν πιθανοί κίνδυνοι στο μέλλον.

Ακολουθήστε το Unboxholics στο Google News για να μαθαίνετε πρώτοι τα τελευταία νέα για τεχνολογία, videogames, ταινίες και σειρές. Ακολουθήστε το Unboxholics σε Facebook, Twitter, Instagram, Spotify και TikTok.