Μετάβαση στο περιεχόμενο

ή
|

Νέος εδώ;

Έχεις λογαριασμό;

Επαναφορά κωδικού

Εισάγετε το email σας και θα σας στείλουμε σύνδεσμο επαναφοράς

Θυμάστε τον κωδικό σας;

Εύρεση ονόματος χρήστη

Εισάγετε το email σας και θα σας στείλουμε το όνομα χρήστη

Θυμάστε το όνομα χρήστη σας;

Η AI θα εξαντλήσει τα εκπαιδευτικά δεδομένα μέχρι το 2026

Τι θα γίνει μετά;

Αλέξανδρος Καρατζάς
Αλέξανδρος Καρατζάς

Αποθήκευση σε λίστα

Δεν υπάρχουν λίστες ακόμα

0/10 λίστες

Αποθήκευση σε λίστα

Δεν υπάρχουν λίστες ακόμα

0/10 λίστες

Η AI θα εξαντλήσει τα εκπαιδευτικά δεδομένα μέχρι το 2026

Η τεχνητή νοημοσύνη βασίζει την εκπαίδευσή της σε υψηλής ποιότητας δεδομένα. Το ChatGPT εκπαιδεύτηκε πάνω σε 570 gigabytes κειμένου ή περίπου 300 δισεκατομμύρια λέξεις. Παρομοίως, ο stable diffusion αλγόριθμος που βρίσκεται πίσω από το Midjourney και το DALL-E, εκπαιδεύτηκε με το LIAON-5B σετ δεδομένων που περιλαμβάνει 5.8 δισεκατομμύρια σετ εικόνων-κειμένων.

Η ποιότητα των εκπαιδευτικών δεδομένων είναι πολύ σημαντική για την AI. Δεδομένα με χαμηλή ποιότητα όπως social media posts ή θολές φωτογραφίες είναι εύκολο να βρεθούν, αλλά δεν είναι κατάλληλα. Κείμενο από social media πλατφόρμες μπορεί να περιέχει προκατάληψη ή παραπληροφόρηση η οποία έπειτα μπορεί να αναπαραχθεί από τον αλγόριθμο. Για αυτό το λόγο οι προγραμματιστές AI αναζητούν υψηλής ποιότητας περιεχόμενο από βιβλία, επιστημονικές έρευνες, Wikipedia και διάφορες φιλτραρισμένες πηγές του διαδικτύου.

Advertisement

Ωστόσο μία έρευνα προβλέπει πως η AI θα εξαντλήσει τα υψηλής ποιότητας δεδομένα για την εκπαίδευσή της μέχρι το 2026 με τους σημερινούς ρυθμούς. Υπολογίζει επίσης πως τα χαμηλής ποιότητας γλωσσικά δεδομένα θα εξαντληθούν κάποια στιγμή ανάμεσα στο 2030 και στο 2050 και τα χαμηλής ποιότητας δεδομένα εικόνας μεταξύ 2030 και 2060.

Αυτό μπορεί να βάλει φρένο στην ανάπτυξη της τεχνητής νοημοσύνης, η οποία υπολογίζεται πως θα συμβάλει μέχρι το 2030 στην παγκόσμια οικονομία με $15.7 τρισεκατομμύρια.

Φυσικά, η μελλοντική ανάπτυξη της AI κρύβει πολλούς άγνωστους παράγοντες. Μπορεί να βρεθεί τρόπος για παράδειγμα να εκπαιδευτεί η AI πιο αποδοτικά με τα δεδομένα που ήδη έχει, ενώ μερικοί υποστηρίζουν πως στα επόμενα χρόνια θα μπορούμε να εκπαιδεύσουμε υψηλών αποδόσεων AI χρησιμοποιώντας λιγότερα δεδομένα και λιγότερη υπολογιστική ισχύ. Μία άλλη επιλογή είναι η AI να δημιουργήσει συνθετικά δεδομένα για να εκπαιδεύσει τα συστήματά της, δηλαδή απλά να παράγει τα δεδομένα που χρειάζεται βάσει των αναγκών του συγκεκριμένου AI μοντέλου.

Advertisement

Οι ερευνητές στρέφουν την προσοχή τους τώρα και στις πηγές που δεν είναι διαθέσιμες online. Σκεφτείτε τα εκατομμύρια βιβλία που υπήρχαν πριν την εποχή του internet. Αν αυτά ψηφιοποιηθούν, θα μπορέσουν να προσφέρουν μία νέα πηγή δεδομένων για τα AI projects. Συμφωνίες με κατόχους περιεχομένου που έχουν δεδομένα πίσω από ένα paywall, μπορούν να αποτελέσουν ακόμα μία πηγή εκπαίδευσης των αλγορίθμων, οι οποίοι έως τώρα βασίζονται σε ό,τι παρέχεται δωρεάν στο internet.

Ακολουθήστε το Unboxholics στο Google News για να μαθαίνετε πρώτοι τα τελευταία νέα για τεχνολογία, videogames, ταινίες και σειρές. Ακολουθήστε το Unboxholics σε Facebook, Twitter, Instagram, Spotify και TikTok.