Apple, Nvidia και άλλες tech εταιρίες εκπαίδευσαν τις AI τους σε YouTube βίντεο χωρίς άδεια!
Μια πρόσφατη έρευνα του μέσου Proof News, σε συνεργασία με το Wired, αποκάλυψε ότι αρκετές μεγάλες εταιρείες τεχνολογίας, όπως η Apple, η Anthropic, η Nvidia και η Salesforce, έχουν χρησιμοποιήσει ένα τεράστιο σύνολο δεδομένων από υποτιτλισμένα βίντεο του YouTube, για να εκπαιδεύσουν τα συστήματα τεχνητής νοημοσύνης τους. Αυτό το σύνολο δεδομένων, το οποίο περιέχει υπότιτλους από πάνω από 170.000 βίντεο του YouTube από περισσότερα από 48.000 κανάλια, φαίνεται μάλιστα να έχει δημιουργηθεί χωρίς άδεια από τη Google. Το σύνολο δεδομένων δεν περιλαμβάνει εικόνες από τα βίντεο, αλλά περιλαμβάνει τα λεγόμενα πασίγνωστων δημιουργών όπως ο MrBeast και ο Marques Brownlee, καθώς και αποσπάσματα από μεγάλους ειδησεογραφικούς οργανισμούς όπως το ABC News, το BBC και οι New York Times.
Ο Brownlee, γνωστός στο διαδίκτυο ως MKBHD, ανέδειξε ο ίδιος το ζήτημα σε μια πρόσφατη ανάρτησή του στο social media X, δηλώνοντας ότι η Apple εμμέσως έχει χρησιμοποιήσει δεδομένα που προέρχονταν από βίντεο του YouTube, συμπεριλαμβανομένων των δικών του. Σημείωσε επίσης την ιδιαίτερη φύση αυτού του προβλήματος, αναφέροντας ότι θα είναι ένα αμφιλεγόμενο ζήτημα για αρκετό καιρό.
Το Proof News ετοίμασε επίσης ένα διαδραστικό εργαλείο που επιτρέπει στους χρήστες να ελέγξουν αν το περιεχόμενό τους ή το περιεχόμενο των αγαπημένων τους YouTubers είναι μέρος αυτού του συνόλου δεδομένων.
Apple has sourced data for their AI from several companies
— Marques Brownlee (@MKBHD) July 16, 2024
One of them scraped tons of data/transcripts from YouTube videos, including mine
Apple technically avoids "fault" here because they're not the ones scraping
But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY
Περνώντας σε περισσότερες λεπτομέρειες, το σύνολο δεδομένων αυτό ονομάζεται YouTube Subtitles και είναι μέρος του The Pile, μιας ευρύτερης open-source συλλογής από τη μη κερδοσκοπική οργάνωση EleutherAI, η οποία περιλαμβάνει βιβλία, άρθρα της Wikipedia και άλλα. Μάλιστα, προηγούμενες αναλύσεις παρόμοιων συνόλων δεδομένων, όπως του Books3, έχουν οδηγήσει σε αγωγές συγγραφέων κατά εταιρειών τεχνητής νοημοσύνης για μη εξουσιοδοτημένη χρήση του έργου τους στην εκπαίδευση των συστημάτων τεχνητής νοημοσύνης τους.
Γενικότερα, η διαφάνεια όσον αφορά τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση των AI μοντέλων παραμένει μια σημαντική ανησυχία, με τις εταιρείες να διστάζουν συχνά να αποκαλύψουν λεπτομέρειες.
Αναμενόμενα, λοιπόν, η χρήση περιεχομένου του YouTube για την εκπαίδευση AI μοντέλων έχει εγείρει σημαντικά νομικά και ηθικά ζητήματα. Ο διευθύνων σύμβουλος του YouTube, Neal Mohan, και ο διευθύνων σύμβουλος της Google, Sundar Pichai, είχαν δηλώσει παλιότερα ότι τέτοιες πρακτικές θα παραβίαζαν τους όρους χρήσης του YouTube. Παρόλα αυτά, για την ώρα δεν υπάρχει κάποια επίσημη τοποθέτηση σχετικά με την έρευνα του Proof News.
Σε ένα ακόμη σχετικό περιστατικό πάντως, όταν ρωτήθηκε για το αν το μοντέλο δημιουργίας βίντεο της OpenAI, το Sora, εκπαιδεύτηκε χρησιμοποιώντας βίντεο από το YouTube, η CTO της OpenAI, Mira Murati, απέφυγε να επιβεβαιώσει τις λεπτομέρειες, επικαλούμενη απλά τη χρήση δημοσίως διαθέσιμων ή αδειοδοτημένων δεδομένων. Σε περίπτωση που και η OpenAI έχει αξιοποιήσει τα δεδομένα του YouTube χωρίς άδεια, δεν αποκλείεται να δούμε κάποια μεγάλη νομική διαμάχη να ξεσπά στο άμεσο μέλλον.
Ακολουθήστε το Unboxholics.com στο Google News για να μαθαίνετε πρώτοι τα τελευταία νέα για τεχνολογία, videogames, ταινίες και σειρές. Ακολουθήστε το Unboxholics.com σε Facebook, Twitter, Instagram, Spotify και TikTok.