Νέα έρευνα αποκαλύπτει
Μια πρόσφατη έρευνα του μέσου Proof News, σε συνεργασία με το Wired, αποκάλυψε ότι αρκετές μεγάλες εταιρείες τεχνολογίας, όπως η Apple, η Anthropic, η Nvidia και η Salesforce, έχουν χρησιμοποιήσει ένα τεράστιο σύνολο δεδομένων από υποτιτλισμένα βίντεο του YouTube, για να εκπαιδεύσουν τα συστήματα τεχνητής νοημοσύνης τους. Αυτό το σύνολο δεδομένων, το οποίο περιέχει υπότιτλους από πάνω από 170.000 βίντεο του YouTube από περισσότερα από 48.000 κανάλια, φαίνεται μάλιστα να έχει δημιουργηθεί χωρίς άδεια από τη Google. Το σύνολο δεδομένων δεν περιλαμβάνει εικόνες από τα βίντεο, αλλά περιλαμβάνει τα λεγόμενα πασίγνωστων δημιουργών όπως ο MrBeast και ο Marques Brownlee, καθώς και αποσπάσματα από μεγάλους ειδησεογραφικούς οργανισμούς όπως το ABC News, το BBC και οι New York Times.
Ο Brownlee, γνωστός στο διαδίκτυο ως MKBHD, ανέδειξε ο ίδιος το ζήτημα σε μια πρόσφατη ανάρτησή του στο social media X, δηλώνοντας ότι η Apple εμμέσως έχει χρησιμοποιήσει δεδομένα που προέρχονταν από βίντεο του YouTube, συμπεριλαμβανομένων των δικών του. Σημείωσε επίσης την ιδιαίτερη φύση αυτού του προβλήματος, αναφέροντας ότι θα είναι ένα αμφιλεγόμενο ζήτημα για αρκετό καιρό.
Το Proof News ετοίμασε επίσης ένα διαδραστικό εργαλείο που επιτρέπει στους χρήστες να ελέγξουν αν το περιεχόμενό τους ή το περιεχόμενο των αγαπημένων τους YouTubers είναι μέρος αυτού του συνόλου δεδομένων.
Περνώντας σε περισσότερες λεπτομέρειες, το σύνολο δεδομένων αυτό ονομάζεται YouTube Subtitles και είναι μέρος του The Pile, μιας ευρύτερης open-source συλλογής από τη μη κερδοσκοπική οργάνωση EleutherAI, η οποία περιλαμβάνει βιβλία, άρθρα της Wikipedia και άλλα. Μάλιστα, προηγούμενες αναλύσεις παρόμοιων συνόλων δεδομένων, όπως του Books3, έχουν οδηγήσει σε αγωγές συγγραφέων κατά εταιρειών τεχνητής νοημοσύνης για μη εξουσιοδοτημένη χρήση του έργου τους στην εκπαίδευση των συστημάτων τεχνητής νοημοσύνης τους.
Γενικότερα, η διαφάνεια όσον αφορά τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση των AI μοντέλων παραμένει μια σημαντική ανησυχία, με τις εταιρείες να διστάζουν συχνά να αποκαλύψουν λεπτομέρειες.
Αναμενόμενα, λοιπόν, η χρήση περιεχομένου του YouTube για την εκπαίδευση AI μοντέλων έχει εγείρει σημαντικά νομικά και ηθικά ζητήματα. Ο διευθύνων σύμβουλος του YouTube, Neal Mohan, και ο διευθύνων σύμβουλος της Google, Sundar Pichai, είχαν δηλώσει παλιότερα ότι τέτοιες πρακτικές θα παραβίαζαν τους όρους χρήσης του YouTube. Παρόλα αυτά, για την ώρα δεν υπάρχει κάποια επίσημη τοποθέτηση σχετικά με την έρευνα του Proof News.
Σε ένα ακόμη σχετικό περιστατικό πάντως, όταν ρωτήθηκε για το αν το μοντέλο δημιουργίας βίντεο της OpenAI, το Sora, εκπαιδεύτηκε χρησιμοποιώντας βίντεο από το YouTube, η CTO της OpenAI, Mira Murati, απέφυγε να επιβεβαιώσει τις λεπτομέρειες, επικαλούμενη απλά τη χρήση δημοσίως διαθέσιμων ή αδειοδοτημένων δεδομένων. Σε περίπτωση που και η OpenAI έχει αξιοποιήσει τα δεδομένα του YouTube χωρίς άδεια, δεν αποκλείεται να δούμε κάποια μεγάλη νομική διαμάχη να ξεσπά στο άμεσο μέλλον.
Πηγή: unboxholics.com