Η χρήση διαλόγων από ταινίες και σειρές του Hollywood για την εκπαίδευση συσκευών AI έχει γίνει σημερινό φαινόμενο, και μάλιστα χωρίς τη συναίνεση των δημιουργών τους. Μεγάλες εταιρείες όπως η Apple, η Meta, η Nvidia και η Anthropic εκμεταλλεύονται τη μάζα δεδομένων που προέρχεται από περισσότερες από 53.000 ταινίες και 85.000 επεισόδια σειρών, συμπεριλαμβανομένων εμβληματικών δειγμάτων όπως το The Godfather, το Seinfeld, το The Wire και το Breaking Bad.
Οι υπότιτλοι που αντλούνται από την πλατφόρμα OpenSubtitles.org προσφέρουν ένα πολύτιμο εργαλείο ανάπτυξης καθώς αποτυπώνουν τον φυσικό ρυθμό των διαλόγων. Αυτό τους καθιστά ιδανικούς για την εκπαίδευση τεχνητής νοημοσύνης στο να μιμείται τις ανθρώπινες συνομιλίες με ρεαλιστικότερο τρόπο. Πολλές εταιρείες αξιοποιούν αυτούς τους δεδομένους υπότιτλους για να αναπτύξουν AI που μπορεί να “μιλήσει” πιο φυσικά, και έχουν χρησιμοποιηθεί σε μοντέλα όπως το Claude, το OPT και το NeMo Megatron.
Η διαδικασία αυτή δημιουργεί σημαντικά θέματα γύρω από τα πνευματικά δικαιώματα και τις ευθύνες των δημιουργών. Παρά τις δηλώσεις ορισμένων επιχειρήσεων όπως η Salesforce που υποστηρίζουν ότι τα δεδομένα δεν προορίζονται για εμπορικές εφαρμογές, αρκετά από τα μοντέλα είναι ήδη διαθέσιμα ως ανοιχτού κώδικα, διευκολύνοντας την εκτενή χρήση τους σε διάφορες πλατφόρμες, συμπεριλαμβανομένων των εργαλείων δημιουργίας περιεχομένου.
Ορισμένες εταιρείες έχουν παραδεχτεί ότι χρησιμοποιούν αυτά τα δεδομένα, ενώ άλλες προτιμούν να μην το σχολιάσουν. Αυτές οι αποκαλύψεις έχουν πυροδοτήσει μια έντονη συζήτηση αναφορικά με την ηθική πτυχή της χρήσης δημιουργικών έργων για την εκπαίδευση AI, ιδιαίτερα καθώς η τεχνολογία αυτή προχωρά και ενδέχεται να θέσει σε κίνδυνο πολλές θέσεις εργασίας στον τομέα της δημιουργικής απασχόλησης.