Yine başlıyoruz:Apple ve Nvidia dahil olmak üzere dev şirketler, binlerce YouTube içerik üreticisinin görüntü transkriptlerini izin veya tazminat olmadan yapay zeka eğitimi için kullandı. Haber o kadar da şaşırtıcı değil çünkü bu normal görünüyor. Telif hakkıyla korunan materyalin etik olmayan kullanımında Microsoft, Google, Meta ve OpenAI’nin saflarına katılıyor.
Proof News tarafından yapılan bir araştırma, Anthropic, Nvidia, Apple ve Salesforce gibi en zengin AI şirketlerinden bazılarının AI modellerini eğitmek için binlerce YouTube videosundan materyal kullandığını ortaya çıkardı. Bu uygulama, platformdan izinsiz veri toplamayı yasaklayan YouTube’un hizmet şartlarıyla doğrudan çelişiyor ancak Google, OpenAI ve diğerleri tarafından belirlenen bir eğilimi takip ediyor.
“YouTube Altyazıları” olarak adlandırılan veri, “Yığın” olarak adlandırılan daha büyük bir veri kümesinin alt kümesidir. Khan Academy, MIT ve Harvard gibi eğitim içeriği sağlayıcılarının yanı sıra The Wall Street Journal, NPR ve BBC gibi popüler medya kuruluşlarını kapsayan 48.000’den fazla kanaldan 173.536 YouTube videosundan alınan transkriptleri içerir. Önbellekte “Stephen Colbert ile Geç Şov” gibi eğlence programları bile bulunur. MrBeast, Jacksepticeye ve PewDiePie gibi YouTube megastarlarının bile önbellekte içeriği vardır.
Proof News Katılımcısı Alex Reisner geçen yıl The Pile’ı ortaya çıkardı. Telif hakkıyla korunan kitaplardan ve akademik makalelerden çevrimiçi konuşmalara ve YouTube Kapalı Altyazı transkriptlerine kadar her şeyin parçalarını içeriyor. Reisner, bulguya yanıt olarak, IP sahiplerinin AI şirketlerinin sistemlerini eğitmek için çalışmalarını kullanıp kullanmadıklarını bilmeleri gerektiğini düşündüğü için içeriğin aranabilir bir veritabanını oluşturdu.
“Toplum olarak AI’nın nasıl inşa edildiğini bilmiyorsak AI hakkında konuşmamızın zor olduğunu düşünüyorum,” dedi Reisner. “YouTube içerik oluşturucularının çalışmalarının kullanıldığını bilmek isteyebileceğini düşündüm. Ayrıca internette herhangi bir yerde video, fotoğraf veya yazı yayınlayan herkes için de önemli çünkü şu anda AI şirketleri ellerine geçen her şeyi kötüye kullanıyor.”
// İlgili Öyküler
- YouTube, telif hakkıyla korunan müzikleri temiz bir şekilde kaldırmak için yapay zeka destekli bir araç tanıttı
- Yeni kamera tabanlı sistem, sürücülerin yüzlerini kontrol ederek alkol kullanımını tespit edebiliyor
“The David Pakman Show”un sunucusu David Pakman, hayal kırıklığını dile getirerek, veri setinde yaklaşık 160 videosunu bulduğunu açıkladı. Bu transkriptler kanalından alınmış, saklanmış ve bilgisi olmadan kullanılmış. Kanalında dört tam zamanlı çalışanı destekleyen Pakman, yapay zeka şirketleri çalışmalarından maddi olarak faydalanırsa tazminat almayı hak ettiğini savundu. İçeriğini oluşturmak için harcanan önemli çaba ve kaynakları vurguladı ve yetkisiz kullanımı hırsızlık olarak nitelendirdi.
“Kimse gelip bana ‘Bunu kullanmak istiyoruz’ demedi,” dedi Pakman. “Bu benim geçim kaynağım ve bu içeriği oluşturmak için zaman, kaynak, para ve personel zamanı harcadım. Gerçekten iş sıkıntısı yok.”
Yaratıcıya ait yayın hizmeti Nebula’nın CEO’su Dave Wiskus, bu duyguyu tekrarlayarak uygulamayı saygısız ve sömürücü olarak nitelendirdi. Üretken AI’nın potansiyel olarak sanatçıların yerini alabileceği ve yaratıcı sektöre zarar verebileceği konusunda uyardı. Sorunu daha da karmaşık hale getiren şey, Associated Press gibi bazı büyük içerik üreticilerinin AI yaratıcılarıyla kazançlı anlaşmalar imzalaması, daha küçük olanların ise çalışmalarının haber verilmeden çalınmasıdır.
Soruşturma, EleutherAI’nin The Pile veri kümesinin arkasındaki şirket olduğunu ortaya koydu. Belirtilen amacı, son teknoloji AI teknolojilerini herkesin kullanımına sunmaktır. Ancak, yöntemleri etik endişelere yol açıyor – özellikle büyük AI oyuncularıyla yapılan gizli anlaşmalar. Apple ve Nvidia gibi trilyonlarca dolarlık teknoloji devleri de dahil olmak üzere çeşitli AI geliştiricileri, modellerini eğitmek için The Pile veri kümesini kullandı. İlgili şirketlerin hiçbiri yorum taleplerine yanıt vermedi.
Yasa koyucular, AI’nın getirdiği çeşitli tehditlere yanıt vermekte yavaş davrandılar. Yıllarca süren deepfake teknolojisi ilerlemeleri ve suistimallerinden sonra, ABD Senatosu sonunda deepfake ve AI suistimalini engellemek için “İçerik Kaynağı Koruma ve Düzenlenmiş ve Deepfake Medyadan Bütünlük Yasası” veya KOPYALANMIŞ Yasası olarak adlandırılan bir yasa tasarısı sundu. Yasa tasarısı, AI gelişiminin kanunî ve etik gri alanı için bir çerçeve oluşturmayı amaçlıyor. Diğer şeylerin yanı sıra şeffaflık ve internet kazıma yoluyla fikri mülkiyetin yaygın şekilde çalınmasına son vermeyi vaat ediyor.
