Bu ses kimin sesi?
Kasım 2022. Günümüzden yaklaşık 1,5 yıl önce ChatGPT tanıtıldı. Bu gelişme ile hayatımızın gündemine oturan üretken yapay zekâ araçları, başlarda yalnızca metin ve kısıtlı düzeyde görsel üretebilirken; bugün karmaşık matematiksel hesaplamalardan üç boyutlu görsellere, etkileyici sunumlardan kısa film çekmeye yetecek derecede videolara kadar sayısız alanda faaliyet göstermeye başladı. Özellikle GPTs modellerinin gelişmesiyle beraber, bu çeşitliliğin önü daha da açılmış oldu. Sayılamayacak kadar fazla özelliğin yanında, bu yazımızda yapay zekânın seslendirme ve müzik konularındaki yeteneklerinden bahsedeceğiz. Ele alacağımız başlıca teknolojiler RVC, Heygen ve Suno isimli uygulamalar olsa da her biri için her gün onlarca alternatif sunulduğu da akıllardan çıkarılmamalıdır.
Son günlerde eminim hepimiz, sosyal medyada yahut video izleme platformlarında yapay zekâ ile oluşturulmuş seslendirilmelere denk gelmişizdir. Ünlü insanların seslerini kullanarak matematik anlatan videolar yahut animasyon karakterlerine türkü söyleten içerikler, sıklıkla paylaşılmaktadır. Söz konusu içeriklerin altında yatan teknoloji, kabaca ses klonlama olarak tanımlanabilir. Ses klonlama modellerinin arka planında onlarca katman ve karmaşık sinir ağları görev alsa da çalışma mantığı oldukça basittir. Kısaca anlatmak gerekirse ses klonlama için elimizde iki adet girdi olmalıdır. Bunlardan birisi klonlamak istediğimiz ses, örneğin kendi sesimiz olabilir. Diğeri ise hedef ses, yani sesimizin benzemesini istediğimiz kişinin sesi, X kişisinin sesi diyelim. Bu noktada X kişisinin izni olmadan yapılan tüm işlemlerin hem etik açıdan hem de bilişim yasaları gereğince yanlış olduğunu belirtmekte fayda var. Ancak yazımızın ilerleyen kısımlarında buna detaylıca değineceğiz.
Bahsedilen iki dosyaya sahip olduktan sonra yapılması gereken tek şey, yapay zekâ modeline girdi ve hedef olarak bu dosyaları yüklemek ve “pitch” değerini uygun şekilde ayarlamak. Pitch değeri, girdi ve hedef sesler arasındaki benzerliği ifade eden bir parametre olarak düşünülebilir. Örneğin eğer kalın bir erkek sesi, ince bir kadın sesine dönüştürülecekse bu değer -12 olarak ayarlanmalıdır. Uygun değerlere kısa bir internet taramasıyla ulaşılabilir. Ayarlamalar yapıldıktan sonra ses dosyasının uzunluğuna göre işlem yaklaşık olarak dört ila beş saniye içerisinde tamamlanacaktır. Sonuç olarak neredeyse ayırt edilemeyecek derecede kendi sesinizin X kişisinin sesine dönüşmüş bir kopyasını elde edersiniz.
Yukarıda anlatılan ses klonlama sürecinde iki önemli nokta vardır: Hedef sesin formatı ve klonlamayı yapacak olan yapay zekâ modeli. Tam bu noktada RVC v2 modeli devreye girmektedir. RVC (RecurrentNeural Network Voice Conversation) modeli, kendisine verilen bir sesi ön işleme, öğrenme ve dönüşüm süreçlerine tabi tutan bir derin öğrenme modelidir. Bir başka ifadeyle klonlama esnasında kullanılacak olan hedef ses dosyasının da RVC modeliyle oluşturulması gerekmektedir. Burada kendi hedef seslerinizi üretmek için tamamen ücretsiz ve açık kaynak kodlu olan RVC v2 kütüphanesini kullanabilir yahut hâlihazırda üretilmiş hedef sesleri, basit bir Google aramasıyla bulabilirsiniz. Sonrasındaki süreç, en başta anlatılan ile birebir aynıdır.
Ses klonlama teknolojisi ile ilk temasımız mizahi içerikler olsa da bu teknoloji çok geniş bir kullanım alanına sahiptir. Bunlardan en ilgi çekici olanı, belki de HeyGen isimli yapay zekâ modeli olabilir. Esas nitelik olarak bir video üretme aracı olan HeyGen, videolar içerisinde canlı olarak farklı dillere tercüme seçeneği sunar. 40’tan fazla dilde video üretmeye imkân sağlayan bu yapay zekâ modeli, aynı zamanda konuşmacının ağız ve dudak hareketlerini de konuşulan dile uygun bir şekilde yeniden düzenler. İstenilen dilde kendi sesinizle konuşmanızı mümkün kılmakla beraber, 300’den fazla yabancı konuşmacının sesi de kullanılabilir. Bu sayede üretilen içeriklerin küresel anlamda izlenmesinin önü açılmış olur ve dil, bir şeyler öğrenmenin önündeki engel olmaktan çıkar.
Belgesel seslendirmelerinden şiir dinletilerine, mizahi içeriklerden dil çevirilerine kadar birçok alanda işlere yardımcı olan ses klonlama modellerini kullanırken, her daim dikkat edilmesi gereken bir konu vardır: etik. Unutulmamalıdır ki kişiye ait birçok veri gibi ses de özel ve mahrem bir veri türüdür. Hayatımızı kolaylaştıran yapay zekâ modellerini kullanırken etik ve ahlak kuralları elden bırakılmamalıdır. Korkulan, tartışılan, her gün sayısız itiraza maruz kalan üretken yapay zekâ üzerindeki kontrolün kaybedilmemesinin bir yolu da bu tür etik kurallara riayet etmekten geçmektedir.
Üretken yapay zekânın ses ile irtibatı, elbette yalnızca ses klonlamadan ibaret değildir. Güncel gelişmelerden biri olarak Suno isimli yapay zekâ modeli, hiçbir enstrüman yahut program kullanmaya gerek kalmadan son derece kaliteli klipler ve şarkılar üretmeye olanak sağlamaktadır. Enstrümantal veya sözlü şarkı üretme seçeneklerinden birini seçebileceğiniz gibi, şarkıya ait duyguların (neşeli, hüzünlü, sakin, eğlenceli vb.) ve şarkı türünün (pop, rock, rap, arabesk, klasik müzik vb.) seçilmesi de mümkündür. İsterseniz sözünü yazdığınız bir şarkının, bu model sayesinde bestelenmesini sağlayabilirsiniz. Aynı sözlerin farklı türlerdeki versiyonlarını görebilir, her biri için farklı klipler elde edebilirsiniz. Bunların hepsini yapay zekânın yapmasını dilerseniz birkaç kelime ile kafanızdakini tarif ederek, buna en uygun söz ve müziğin oluşum sürecini izleyebilirsiniz. En ince noktasına kadar insanı hayrete düşüren bu yapay zekâ modelini her gün ücretsiz olarak beş defa kullanabilir ve tamamen kendi zevkinize göre oluşturulmuş bu şarkılardan bir çalma listesi bile oluşturabilirsiniz. Üstelik Suno ile üretilen tüm müzikler, ticari olmamak şartıyla telifsiz ürünlerdir.
Üretken yapay zekânın görsel üretme yeteneklerine henüz tam anlamıyla alışamamışken, ses üzerine yaptıkları oldukça hayret ettiren cinsten. İlerleme hızına yetişmek mümkün olmasa da hep birlikte nereye kadar evrileceğini bekleyerek göreceğiz. Sizler de bu süreçte RVC ve Suno modellerini deneyebilir ve şaşırtıcı eserler ortaya çıkarabilirsiniz. Yapay zekâ bu kadar ilerlemişken, sanıyorum ki yapılabilecekler yalnızca hayal gücüyle sınırlandırılmış durumda.