DEMET İLCE / MUHABİR

Voice Engine, insan seslerini gerçekçi bir şekilde kopyalayıp, metinleri seslere çevirebilen bir OpenAI modeli. Bu model ile okuma yardımı, içerik çevirisi, konuşma bozukluklarına sahip kişilere yardım etme gibi amaçlar hedefleniyor. Fakat 15 saniyelik bir örnekle gerçek bir insan sesini ayırt edilemeyecek şekilde kopyalayabilmesinden dolayı siber tehdit tehlikesi ile karşı karşıyayız. Siber Güvenlik Uzmanı Osman Demircan, Voice Engine’ın olası sonuçlarını Diriliş Postası’na anlattı…

1- OpenAI, Voice Engine ismini verdiği yeni bir ses üretme aracından genel olarak bahsedebilir misiniz?

2022 yılında başlatılmış bir çalışma bu aslında. O yıllarda çıkış noktaları okuma yardımcısı görevi görebilecek daha basit formda çalışan bir uygulamaydı. Chatgpt nin yaygınlaşması ve Chatgpt dışında kalan birçok geliştiricinin Chatgpt dil modeline kendi ses sistemlerini entegre etmesi OpenAI firmasının bu alandaki fırsatları görmesine neden oldu. Voice Engine benzer şekilde çalışan yüzlerce ses klon uygulamasının en büyük problemi olan klonlanan sesin yapay özelliklere sahip olması sorununun giderilmiş üst düzey bir versiyonu. Örnek bir ses dosyası tanıtıldığında sessin birebir kopyası yaratılabiliyor. Bu üstün özelliği daha da üstün hale getiren ise bu duygusal ve gerçekçi sesleri ana dili olan İngilizcenin yanında diğer dillerde de gerçekleştirebiliyor olması. Bunun için 15sn lik bir ses örneği ve okuması istenecek metin yeterli. Gayet basit bir şekilde çalışıyor.

2-Voice Engine ne gibi riskler taşıyor, hangi sorunlar ile karşılaşabiliriz?

Genel kullanıcıların kullanımına henüz sunulmamış olan Voice Engine uygulamasının test versiyonuna erişimi olan kullanıcılar için de illegal kullanımların önüne geçmek için sözleşmesini baştan düzenleyerek onaya sundu. Bu şekilde test kullanıcıları herhangi bir kişi ya da kurumun yerine geçip orijinal konuşmaymış gibi içerikler oluşturmalarının önlenmesi hedefleniyor. Daha test aşamasındayken sözleşmeyi güncelleme ihtiyacı hissediyor olmaları aslında arka tarafta çok büyük siber tehditlerin yolunu açma potansiyeline sahip bu uygulama olmasından kaynaklanıyor. Voice Engine öncesi çok sayıda uygulama zaten bu işlevi yapıyordu. Seslerin kararsız olması bir sorundu ama birçok deepfake videolarında kullanıldılar ve maalesef insanlar bunlara inandı. En yakın örneğini bu yılın başında Joe Biden'ı taklit ederek insanları ön seçimlerde oy kullanmamaya teşvik eden deepfake videousunda kullanılan ses Voice Engine den daha profesyonel olmamasına rağmen insanlar tarafından kabul görmüştü. Yapay zekanın bu olumsuzlukları, yapay zeka ile üretilen ses ve görüntünün kusursuzlaşması ile çok daha ciddi tehditler yaratacaktır. OpenAi’ın chatgpt’si, geçen ay tanıttıkları video oluşturma programı Sora ve ses clonlama uygulaması Voice Engine ile birlikte yepyeni siber tehditlerin kapılarını açabilir. Siber zorbalıktan müstehcen görüntülerin oluşturulması, otoritelerin ve liderlerin hiç yapmadıkları konuşma ve söylemleri gerçeğinden ayıramayacağımız kusursuzlukta oluşturulması toplumsal olarak ciddi bir risk barındırıyor. Ayrıca klon sesler ile telefonda yazılı metinlerin farklı duygu halleri ile karşıda bir insan varmış gibi birçok dolandırıcılık faaliyetinde de kullanılacaktır. Özellikle telefon bankacılığı ile ilgili dünya genelinde bankacılık sisteminde dolandırıcılara karşı ek önlemler de mutlaka gündeme gelecektir düşüncesindeyim.

Doğu Karadeniz'de heyelanları erken tespit edebilmek için dronlu radar projesi hazırlandı Doğu Karadeniz'de heyelanları erken tespit edebilmek için dronlu radar projesi hazırlandı

3 - Voice Engine ile neler hedefleniyor, ne gibi faydaları olabilir?

ChatGpt dil modeli ile insana çok yakın yanıtları text olarak verebilmesi ve bunun başarısının ardından Voice Engine ile bu başarının sese de aktarılmış olması sohbet temelli yapay zekaların hayatımıza daha hızlı girmesini sağlayacaktır. Bunun yanın zekası olmayan robotik sentetiklerin Chatgpt ile zeka kazanması ve voice engine ile insan sesine en yakın hatta birebir kopyası bir ses ile bilginin yanında duyguyu da aktarabilmesi önümüzdeki günlerde sentetik robotların iş kollarında ve normal hayatta sokaklarda görülmesi süreçlerini hızlandıracaktır.  Örneğin insan kaynakları süreçlerinde kullanılan yapay zeka şuan bir bilgisayar ekranı ile soru cevap şeklinde eleme yapabiliyor. Voice Engine ile aynı yapay zeka teknolojisi insansı ses ile mülakatlar yapabilecek. Hatta bir insanın işe alımını bir robot ilerleyen gerçekleştiriyor olabilir. Elbette sinema ve televizyonculuk sektörü de bu gelişmeden olumlu ve olumsuz anlamda nasibini alacaktır. Görsel ve işitsel olarak üretim sağlayan sinema ve televizyon sektörü bilgisayar ortamında kendi oyuncu ya da ekran yüzlerini yaratabilir. Bugün hem görüntü hem de ses olarak düşük kalitede ve duygusuz olarak yapılan işler Voice Engine ile yepyeni bir dünyanın gerçek anlamda kendi oyuncuları ile yeni medyanın kapılarını açabilir. Bir diğer olumlu gelişme ise sosyal medyada yer alan içerik üreticilerinin ürettikleri içerikleri çok hızlı bir şekilde yayınlamalarında ciddi yardımcı uygulamalardan biri olacaktır Voice Engine. Hüzünlü, duygusal ya da heyecanlı seslerin üretiliyor olması ve bunların gerçek insan sesine en yakın ses olması içerik üreticileri için tercih sebebi olacaktır.

Muhabir: Demet İlce