image

Baris Ozcan, DÜNYANIN İLK YAPAY ZEKA TV SUNUCUSU

Bundan 50 yıl önce 31 Ocak 1968'de Türkiye'de ilk televizyon anonsu yapıldı.Ve bundan 5 gün önce Çin'in TRT'sinden şu televizyon anonsu yapıldı. Kısaca yeni işe başladığını ve yılmadan, yorgunluk nedir bilmeden çalışacağını söylüyor. Çok güzel. Biz de kendisine yayın hayatında başarılar diliyoruz.Gerçi TRT'nin o ilk anonsunu yapan Nuran Devres Hanım da yılmadan, yorgunluk nedir demeden dizi senaryoları, romanlar yazmaya devam ediyor ama aradan geçen yarım asır ister istemez insanları değiştiriyor. İşte Çin'li sunucunun en büyük farkı bu.an> O değişmeyecek. Yaşlanmayacak.Ölmeyecek. Çünkü o insan değil. Dünyanın ilk yapay zeka sunucusu.

En azından Çin'liler öyle lanse ettiler. Ben olsam bu işin teknolojisini tanımlarken “yapay zeka” yerine “sanal kukla” deyimini kullanmayı tercih ederdim.[00:] Çünkü izlediğimiz görüntüler tümüyle yapay değil. Biri İngilizce diğeri Çince konuşan iki gerçek haber spikeri model olarak kullanılmış. Sonra da makine öğrenmesi teknikleriyle bu iki spikerin yüz ifadeleri, jestleri, mimikleri, sesleri bilgisayar tarafından incelenmiş ve bu iki sanal sunucu ortaya çıkmış.[00:]mceAudioTime'>[00:] Çin'de geçen hafta düzenlenen “Dünya İnternet Konferansı”nı sunarak görevlerine başlamışlar.

Buna benzer teknolojileri sinema ve oyun dünyasında zaten yıllardır görüyorduk.s='mceAudioTime'>[00:] Ancak burada kaçırılmaması gereken önemli bir fark var.[00:]ceAudioTime'>[00:] Orayı biraz açmam gerekecek.[00:]Time'>[00:] Bunlara “sanal kukla” demiştim ya.'mceAudioTime'>[00:] Şu anda kullandığınız cep telefonlarında da buna benzer bir sanal kukla yaratıp konuşturabilirsiniz. Tamam, mükemmel değil, ama çalışan bir konsept.='mceAudioTime'>[00:] Bu konseptlerin hepsinde yarattığınız avatarın konuşabilmesi için bir kuklacının aynı anda onu oynatması gerekiyor. Çinlilerin sanal sunucularında bu ihtiyaç ortadan kalkmış durumda.[00:]e'>[00:] Onlara ne isterlerse onu söyletebiliyorlar.[00:]ime'>[00:] Bunun için sadece haber metnini yazmaları yeterli.class='mceAudioTime'>[00:] Onu modelledikleri gerçek haber sunucuları ölse bile sanal kopyaları haber metinlerini okumaya, sunmaya devam edecek. Yılmadan. Yorgunluk nedir bilmeden…

<p>Gelelim işin biraz daha korkutucu kısmına.ass='mceAudioTime'>[00:] Çünkü bir yazıyı bir bilgisayarın okuması ya da seslendirmesi de epeyce bir zamandır gündemimizde. Text-to-Speech (yazıdan konuşmaya) teknolojisi pek çok yerde kullanılıyor. Bu araçlar kutuya yazdığınız metni düzgün bir diksiyonla okuyor.[00:]oTime'>[00:] Gördüğünüz gibi hem sanal hem de akıllı   Siz ne yazarsanız onu seslendiriyor. Bu tür teknolojilerde yine modellenen bir ses kaynağı, bir sunucu var ve ona bir dildeki tüm sesleri, heceleri ve bazen de kelimeleri okutuyorlar. Siz kutuya bir şey yazınca önceden kaydedilmiş sesler, heceler yan yana ekleniyor ve bir cümle haline geliyor. Tabiki bu kadar basit değil, işin başka incelikleri de var ama mantık genel olarak bu şekilde işliyor.[00:]ceAudioTime'>[00:][00:]pan>

Şimdi size bunun canlı bir örneğini de göstereceğim.>[00:] Eskiden çalıştığım şirket olan Adobe'de 2016'da yapılan bir demoyu izliyorsunuz. Adobe Voco adlı bu program henüz piyasaya çıkmadı, geliştirim aşamasında. Kaydedilmiş bir sesi alıp önce onu kelime kelime analiz ediyor. Yazıya dönüştürüyor.n> Sonra da söylenenleri istediğiniz gibi değiştirmeye başlıyor.[00:]mceAudioTime'>[00:] Mesela bu örnekte “karımı ve köpeklerimi öptüm” diyen adamın söylediklerini, sanki yazı yazıyormuş da onu düzeltiyormuş gibi kopyala/yapıştır yaparak değiştiriyor.<span class='mceAudioTime'>[00:] Cümleyi “Karımı ve karımı öptüm” haline getiriyor. Buraya kadar yaptıkları önceden söylenmiş bir sözü yeniden düzenlemekten ibaret. Fakat sonra alttaki metinde karısının yerine başka bir isim ve cümlenin sonuna da daha önce onun hiç söylemediği yeni bir şey daha yazıyor.[00:]eAudioTime'>[00:] Başlangıçta “karımı ve köpeklerimi öptüm” şeklinde kaydedilen cümle, “Jordan'ı üç kere öptüm” haline dönüşüyor.[00:]AudioTime'>[00:] Tehlikenin farkında mısınız beylerass='mceAudioTime'>[00:]

Adobe'nin yıllardır kullanılan Photoshop'u özellikle hanımlara çok yardımcı olmuştu. Ama şimdi bu yeni geliştirdiği teknoloji, seslerin Photoshop'u olarak pek çok erkeğin kuyusunu kazacak gibi görünüyor.[00:]oTime'>[00:] Büyük şirketler bu tür teknolojileri mutfaklarında pişiredursun, onlardan çok daha küçük şirketler, startuplar da boş durmuyor.

Bu sıkış tepiş odada çalışan gençlerin geliştirdiği ürün şu anda hazır durumda. Onu kullanabilmek için web sitesinden en az 30 tane cümle okuyorsunuz.>[00:] Bu cümleleri kaydediyor ve yaklaşık 1 dakika içinde sesinizin dijital bir klonunu yaratıyor. Ben sistemi denedim.> 30 tane cümle kaydettim./span> Ve sonra daha önce hiç söylemediğim bir şey söylemesini istedim.<span class='mceAudioTime'>[00:] Bu sistem henüz sadece İngilizce olarak çalışıyor ama siz normalde beni Türkçe konuşurken duyduğunuz için bir kaç cümle daha söylettim. Sistemi eğitme konusunda biraz yetersiz kalmış olabilirim

Bu gazeteci kendi sesiyle sistemi eğittikten sonra annesine telefon ederek test etmiş.ss='mceAudioTime'>[00:] Kadıncağız epeyce bir süre karşısında konuşanın oğlu olduğunu zannediyor. İşin nereye doğru gittiğini fark ettiniz mi?[00:]oTime'>[00:] Yakında bu tür sistemleri eğitmek için gönüllü olmanıza da gerek kalmayacak. Bir kaç dakikalık ses kaydınızı analiz eden bir yapay zeka daha sonra sizin hiç söylemediğiniz şeyleri size söyletebilecek. Nitekim az önce bahsettiğim o küçük startup Lyrebird bunu da yapmış. Başkan Obama hiç bir zaman böyle bir konuşmayı yapmadı.0:] Ama başka konuşmalarından alınan 1 dakikalık kayıt ona istediklerini söyletmek için yeterli oldu.[00:]me'>[00:]

Eğer elinizde birinin yeterli sayıda ve kalitede görüntüsü ve sesi varsa artık onu dijital bir kukla haline getirip istediğinizi yaptırabilme şansınız var.pan> Bir dakika! Bugüne kadar 350'den fazla videoyu hem de 4K çözünürlüğünde yayınladım.<span class='mceAudioTime'>[00:] Hackerlar için inanılmaz bir malzeme bu. Ya beni de…

ABD başkanı olduktan sonra yaptığım ilk konuşmayı izlediniz.0:] Üstelik bunu ben hazırlamadım. İsmini vermek istemeyen takipçilerimden biri yapmış. Anonim biri. Bana gönderdiği notta yapay zekanın eğitilmesinin yaklaşık 30 saat sürdüğünü yazmış. Neyse ki gözlüklüyüm de ortaya çıkan sonuç, benim sesimle konuşan bir Trump'tan çok “Annihilation – Yok Oluş” filmindeki yaratıklara benziyor.

Benzer bir teknikle üretilmiş başka bir örnek daha geliyor şimdi. Oyuncu Amy Adams'ı bilirsiniz. Nicolas Cage'i de bilirsiniz. Peki bu kim?

Bu tür sahte videoları hazırlamak şu anda saatler alıyor. Ama kısa sürede dakikalar içinde hatta gerçek zamanlı olarak böyle görüntüler üretmek mümkün hale gelecek. Ve tabiki beraberinde pek çok hukuki ve etik tartışmayı da getirecek. Ben o konuları başka bir videoya bırakıyorum. Bugün vurgulamak istediğim asıl konu bu değil.

“Dünyanın ilk yapay zeka sunucusu” başlığıyla haber ajanslarına geçen bu konunun kaynağı Çin. Zaten dikkatinizi çekmiştir, teknolojiyle ilgili videolarımda giderek daha fazla Çin'den bahsediyorum. Çünkü bugünlerde bilimin kaynağı genellikle Çin'de oluyor. Çünkü bizim 2023 hedefimiz gibi Çin'in de “Made in China 2025” hedefi var. Bu hedef kapsamında 2025 yılında yapay zeka konusunda dünyanın en gelişmiş ülkesi olmak istiyorlar.

“Herkes gider Mersin'e, biz gideriz tersine” temalı yorumlarınızı yaparak umutsuzluğa kapılmadan önce şunu söyleyeyim. Elbette ABD gibi Çin gibi dünyanın süper gücü olma konusunda yarışan ülkeler, ellerindeki müthiş paralarla, imkanlarla bunu başarabilirler diye düşünüyorsunuz değil mi? Ama unutmayın. En büyük kaynak insan kaynağıdır. Yapay zekayı kullanarak ses sentezleme konusunda şu anda dünyadaki en gelişmiş teknolojiyi yazanlar, kodlayanlar sizlerin yaşında, belki daha da genç üniversite öğrencileri. Ve bunlar ne ABD'de ne de Çin'de geliştirmişler bunu. Lyrebird'ün kurucularından biri olan Jose Sotelo Meksika gibi kişi başına düşen gayrisafi milli hasılası Türkiye'ye çok benzeyen bir ülkeden kalkmış Kanada'da Toronto Üniversitesi'ne gitmiş. Dünyanın başka yerlerinden kafa dengi bir kaç arkadaşıyla birlikte bu küçük startup'ı kurmuşlar. Maddi imkansızlıklara kafayı takmak yerine bu sıkış tepiş odanın içinde yazdıkları koda odaklanmışlar. Yapay zeka üzerine çalışmaya devam ediyorlar. Yılmadan, yorgunluk nedir bilmeden…

Yani sadece başarılı olmak isteyen ülkeler kendine 2023, 2025, 2030 hedefleri koymuyor. Koysa da bu hedefler ona koşacak insanlar olmadan hiçbir işe yaramaz. Başarılı olmak isteyen insanların kendine koyacağı kişisel hedefler hepsinden daha önemli. Biz daha 50 yıl önce ilk televizyon anonsunu yaptık. O anonsu yapan ve izleyen kişiler hala hayattayken şimdi bu mesleğin ortadan kaybolabileceğini gösteren bir gelişmeyi yaşıyoruz. Nicolas Cage'in sahte videoda söylediği şarkıda ne diyordu: “Başlarda korkmuştum, şok olmuştum.” Bilgimiz olmazsa bu gibi gelişmeleri gördükçe yaşayacağımız şey de bu olur. O yüzden böylesine hızlı değişen bir dünyada, sadece değişen bir kişi olmakla yetinmeyelim. Bir şekilde “survive” etmek, hayatta kalmaya çalışmak, Nicolas Cage olmak bizi kesmez. Gelecekte sadece değişen değil, “değiştiren” olmak gerek.



Want to learn a language?


Learn from this text and thousands like it on LingQ.

  • A vast library of audio lessons, all with matching text
  • Revolutionary learning tools
  • A global, interactive learning community.

Language learning online @ LingQ

Bundan 50 yıl önce 31 Ocak 1968'de Türkiye'de ilk televizyon anonsu yapıldı.Ve bundan 5 gün önce Çin'in TRT'sinden şu televizyon anonsu yapıldı. Kısaca yeni işe başladığını ve yılmadan, yorgunluk nedir bilmeden çalışacağını söylüyor. Çok güzel. Biz de kendisine yayın hayatında başarılar diliyoruz.Gerçi TRT'nin o ilk anonsunu yapan Nuran Devres Hanım da yılmadan, yorgunluk nedir demeden dizi senaryoları, romanlar yazmaya devam ediyor ama aradan geçen yarım asır ister istemez insanları değiştiriyor. İşte Çin'li sunucunun en büyük farkı bu.an> O değişmeyecek. Yaşlanmayacak.Ölmeyecek. Çünkü o insan değil. Dünyanın ilk yapay zeka sunucusu.

En azından Çin'liler öyle lanse ettiler. Ben olsam bu işin teknolojisini tanımlarken “yapay zeka” yerine “sanal kukla” deyimini kullanmayı tercih ederdim.[00:] Çünkü izlediğimiz görüntüler tümüyle yapay değil. Biri İngilizce diğeri Çince konuşan iki gerçek haber spikeri model olarak kullanılmış. Sonra da makine öğrenmesi teknikleriyle bu iki spikerin yüz ifadeleri, jestleri, mimikleri, sesleri bilgisayar tarafından incelenmiş ve bu iki sanal sunucu ortaya çıkmış.[00:]mceAudioTime'>[00:] Çin'de geçen hafta düzenlenen “Dünya İnternet Konferansı”nı sunarak görevlerine başlamışlar.

Buna benzer teknolojileri sinema ve oyun dünyasında zaten yıllardır görüyorduk.s='mceAudioTime'>[00:] Ancak burada kaçırılmaması gereken önemli bir fark var.[00:]ceAudioTime'>[00:] Orayı biraz açmam gerekecek.[00:]Time'>[00:] Bunlara “sanal kukla” demiştim ya.'mceAudioTime'>[00:] Şu anda kullandığınız cep telefonlarında da buna benzer bir sanal kukla yaratıp konuşturabilirsiniz. Tamam, mükemmel değil, ama çalışan bir konsept.='mceAudioTime'>[00:] Bu konseptlerin hepsinde yarattığınız avatarın konuşabilmesi için bir kuklacının aynı anda onu oynatması gerekiyor. Çinlilerin sanal sunucularında bu ihtiyaç ortadan kalkmış durumda.[00:]e'>[00:] Onlara ne isterlerse onu söyletebiliyorlar.[00:]ime'>[00:] Bunun için sadece haber metnini yazmaları yeterli.class='mceAudioTime'>[00:] Onu modelledikleri gerçek haber sunucuları ölse bile sanal kopyaları haber metinlerini okumaya, sunmaya devam edecek. Yılmadan. Yorgunluk nedir bilmeden…

<p>Gelelim işin biraz daha korkutucu kısmına.ass='mceAudioTime'>[00:] Çünkü bir yazıyı bir bilgisayarın okuması ya da seslendirmesi de epeyce bir zamandır gündemimizde. Text-to-Speech (yazıdan konuşmaya) teknolojisi pek çok yerde kullanılıyor. Bu araçlar kutuya yazdığınız metni düzgün bir diksiyonla okuyor.[00:]oTime'>[00:] Gördüğünüz gibi hem sanal hem de akıllı   Siz ne yazarsanız onu seslendiriyor. Bu tür teknolojilerde yine modellenen bir ses kaynağı, bir sunucu var ve ona bir dildeki tüm sesleri, heceleri ve bazen de kelimeleri okutuyorlar. Siz kutuya bir şey yazınca önceden kaydedilmiş sesler, heceler yan yana ekleniyor ve bir cümle haline geliyor. Tabiki bu kadar basit değil, işin başka incelikleri de var ama mantık genel olarak bu şekilde işliyor.[00:]ceAudioTime'>[00:][00:]pan>

Şimdi size bunun canlı bir örneğini de göstereceğim.>[00:] Eskiden çalıştığım şirket olan Adobe'de 2016'da yapılan bir demoyu izliyorsunuz. Adobe Voco adlı bu program henüz piyasaya çıkmadı, geliştirim aşamasında. Kaydedilmiş bir sesi alıp önce onu kelime kelime analiz ediyor. Yazıya dönüştürüyor.n> Sonra da söylenenleri istediğiniz gibi değiştirmeye başlıyor.[00:]mceAudioTime'>[00:] Mesela bu örnekte “karımı ve köpeklerimi öptüm” diyen adamın söylediklerini, sanki yazı yazıyormuş da onu düzeltiyormuş gibi kopyala/yapıştır yaparak değiştiriyor.<span class='mceAudioTime'>[00:] Cümleyi “Karımı ve karımı öptüm” haline getiriyor. Buraya kadar yaptıkları önceden söylenmiş bir sözü yeniden düzenlemekten ibaret. Fakat sonra alttaki metinde karısının yerine başka bir isim ve cümlenin sonuna da daha önce onun hiç söylemediği yeni bir şey daha yazıyor.[00:]eAudioTime'>[00:] Başlangıçta “karımı ve köpeklerimi öptüm” şeklinde kaydedilen cümle, “Jordan'ı üç kere öptüm” haline dönüşüyor.[00:]AudioTime'>[00:] Tehlikenin farkında mısınız beylerass='mceAudioTime'>[00:]

Adobe'nin yıllardır kullanılan Photoshop'u özellikle hanımlara çok yardımcı olmuştu. Ama şimdi bu yeni geliştirdiği teknoloji, seslerin Photoshop'u olarak pek çok erkeğin kuyusunu kazacak gibi görünüyor.[00:]oTime'>[00:] Büyük şirketler bu tür teknolojileri mutfaklarında pişiredursun, onlardan çok daha küçük şirketler, startuplar da boş durmuyor.

Bu sıkış tepiş odada çalışan gençlerin geliştirdiği ürün şu anda hazır durumda. Onu kullanabilmek için web sitesinden en az 30 tane cümle okuyorsunuz.>[00:] Bu cümleleri kaydediyor ve yaklaşık 1 dakika içinde sesinizin dijital bir klonunu yaratıyor. Ben sistemi denedim.> 30 tane cümle kaydettim./span> Ve sonra daha önce hiç söylemediğim bir şey söylemesini istedim.<span class='mceAudioTime'>[00:] Bu sistem henüz sadece İngilizce olarak çalışıyor ama siz normalde beni Türkçe konuşurken duyduğunuz için bir kaç cümle daha söylettim. Sistemi eğitme konusunda biraz yetersiz kalmış olabilirim

Bu gazeteci kendi sesiyle sistemi eğittikten sonra annesine telefon ederek test etmiş.ss='mceAudioTime'>[00:] Kadıncağız epeyce bir süre karşısında konuşanın oğlu olduğunu zannediyor. İşin nereye doğru gittiğini fark ettiniz mi?[00:]oTime'>[00:] Yakında bu tür sistemleri eğitmek için gönüllü olmanıza da gerek kalmayacak. Bir kaç dakikalık ses kaydınızı analiz eden bir yapay zeka daha sonra sizin hiç söylemediğiniz şeyleri size söyletebilecek. Nitekim az önce bahsettiğim o küçük startup Lyrebird bunu da yapmış. Başkan Obama hiç bir zaman böyle bir konuşmayı yapmadı.0:] Ama başka konuşmalarından alınan 1 dakikalık kayıt ona istediklerini söyletmek için yeterli oldu.[00:]me'>[00:]

Eğer elinizde birinin yeterli sayıda ve kalitede görüntüsü ve sesi varsa artık onu dijital bir kukla haline getirip istediğinizi yaptırabilme şansınız var.pan> Bir dakika! Bugüne kadar 350'den fazla videoyu hem de 4K çözünürlüğünde yayınladım.<span class='mceAudioTime'>[00:] Hackerlar için inanılmaz bir malzeme bu. Ya beni de…

ABD başkanı olduktan sonra yaptığım ilk konuşmayı izlediniz.0:] Üstelik bunu ben hazırlamadım. İsmini vermek istemeyen takipçilerimden biri yapmış. Anonim biri. Bana gönderdiği notta yapay zekanın eğitilmesinin yaklaşık 30 saat sürdüğünü yazmış. Neyse ki gözlüklüyüm de ortaya çıkan sonuç, benim sesimle konuşan bir Trump'tan çok “Annihilation – Yok Oluş” filmindeki yaratıklara benziyor.

Benzer bir teknikle üretilmiş başka bir örnek daha geliyor şimdi. Oyuncu Amy Adams'ı bilirsiniz. Nicolas Cage'i de bilirsiniz. Peki bu kim?

Bu tür sahte videoları hazırlamak şu anda saatler alıyor. Ama kısa sürede dakikalar içinde hatta gerçek zamanlı olarak böyle görüntüler üretmek mümkün hale gelecek. Ve tabiki beraberinde pek çok hukuki ve etik tartışmayı da getirecek. Ben o konuları başka bir videoya bırakıyorum. Bugün vurgulamak istediğim asıl konu bu değil.

“Dünyanın ilk yapay zeka sunucusu” başlığıyla haber ajanslarına geçen bu konunun kaynağı Çin. Zaten dikkatinizi çekmiştir, teknolojiyle ilgili videolarımda giderek daha fazla Çin'den bahsediyorum. Çünkü bugünlerde bilimin kaynağı genellikle Çin'de oluyor. Çünkü bizim 2023 hedefimiz gibi Çin'in de “Made in China 2025” hedefi var. Bu hedef kapsamında 2025 yılında yapay zeka konusunda dünyanın en gelişmiş ülkesi olmak istiyorlar.

“Herkes gider Mersin'e, biz gideriz tersine” temalı yorumlarınızı yaparak umutsuzluğa kapılmadan önce şunu söyleyeyim. Elbette ABD gibi Çin gibi dünyanın süper gücü olma konusunda yarışan ülkeler, ellerindeki müthiş paralarla, imkanlarla bunu başarabilirler diye düşünüyorsunuz değil mi? Ama unutmayın. En büyük kaynak insan kaynağıdır. Yapay zekayı kullanarak ses sentezleme konusunda şu anda dünyadaki en gelişmiş teknolojiyi yazanlar, kodlayanlar sizlerin yaşında, belki daha da genç üniversite öğrencileri. Ve bunlar ne ABD'de ne de Çin'de geliştirmişler bunu. Lyrebird'ün kurucularından biri olan Jose Sotelo Meksika gibi kişi başına düşen gayrisafi milli hasılası Türkiye'ye çok benzeyen bir ülkeden kalkmış Kanada'da Toronto Üniversitesi'ne gitmiş. Dünyanın başka yerlerinden kafa dengi bir kaç arkadaşıyla birlikte bu küçük startup'ı kurmuşlar. Maddi imkansızlıklara kafayı takmak yerine bu sıkış tepiş odanın içinde yazdıkları koda odaklanmışlar. Yapay zeka üzerine çalışmaya devam ediyorlar. Yılmadan, yorgunluk nedir bilmeden…

Yani sadece başarılı olmak isteyen ülkeler kendine 2023, 2025, 2030 hedefleri koymuyor. Koysa da bu hedefler ona koşacak insanlar olmadan hiçbir işe yaramaz. Başarılı olmak isteyen insanların kendine koyacağı kişisel hedefler hepsinden daha önemli. Biz daha 50 yıl önce ilk televizyon anonsunu yaptık. O anonsu yapan ve izleyen kişiler hala hayattayken şimdi bu mesleğin ortadan kaybolabileceğini gösteren bir gelişmeyi yaşıyoruz. Nicolas Cage'in sahte videoda söylediği şarkıda ne diyordu: “Başlarda korkmuştum, şok olmuştum.” Bilgimiz olmazsa bu gibi gelişmeleri gördükçe yaşayacağımız şey de bu olur. O yüzden böylesine hızlı değişen bir dünyada, sadece değişen bir kişi olmakla yetinmeyelim. Bir şekilde “survive” etmek, hayatta kalmaya çalışmak, Nicolas Cage olmak bizi kesmez. Gelecekte sadece değişen değil, “değiştiren” olmak gerek.


×

We use cookies to help make LingQ better. By visiting the site, you agree to our cookie policy.