Dijital ikiz: Microsoft gerçekçi videolar oluşturmak için yapay zekayı tanıttı

30 Nisan 2024

Microsoft’un yeni bir sinir ağı var. Yapay zeka VASA-1, fotoğraflara ve ses dosyalarına dayalı olarak gerçekçi konuşan karakterler oluşturmanıza olanak tanır. Avatarın dudak hareketleri ses ile senkronizedir. Teknoloji, daha fazla doğallık sağlayan çok çeşitli duyguları yeniden üretebilir. Şirket, vicdansız kullanıcıların platformu gerçek insanları gösteren videoları düzenlemek için kullanabileceğini itiraf ediyor. Izvestia, yeni yapay zekayla dolandırıcılıkta bir patlama beklenip beklenmeyeceğini anladı.

Gerçekçiliğe vurgu

Microsoft Şirketi sundu yeni sinir ağı VASA. Platform, statik görüntülere ve ses kayıtlarına dayalı olarak görsel-duygusal becerilere (yüz ifadeleri ve beden dili) sahip sanal karakterlerin gerçekçi yüzlerini oluşturmanıza olanak tanır.

“Bizim İlk VASA-1, yalnızca sesle mükemmel şekilde senkronize edilmiş dudak hareketleri üretmekle kalmıyor, aynı zamanda özgünlük ve canlılık yaratılmasına katkıda bulunan çok çeşitli yüz nüanslarını ve doğal baş hareketlerini de yakalıyor.“, Microsoft vurguluyor.

Yeni yöntem yüksek kaliteli video sağlar. Saniyede 40 kare hızında 512×512 videoların çevrimiçi oluşturulmasını destekler. Bu, insan konuşmalarını taklit eden avatarlarla gerçek zamanlı etkileşim kurmanıza olanak tanır. Yayında bir gecikme var ancak şirket bunun önemsiz olduğunu tahmin ediyor.

Fotoğraf: IZVESTIA/Eduard Kornienko

Microsoft, gerçek kişilerin görüntülerini kullanmadan sanal etkileşimli karakterlerin görsel duygusal becerilerini inceliyor. Ürün demo görselleri StyleGAN2 ve DALL·E-3 kullanılarak oluşturuldu.

Şirket, yeni yapay zekanın aldatmak için kullanılacak içeriklere yönelik olmadığının garantisini veriyor. Fakat Microsoft, bazı kullanıcıların bu teknolojiyi başkalarının kimliğine bürünmek için kullanabileceğini göz ardı etmiyor.

Şirket, “Gerçek insanları yanıltan veya onlara zarar veren içerik oluşturmayı amaçlayan her türlü davranışa karşı çıkıyoruz ve sahte ürünleri daha etkili bir şekilde tespit etmek için teknolojimizi kullanmakla ilgileniyoruz” dedi.

Çalışma prensibi

VASA-1’in çalışma prensibi, daha sonra sentezlenmiş yüz ve insan hareketleriyle gerçekçi videoların oluşturulması için fotoğraf ve ses kayıtlarının analizine dayanmaktadır.diyor Napolyon BT Operasyonları Direktörü Evgeny Zhornitsky.

Sinir ağının yaratıcıları, doğrudan video kareleri oluşturmak yerine, yüz ve kafa hareketlerinin tüm dinamiklerini, ses ve diğer sinyallerle yönlendirilen, özel olarak sıkıştırılmış bir dijital temsilde yeniden üretir.Kaspersky Lab kıdemli veri bilimcisi Dmitry Anikin şöyle açıklıyor:

— Daha sonra, yazarlar bu tür sıkıştırılmış bir gösterimden yüz görüntüsünün çerçevelerini elde edebilirler. Daha sonra hareketi simüle etmek için, karelerden son video dizisini oluşturan yayılma mekanizmasına dayalı özel bir modern sinir ağı mimarisi kullanılır.diye belirtiyor.

bilgisayara bakan kız biyometri sinir ağı yapay zeka

Fotoğraf: IZVESTIA/Eduard Kornienko

Zhornitsky, bir kişinin yüzünü ve duygularını doğru bir şekilde yeniden yaratmak için bir sinir ağının büyük miktarda veri üzerinde eğitilmesi gerektiğine dikkat çekiyor.

Microsoft teknolojisi türünün tek örneği değil. Mobile Research Group’un önde gelen analisti Eldar Murtazin, bugün insan hareketini simüle etmenize olanak tanıyan bir dizi algoritmanın bulunduğunu vurguluyor. Duyguları, jestleri, ses tınısını ve konuşmayı kopyalamaktan bahsediyoruz. Yani sinir ağları, bir kişinin tam teşekküllü bir benzerliğinin yaratılmasına yaklaşıyor.

— Bu tür teknolojiler, şirketlerin ihtiyaçlarına göre karıştırdığı çeşitli algoritmalar üzerinde çalışmaz. Bunun yerine, yüz ifadelerini, baş ve dudak hareketlerini zaman içinde oldukça güvenilir bir şekilde eski haline getiren düzinelerce farklı ürün var” diye açıklıyor uzman.

Fotoğraf: IZVESTIA/Dmitry Korotaev

Kryptonit konuşma işleme ve sentez başkanı Svetlana Koreshkova, benzer platformların doğrudan görüntü ve sesten video kareleri oluşturduğunu belirtiyor.

– Fakat VASA-1 temelde yeni ve ileri bir teknolojidir. Bu durumda AI modeli iki bölüme ayrılmıştır. Öncelikle ek bir sinir ağının yardımıyla görüntü ve ses gizli alana taşınıyor. Koşullu vektörler, konuşulanlara karşılık gelmesi için dudakların nasıl hareket etmesi gerektiği ve yüz ifadelerinin nasıl olması gerektiği hakkında bilgi sağlar. Daha sonra ikinci difüzyon modeli video kareleri üretirdiye vurguluyor.

Başarılı bir şekilde üretilmiş bir videonun birkaç temel alanda yüksek doğruluk göstermesi gerekir: görüntü çerçevelerinin netliği ve doğruluğu, ses ve dudak senkronizasyonu, ifadesel ve duygusal yüz dinamikleri ve doğal kafa pozları. İşlem, bakış yönü ve kafadan kameraya olan mesafe gibi ek verileri içerebilir.

Uygulama alanları

Her şeyden önce gerçekçi videolar oluşturmak, sanal gerçekliği geliştirmek ve kişiselleştirilmiş içerik geliştirmek için yeni teknolojiye ihtiyaç var.diyor Evgeniy Zhornitsky.

Sinir ağı artırılmış gerçeklikte (AR) de aktif olarak kullanılacakSvetlana Koreshkova ikna oldu. Onun yardımıyla konferanslara katılım, video görüşmeleri sırasında ve blog çekerken kullanılmak üzere sanal avatarlar oluşturulacak.

İzvestia’nın muhatabı, “VASA-1 bizi, yapay zekanın dijital avatarlarıyla etkileşimin gerçek insanlarla aynı olacağı bir geleceğe yaklaştırıyor” diye inanıyor.

Dmitry Anikin’e göre platform, çizgi film karakterlerine hayat vererek animasyonda yaygın olarak kullanılabilir.

— Orijinal makalede yazarlar, var olmayan insanların sinir ağı tarafından oluşturulan yüzlerini kullanıyor ve onlara hayat veriyor.

Fotoğraf: TASS/Anton Novoderezhkin

Bu tür var olmayan “aktörleri” kullanmak reklam veya sinema oluştururken faydalı olabilirUzman şunu belirtiyor:

Geliştirilen modeller video oyunlarının geliştirilmesinde de etkili olacak.diye ekliyor Eldar Murtazin.

Analist, “Teknolojinin yardımıyla hem oyun içi karakterler hem de yeni kalite standartları oluşturacak belirli sanal kişilikler yaratıyoruz” diye belirtiyor. Ona göre diğer bir seçenek de modelleri televizyonda spiker olarak kullanmak.

Koreshkova’ya göre yeni teknoloji, dijital iletişimi zenginleştirebilir, iletişim bozukluğu olan kişiler için erişilebilirliğini artırabilir ve ayrıca sağlık hizmetlerinde terapötik destek ve sosyal etkileşim sağlayabilir.

Kötülüğe dönüş

Eldar Murtazin, Deepfakes’in (yapay zekaya dayalı bir görüntü sentezleme tekniği) uzun süredir dolandırıcılar tarafından kullanıldığını hatırlatıyor. Saldırganlar, mağdura daha fazla güven aşılamaya yardımcı olacak sesleri taklit etmelerine veya tam teşekküllü videolar oluşturmalarına olanak tanıyan teknolojileri geliştiren ilk kişilerdir.

Analist şöyle bir örnek veriyor: “Tanımadığın bir numaradan bir çağrı veya mesaj alıyorsun; arkadaşın ya da hatta bir akraban sana tanıdık bir sesle bir şeyler söylüyor.”

Fakat Yakın gelecekte Microsoft teknolojisini kullanan bir dolandırıcılık dalgasından korkmanıza gerek yokDmitry Anikin emin. Sinir ağı henüz kullanıcılara ücretsiz olarak sunulmamaktadır.

Fotoğraf: IZVESTIA/Dmitry Korotaev

— Teknik sınırlamalar da mevcut; örneğin model şu anda bir insan figürünü yalnızca gövdeye kadar canlandırabiliyor. Bu nedenle, bu teknolojinin sahtekarlık amacıyla deepfake oluşturmak için kullanılmasından bahsetmek için henüz çok erken. – uzman diyor.

Yazarlar sorumlu yapay zeka geliştirme konusunda kararlıdırlar ve sinir ağının sorumlu bir şekilde kullanılacağından emin olana kadar yalnızca çevrimiçi bir demoyu değil aynı zamanda API’yi, ek uygulama ayrıntılarını ve ilgili önerileri de yayınlamayı planlamıyorlar.Svetlana Koreshkova dikkat çekiyor.

Kendinizi nasıl korursunuz?

Yüksek kaliteli sahte bir videoyu gerçek olandan ayırmak neredeyse imkansızdır.Eldar Murtazin’i uyarıyor. Sahte deepfake’lerin bir kademesi var. Bazıları kötü yapılmış, ancak inanılabilir. Bu durumda, sahte olanı tanımlamanın zor olduğu sahte videolar veya fotoğraflar vardır: Mağdur, iyi tanıdığı bir kişiyle konuştuğundan tamamen emin olacaktır.

Kendinizi saldırganlardan korumak için öncelikle dikkatli olmanız ve alternatif kaynakları kullanarak bilgileri tekrar kontrol etmeniz önemlidir.Dmitry Anikin’i tavsiye ediyor.

görüntülü arama adam iş arkadaşları kadın

Fotoğraf: Getty Images/JulPo

— Microsoft makalesinden oluşturulan videolarda bazen kafa hareketi sırasında doğal olmayan bir yumuşaklık fark edebilirsiniz. Ayrıca cildin tonuna ve aşırı pürüzsüzlüğüne, gözlerdeki parlaklık ve yansıma eksikliğine ve dişlerin görünümüne de dikkat etmelisiniz.” diye belirtiyor uzman.

Evgeny Zhornitsky’ye göre sahte bir videoyu gerçek olandan ayırmak için: aydınlatma, gölgeler, hareket, ses kalitesi gibi detaylara daha yakından bakabilirsiniz vesaire.

— Ayrıca videonun kaynağını ve orijinalliğini de kontrol edebilirsiniz. Videoların orijinalliğini belirlemeye yönelik özel araçların yakında ortaya çıkacağını düşünüyorum” diye belirtiyor İzvestia’nın muhatabı.

gözlüklü bir adam, bir hacker, monitöre bakıyor

Fotoğraf: IZVESTIA/Anna Selina

Kafatasının, burnun ve kulakların şekline, boyutlarına ve gözlerin şekline daha yakından bakmaya değer.Svetlana Koreshkova listeye devam ediyor.

“Ancak çarpıklıkların ancak detaylı ve dikkatli analizlerle görülebileceğini unutmamak gerekiyor. Bu yüzden Her türlü yeni ve olağandışı bilgiyi eleştirmek mantıklıdır. Belirtilen kaynağı ve özü iki kez kontrol etmek gerekirdiye vurguluyor.

Bir video görüşmesi durumunda, aboneye sorular sorarak kontrol etmeye değer; cevabı yalnızca belirli bir kişi tarafından bilinen bilgiler olacaktır.Murtazin’e tavsiyede bulunuyor.

– Bu sayede yaşayan bir kişinin, tanıdığınız ya da akrabanızın değil, bir botun, robotun ya da programın sizinle konuştuğunu anlayabilirsiniz. Analist, “Bunu belirlemek çok kolay olacak” diye ikna olmuş durumda.

Haber Azerbaycan

30 Nisan 2024