Profil Fotoğraflar Microsoft Vasa-1 ile Canlanıyor

VASA-1, tek bir statik resim ve bir konuşma sesi klibi ile sanal karakterlerin gerçekçi konuşan yüzlerini oluşturmak için tasarlandı. Dudak hareketlerini sesle mükemmel bir şekilde senkronize etmenin yanı sıra, gerçeklik ve canlılık algısına katkıda bulunan geniş bir yüz ifadeleri ve doğal kafa hareketlerini de modelliyor.

Yalnızca gerçekçi yüz ve baş dinamikleri ile yüksek video kalitesi sunmakla kalmıyor, aynı zamanda gecikmesi yok denecek kadar az olan 512×512 çözünürlükteki videoların canlı olarak üretilmesine de olanak sağlıyor.

Anlık Görüntü

Çevrimdışı toplu işleme modunda 512×512 boyutunda video kareleri üretebilen ve 45 fps sunabilen bir performansa sahiptir. Tek bir NVIDIA RTX 4090 GPU‘lu bir masaüstü bilgisayarda 170ms’lik bir başlatma gecikmesiyle 40 fps’ye kadar desteklenebilir.

Bu, örneğin teams toplantısında tek profil fotoğrafınızı referans alarak kameranızı açmadan yüz mimiklerinizi hareketlendirebilir.

Ne düşünüyorsun?

URLuc sitesinden daha fazla şey keşfedin

Okumaya devam etmek ve tüm arşive erişim kazanmak için hemen abone olun.

Okumaya Devam Edin