Speech2Face: Učení tváře za hlasemneurální síť se učí asociace obličeje z hlasů a může konečně vytvářet tváře z hlasových záznamů. Funguje to tak špatně v detailech, že jste lidi nepoznali, ale algoritmus třídí hlasové nahrávky pozoruhodně dobře podle barvy pleti, pohlaví a věku.
Čína již používá rozpoznávání tváře AI k pronásledování muslimských menšin a je samozřejmě průkopníkem ve využívání rozsáhlých opatření dozoru. Takový algoritmus by pravděpodobně mohl identifikovat Ujgury v telefonní síti pro čínské úřady, i když používají zařízení nebo čísla, která jim nepatří. Rekonstrukce tváří z hlasů zpočátku zní zábavně, ale kategorizace davů podporovaná AI pomocí úryvků digitálních ID (jako je hlas nebo fotografie nebo videoklip nebo styl psaní) jak se již stalo) se stále více objevuje jako technologie hromadného sledování. Triky by neměly skrýt skutečnost, že tyto technologie mají to, co je zapotřebí k vytvoření dystopie, že orwellovský dohled skutečných lidí vypadá jako narozeninová oslava dítěte.
Kolik můžeme z toho, jak mluví, odvodit vzhled člověka? V tomto článku studujeme úkol rekonstrukce obrazu obličeje osoby z krátkého zvukového záznamu mluvícího člověka. Navrhujeme a trénujeme hlubokou neuronovou síť k provádění tohoto úkolu pomocí milionů přirozených videí z internetu / YouTube, kde lidé mluví. Během tréninku se náš model učí korelace hlasu a tváře, které mu umožňují vytvářet obrázky, které zachycují různé fyzické atributy mluvčích, jako je věk, pohlaví a etnická příslušnost. Děje se to způsobem s vlastním dohledem, využitím přirozeného společného výskytu tváří a řeči ve videích na internetu, aniž byste museli explicitně modelovat atributy. Vyhodnocujeme a numericky kvantifikujeme, jak - a jakým způsobem - se naše rekonstrukce Speech2Face, získané přímo ze zvuku, podobají obrazům skutečných tváří reproduktorů.