AI KUUNTELI IHMISTEN ääNIä. SITTEN SE LOI HEIDäN KASVOT.

Send

Oletko koskaan rakentanut mielenkuvan henkilöstä, jota et ole koskaan nähnyt, pelkästään hänen äänensä perusteella? Keinotekoinen älykkyys (AI) voi nyt tehdä tämän, tuottaa digitaalisen kuvan ihmisen kasvot käyttämällä vain lyhyttä äänileikettä viitteeksi.

Nimenä Speech2Face, hermoverkko - tietokone, joka "ajattelee" samalla tavalla kuin ihmisen aivot - tutkijat kouluttivat miljoonissa koulutusvideoissa Internetistä, jotka osoittivat yli 100 000 eri ihmistä puhuvan.

Tästä aineistosta Speech2Face oppi yhdistymiä ääni-vihkojen ja tiettyjen fyysisten ominaisuuksien välillä ihmisen kasvossa, tutkijat kirjoittivat uudessa tutkimuksessa. Sitten AI käytti äänileikettä mallinmaan ääntä vastaava fotorealistinen kasvo.

Havainnot julkaistiin verkossa 23. toukokuuta esipainetussa arXiv-julkaisussa, eikä niitä ole vertaisarvioitu.

Onneksi AI ei (vielä) tiedä tarkalleen miltä tietty henkilö näyttää pelkästään heidän äänensä perusteella. Neuraaliverkko tunnisti tietyt merkit puheessa, jotka osoittivat sukupuolta, ikää ja etnisyyttä, piirteitä, jotka ovat yhteisiä monille ihmisille, tutkimuksen kirjoittajat kertoivat.

"Sellaisena malli tuottaa vain keskimäärin näyttäviä kasvoja", tutkijat kirjoittivat. "Se ei tuota kuvia tietyistä henkilöistä."

AI on jo osoittanut, että se voi tuottaa epäselvästi tarkkoja ihmisen kasvoja, vaikka sen tulkinnat kissoista ovat rehellisesti sanoen hieman kauhistuttavia.

Speech2Facen tuottamat kasvot - kaikki edessä ja neutraaleilla ilmeillä - eivät vastanneet tarkalleen äänten takana olevia ihmisiä. Mutta kuvat kaapasivat tutkimuksen mukaan yleensä oikeat ikäryhmät, etniset ryhmät ja sukupuolet.

Algoritmin tulkinnat olivat kuitenkin kaukana täydellisestä. Speech2Face osoitti "sekoitettua suorituskykyä" kohdatessaan kielivaihteluita. Esimerkiksi kun AI kuunteli kiinaa puhuvan aasialaisen miehen äänileikettä, ohjelma tuotti kuvan aasialaisista kasvoista. Kun sama mies puhui englantia eri äänileikkeellä, AI aiheutti valkoisen miehen kasvot, tutkijat kertoivat.

Algoritmi osoitti myös sukupuolten puolueellisuuden, yhdistäen matalat äänet miespuolisiin kasvoihin ja korkeat äänet naispuolisiin kasvoihin. Ja koska harjoitustiedot edustavat vain YouTuben koulutusvideoita, tutkijat kirjoittivat, että ne "eivät edusta yhtä lailla koko maailman väestöä".

Toinen huolenaihe tästä videotiedostosta heräsi, kun YouTube-videoon ilmestynyt ihminen yllätti oppiessaan, että hänen kaltaisuutensa oli sisällytetty tutkimukseen, Slate kertoi. Nick Sullivan, San Franciscon Internet-tietoturvayhtiön Cloudflaren salauksen johtaja, huomasi yllättäen kasvonsa yhtenä esimerkistä, jota käytettiin Speech2Facen kouluttamiseen (ja jonka algoritmi oli toistanut melko suunnilleen).

Sullivan ei ollut suostunut ilmoittautumiseen tutkimukseen, mutta tämän tietoaineiston YouTube-videoita pidetään laajalti tutkijoiden käytettävissä käytettävissään ilman lisäoikeuksia hankkimalla, Slate mukaan.

Send