Početna » Nauka » Da li je budućnost prepoznavanja lica u rukama sintetičkih identiteta?

Sintetička lica – novo oružje protiv pristrasnosti i krađe podataka

Da li je budućnost prepoznavanja lica u rukama sintetičkih identiteta?

Veštačka inteligencija dugo je bila optuživana za sistematske greške koje diskriminišu određene demografske grupe. Prepoznavanje lica nekada je bilo jedan od najgorih primera.

Za bele muškarce bilo je izuzetno precizno. Za druge, stopa grešaka mogla je biti i sto puta veća. Ta pristrasnost imala je stvarne posledice — od nemogućnosti otključavanja mobilnog telefona do nepravednih hapšenja zbog pogrešnih poklapanja u sistemu za prepoznavanje lica.

Poslednjih nekoliko godina taj jaz u tačnosti dramatično se smanjio. „Na bliskim rastojanjima sistemi za prepoznavanje lica gotovo su savršeni,“ kaže Sjaomin Liu, kompjuterski naučnik sa Univerziteta Mičigen u Ist Lensingu. Najbolji algoritmi danas dostižu gotovo 99,9 procenata tačnosti, bez obzira na boju kože, godine ili pol.

Ipak, visoka preciznost ima svoju cenu: privatnost pojedinca. Kompanije i istraživačke institucije pokupile su milione lica sa interneta kako bi obučile modele za prepoznavanje, često bez pristanka ljudi. Ne samo da su ti podaci ukradeni, već ova praksa potencijalno otvara vrata krađi identiteta i prekomernom nadzoru.

Jedan iznenađujući predlog sve više dobija na popularnosti: korišćenje sintetičkih lica za obuku algoritama.

Sintetička lica kao novo rešenje

Ove kompjuterski generisane slike izgledaju stvarno, ali ne pripadaju stvarnim ljudima. Pristup je još u ranoj fazi; modeli obučeni na ovim „dipfejkovima“ i dalje su manje precizni od onih obučenih na stvarnim licima.

Ali neki istraživači veruju da će, kako generativna AI tehnologija napreduje, sintetički podaci zaštititi privatnost a zadržati fer tretman i preciznost.

„Svako, bez obzira na boju kože, pol ili godine, treba da ima jednaku šansu da bude ispravno prepoznat,“ kaže Ketan Kotval, kompjuterski naučnik iz Istraživačkog instituta Idiap u Švajcarskoj.

Kako AI prepoznaje lica

Napredno prepoznavanje lica postalo je moguće tek 2010-ih godina, zahvaljujući novoj vrsti arhitekture dubokog učenja — konvolutivnim neuronskim mrežama (CNN). One obrađuju slike kroz više uzastopnih slojeva matematičkih operacija. Rani slojevi prepoznaju jednostavne obrasce kao što su ivice i krivine, dok kasniji kombinuju ove signale u složenije karakteristike, poput oblika očiju, nosa i usta.

U modernim sistemima lice se najpre otkrije na slici, zatim rotira, centrira i skalira u standardan položaj. CNN zatim pronalazi jedinstvene obrasce i kondenzuje ih u vektor — listu brojeva — koji se naziva šablon. „To je u suštini vaš broj socijalnog osiguranja,“ kaže Liu.

Da bi sve ovo bilo moguće, CNN se najpre obučava na milionima fotografija istih osoba u različitim uslovima — osvetljenju, uglovima, udaljenosti, sa ili bez dodataka. Tako mreža uči da postavlja šablone istih osoba bliže jedne drugima u svom matematičkom prostoru, a različite da udaljava.

Ovaj princip omogućava dva glavna tipa algoritama

„Jedan-prema-jedan“: da li ste zaista ono što tvrdite (kao otključavanje telefona ili provera na aerodromu),

„Jedan-prema-mnogi“: ko ste (sistem pretražuje bazu da bi našao poklapanje).

Studija koja je izazvala skandal

Godine 2018. jedna studija izazvala je skandal: u komercijalnim algoritmima za klasifikaciju lica, što je koža tamnija, greške su bile češće. Čak su i poznate crnkinje klasifikovane kao muškarci — Mišel Obamu je tako okarakterisao Majkrosoft, a Opry Vinfri Amazon.

Facijalna klasifikacija malo se razlikuje od prepoznavanja — umesto da potvrdi identitet, ona dodeljuje kategoriju (npr. muško ili žensko). Ali suštinski problem ostaje isti: algoritam mora da izvadi i interpretira karakteristike lica.

Godinu dana kasnije, Nacionalni institut za standarde i tehnologiju (NIST) potvrdio je nalaze. Nakon testiranja skoro 200 algoritama, ustanovljeno je da je tačnost identifikacije azijskih i crnih lica i do sto puta niža nego za bela lica.

Ove greške imaju izbiljne posledice

Ove greške imaju ozbiljne posledice: najmanje osam pogrešnih hapšenja dogodilo se zbog prepoznavanja lica, a sedam od njih bili su crnci.

„Pristranost u modelima prepoznavanja lica je problem podataka,“ kaže Anubav Džein sa Univerziteta u Njujorku. Rani skupovi podataka sadržali su daleko više belih muškaraca nego drugih grupa, pa su modeli bili bolji u njihovom razlikovanju.

Danas, zahvaljujući bolje izbalansiranim skupovima, jačim računarima i pametnijim funkcijama gubitka, sistemi su dostigli gotovo savršenu preciznost. Prema testovima NIST-a, stopa greške je od 2018. opala za više od 90 odsto.

Privatnost kao novi izazov

Nakon otkrića pristrasnosti, IBM je pokušao da stvori novi skup podataka „Diversity in Faces“, sa više od milion fotografija označenih po rasi, polu i drugim atributima. Ali fotografije su skinute sa Flickra bez pristanka autora, što je izazvalo veliku kritiku.

Slično tome, kompanija Clearview AI sakupila je preko 60 milijardi slika sa društvenih mreža, opet bez saglasnosti. Takvi biometrijski baze podataka nose ogromne rizike — od krađe identiteta do masovnog nadzora.

Mogu li lažna lica da reše problem?

Jedan od mogućih odgovora su upravo sintetička lica. Zahvaljujući istim tehnikama koje stoje iza dipfejka, istraživači mogu da generišu nove, nerealne identitete i tako zaobiđu problem privatnosti.

Da bi se napravio skup sintetičkih podataka, prvo se generiše jedno lažno lice, a zatim mu se dodaju varijacije — drugačiji uglovi, osvetljenje, dodaci. Iako generatori i dalje moraju da se treniraju na hiljadama stvarnih slika, to je daleko manje od miliona koji su potrebni za direktnu obuku algoritama.

Studija iz 2023. pokazala je da modeli obučeni na demografski uravnoteženim sintetičkim setovima podataka smanjuju pristrasnost efikasnije nego oni trenirani na realnim skupovima iste veličine.

Ipak, prosečna tačnost tih modela i dalje je niža — oko 75 odsto, u poređenju sa 85 odsto na stvarnim podacima. Glavni razlozi su ograničen broj jedinstvenih identiteta koje generator može da stvori i činjenica da sintetičke slike često izgledaju „studijski čisto“, bez realnih uslova kao što su senke ili zamućenja.

Pogled u budućnost

Istraživači sada planiraju hibridni pristup: korišćenje sintetičkih podataka za učenje opštih karakteristika lica, a zatim doobuku na realnim slikama dobijenim uz pristanak.

Iako je ideja sintetičkih podataka stara tek od 2023, brz napredak generativne AI daje nadu da će ovaj metod značajno smanjiti rizike po privatnost.

Ali tačnost je mač sa dve oštrice. Ako je sistem neprecizan — on šteti. Ako je previše precizan — postoji rizik od preteranog oslanjanja i masovnog nadzora.

„Ako koristite manje tačan sistem, verovatno ćete pratiti pogrešne ljude,“ kaže Kotval. „Zato, ako već imamo sistem, bolje je da on bude tačan i pouzdan.“

Izvor: Univeristy of Michigan, Science News

Prevod i priprema: Redakcija Kompas info
Povezani članci:

Portal Kompas Info posebnu pažnju posvećuje temama koje se tiču društva, ekonomije, vere, kulture, istorije, tradicije i identiteta naroda koji žive u ovom regionu. Želimo da vam pružimo objektivan, balansiran i progresivan pogled na svet oko nas, kao i da podstaknemo na razmišljanje, diskusiju i delovanje u pravcu boljeg društva za sve nas.