Почетна » Наука » Да ли је будућност препознавања лица у рукама синтетичких идентитета?

Синтетичка лица – ново оружје против пристрасности и крађе података

Да ли је будућност препознавања лица у рукама синтетичких идентитета?

Вештачка интелигенција дуго је била оптуживана за систематске грешке које дискриминишу одређене демографске групе. Препознавање лица некада је било један од најгорих примера.

За беле мушкарце било је изузетно прецизно. За друге, стопа грешака могла је бити и сто пута већа. Та пристрасност имала је стварне последице — од немогућности откључавања мобилног телефона до неправедних хапшења због погрешних поклапања у систему за препознавање лица.

Последњих неколико година тај јаз у тачности драматично се смањио. „На блиским растојањима системи за препознавање лица готово су савршени,“ каже Сјаомин Лиу, компјутерски научник са Универзитета Мичиген у Ист Ленсингу. Најбољи алгоритми данас достижу готово 99,9 процената тачности, без обзира на боју коже, године или пол.

Ипак, висока прецизност има своју цену: приватност појединца. Компаније и истраживачке институције покупиле су милионе лица са интернета како би обучиле моделе за препознавање, често без пристанка људи. Не само да су ти подаци украдени, већ ова пракса потенцијално отвара врата крађи идентитета и прекомерном надзору.

Један изненађујући предлог све више добија на популарности: коришћење синтетичких лица за обуку алгоритама.

Синтетичка лица као ново решење

Ове компјутерски генерисане слике изгледају стварно, али не припадају стварним људима. Приступ је још у раној фази; модели обучени на овим „дипфејковима“ и даље су мање прецизни од оних обучених на стварним лицима.

Али неки истраживачи верују да ће, како генеративна АI технологија напредује, синтетички подаци заштитити приватност а задржати фер третман и прецизност.

„Свако, без обзира на боју коже, пол или године, треба да има једнаку шансу да буде исправно препознат,“ каже Кетан Котвал, компјутерски научник из Истраживачког института Идиап у Швајцарској.

Како АI препознаје лица

Напредно препознавање лица постало је могуће тек 2010-их година, захваљујући новој врсти архитектуре дубоког учења — конволутивним неуронским мрежама (CNN). Оне обрађују слике кроз више узастопних слојева математичких операција. Рани слојеви препознају једноставне обрасце као што су ивице и кривине, док каснији комбинују ове сигнале у сложеније карактеристике, попут облика очију, носа и уста.

У модерним системима лице се најпре открије на слици, затим ротира, центрира и скалира у стандардан положај. CNN затим проналази јединствене обрасце и кондензује их у вектор — листу бројева — који се назива шаблон. „То је у суштини ваш број социјалног осигурања,“ каже Лиу.

Да би све ово било могуће, CNN се најпре обучава на милионима фотографија истих особа у различитим условима — осветљењу, угловима, удаљености, са или без додатака. Тако мрежа учи да поставља шаблоне истих особа ближе једне другима у свом математичком простору, а различите да удаљава.

Овај принцип омогућава два главна типа алгоритама

„Jедан-према-један“: да ли сте заиста оно што тврдите (као откључавање телефона или провера на аеродрому),

„Jедан-према-многи“: ко сте (систем претражује базу да би нашао поклапање).

Студија која је изазвала скандал

Године 2018. једна студија изазвала је скандал: у комерцијалним алгоритмима за класификацију лица, што је кожа тамнија, грешке су биле чешће. Чак су и познате црнкиње класификоване као мушкарци — Мишел Обаму је тако окарактерисао Mајкрософт, а Опрy Винфри Амазон.

Фацијална класификација мало се разликује од препознавања — уместо да потврди идентитет, она додељује категорију (нпр. мушко или женско). Али суштински проблем остаје исти: алгоритам мора да извади и интерпретира карактеристике лица.

Годину дана касније, Национални институт за стандарде и технологију (NIST) потврдио је налазе. Након тестирања скоро 200 алгоритама, установљено је да је тачност идентификације азијских и црних лица и до сто пута нижа него за бела лица.

Ове грешке имају избиљне последице

Ове грешке имају озбиљне последице: најмање осам погрешних хапшења догодило се због препознавања лица, а седам од њих били су црнци.

„Пристраност у моделима препознавања лица је проблем података,“ каже Анубав Џеин са Универзитета у Њујорку. Рани скупови података садржали су далеко више белих мушкараца него других група, па су модели били бољи у њиховом разликовању.

Данас, захваљујући боље избалансираним скуповима, јачим рачунарима и паметнијим функцијама губитка, системи су достигли готово савршену прецизност. Према тестовима NIST-а, стопа грешке је од 2018. опала за више од 90 одсто.

Приватност као нови изазов

Након открића пристрасности, IBM је покушао да створи нови скуп података „Diversity in Faces“, са више од милион фотографија означених по раси, полу и другим атрибутима. Али фотографије су скинуте са Flickra без пристанка аутора, што је изазвало велику критику.

Слично томе, компанија Clearview AI сакупила је преко 60 милијарди слика са друштвених мрежа, опет без сагласности. Такви биометријски базe података носе огромне ризике — од крађе идентитета до масовног надзора.

Могу ли лажна лица да реше проблем?

Један од могућих одговора су управо синтетичка лица. Захваљујући истим техникама које стоје иза дипфејка, истраживачи могу да генеришу нове, нереалне идентитете и тако заобиђу проблем приватности.

Да би се направио скуп синтетичких података, прво се генерише једно лажно лице, а затим му се додају варијације — другачији углови, осветљење, додаци. Иако генератори и даље морају да се тренирају на хиљадама стварних слика, то је далеко мање од милиона који су потребни за директну обуку алгоритама.

Студија из 2023. показала је да модели обучени на демографски уравнотеженим синтетичким сетовима података смањују пристрасност ефикасније него они тренирани на реалним скуповима исте величине.

Ипак, просечна тачност тих модела и даље је нижа — око 75 одсто, у поређењу са 85 одсто на стварним подацима. Главни разлози су ограничен број јединствених идентитета које генератор може да створи и чињеница да синтетичке слике често изгледају „студијски чисто“, без реалних услова као што су сенке или замућења.

Поглед у будућност

Истраживачи сада планирају хибридни приступ: коришћење синтетичких података за учење општих карактеристика лица, а затим дообуку на реалним сликама добијеним уз пристанак.

Иако је идеја синтетичких података стара тек од 2023, брз напредак генеративне АI даје наду да ће овај метод значајно смањити ризике по приватност.

Али тачност је мач са две оштрице. Ако је систем непрецизан — он штети. Ако је превише прецизан — постоји ризик од претераног ослањања и масовног надзора.

„Ако користите мање тачан систем, вероватно ћете пратити погрешне људе,“ каже Котвал. „Зато, ако већ имамо систем, боље је да он буде тачан и поуздан.“

Извор: Univeristy of Michigan, Science News

Превод и припрема: Редакција Компас инфо
Повезани чланци:

Портал Компас Инфо посебну пажњу посвећује темама које се тичу друштва, економије, вере, културе, историје, традиције и идентитета народа који живе у овом региону. Желимо да вам пружимо објективан, балансиран и прогресиван поглед на свет око нас, као и да подстакнемо на размишљање, дискусију и деловање у правцу бољег друштва за све нас.