Tehno
StoryEditor

Eksplozija sintetičkih podataka

13. Ožujak 2022.

Rupe u znanju umjetne inteligencije (AI-ja), koja prečesto dokazuje svoju pristranost (pa se uhićuju nevini ili podcjenjuju ljudi 'pogrešne' boje kože), mogli bi bar malo popraviti sintetički podaci. Upravo takve umjetne skupove podataka, tj. računalno generirane uzorke s istim statičkim karakteristikama kakve ima pravi skup, analitičari izdanja MIT Technology Review proglasili su jednom od top 10 revolucionarnih tehnologija ove godine.

Opisuju kako se ti lažnjaci mogu upotrebljavati za obuku umjetne inteligencije u područjima u kojima su stvarni podaci oskudni ili previše osjetljivi da bi se upotrebljavali, kao što je slučaj s medicinskom dokumentacijom ili osobnim financijskim podacima. Podsjećaju na to kako su lani istraživači neprofitne organizacije Data Science Nigeria primijetili da inženjeri koji žele trenirati algoritme računalnog vida mogu birati između mnogo skupova podataka koji sadržavaju zapadnjačku odjeću, ali nije bilo nijednoga za afričku.

Problem su riješili upotrebom AI-ja za generiranje umjetnih slika afričke mode – stvoriviši potpuno nov skup podataka. Sintetički podaci već se upotrebljavaju u automobilskoj industriji kad autonomni automobili uče voziti po virtualnim ulicama, ali postaju široko rasprostranjeni. Nudi ih mnogo startupova i sveučilišta pa npr. tvrtke Datagen i Synthesis AI na zahtjev isporučuju digitalna ljudska lica. Sve više kompanija nudi sintetičke podatke za financijski sektor i osiguranja. MIT-ov Data to AI Lab prošle je godine pak pokrenuo 'Synthetic Data Vault', projekt koji omogućuje alate otvorenoga koda gotovo pa i neznalicama.

04. svibanj 2024 15:50