Marx.ba
Shvatite potencijalne aplikacije i ograničenja generiranja sintetičkih podataka pomoću AI modela. Ideja o “sintetičkim podacima”, ili umjetno generiranim informacijama, nedavno je izazvala pomutnju. Podaci su ogromna prednost za preduzeća u ovom dobu, a znanje često pruža odlučujuću konkurentsku prednost. Ideja o lakom dobijanju besplatnih podataka izazvala je ekstravagantne tvrdnje i kontroverze.
Mnogi su u startu oduševljeni, ali stvarnost je malo nijansiranija sa sintetičkim podacima. Iako svakako ne možemo prestati sa prikupljanjem podataka i „samo pitajte model“, postoje neke fascinantne srednje upotrebe podataka generiranih umjetnom inteligencijom. A razumna upotreba ovih podataka može pomoći u vođenju vašeg poslovanja naprijed. U ovoj situaciji nema besplatnog ručka, ali postoji barem mogućnost komplementarne strane.
Da biste bolje razumjeli mogućnosti koje se otvaraju sa sintetičkim podacima, tu su neke opcije možete koristiti za generiranje novih podataka. Ovo nisu jedini dostupni, ali su danas najčešći pristupi.
1. Direktno postavljanje upita
Prvi način je onaj koji ljudi najčešće povezuju s idejom sintetičkih podataka – a to je direktno postavljanje upita. Kada ste prvi put koristili ChatGPT ili neki od drugih AI chat robota — vjerovatno je postojao trenutak kada ste sebi rekli: „Čekaj malo. Mogu da intervjuišem ovo baš kao što bih to uradio sa ispitanikom u istraživanju,” i podesiti sistemski prompt („Vi ste učesnik generacije Z koji je strastven za RPG…”) i nastaviti sa postavljanjem pitanja. Rad sa ovom vrstom podataka može brzo postati problematičan ili neuvidljiv jer skupovi podataka za obuku mogu biti stari.
Odgovori mogu biti pristrasni ili imati neprikladna gledišta koja se lako mogu pojaviti. Osim toga, veliki dio podataka o obuci za ove modele dolazi od usluga kao što je Reddit, koji mogu imati pikantnije rezultate nego što biste željeli u vlastitim podacima. Osim ovih crvenih zastavica, glavni problem s ovom vrstom podataka je da su dosadni. Po samoj svojoj prirodi, on daje uvjerljive odgovore zasnovane na amalgamu svoje obuke. Stoga, ima tendenciju da proizvede očigledne odgovore – potpuno suprotno od uvida koji obično tražimo. Iako direktno ispitivanje LLM-ova može biti zanimljivo, generiranje sintetičkih podataka velikih razmjera na ovaj način vjerovatno nije najbolje rješenje.
2. Povećanje podataka
Možemo otići dalje od upita podataka kroz drugi način, koji koristi modele za izdvajanje podataka iz podataka koje im donosite – koji se često naziva povećanje podataka. Ova metoda koristi snagu zaključivanja i sažimanja LLM-ova. Ipak, umjesto da bazirate izlaz isključivo na originalnim podacima o obuci, vi koristite modele kako biste pomogli u analizi vlastitih podataka kako biste generirali perturbaciju kao da su originalni podaci. Proces izgleda otprilike ovako. Prvo, morate znati podatke koje unosite u tabelu. Možda su to podaci dobiveni iz internog sistema, primarnog istraživanja, dobavljača treće strane od povjerenja ili iz segmentacije ili priloženog poželjnog ponašanja.
Nakon što shvatite izvor vaših podataka, možete koristiti LLM da analizirate i pružite više podataka sa kompatibilnim karakteristikama. Ovaj pristup mnogo više obećava i pruža vam kontrolu koju sami ne možete dobiti od LLM-a. Novi modeli nam omogućavaju da generišemo likove na način na koji nikada ranije nismo mogli. Ovo omogućava povećanje ili generiranje podataka koji ostaju dosljedni i uporedivi s poznatim podacima koje već imamo. Često je ovakva količina podataka od pomoći kada testirate sisteme ili istražujete neke rubove s kojima bi sistem mogao da obrađuje. Također se može koristiti za pružanje istinski anonimnih podataka za demonstracije ili prezentacije.
3. Prekvalifikacija podataka
Konačno, treći način generiranja sintetičkih podataka je zadržavanje modela koji direktno predstavlja podatke koje imamo. Pristup “svetog grala” uzimanja modela i izvođenja prilagođenog finog podešavanja skupa podataka postoji već dugo vremena, ali je do nedavno jednostavno uzimao previše resursa i bio je preskup da bi bio razumna opcija za većinu . Ali tehnologije se menjaju. Prevalencija manjih, ali modela visokih performansi (tj. LLaMA, Orca i Mistral) zajedno sa nedavnim revolucionarnim pristupima finom podešavanju (tj. Parameter Efficient Fine Tuning, ili PEFT, i LoRa, QLoRa i DoRa sestre) znači da mi može efikasno i efikasno proizvesti visoko prilagođene modele obučene na našim podacima. Ovo će vjerovatno biti tehnike koje zaista čine da sintetički podaci blistaju – barem u bliskoj budućnosti. Iako nema besplatnog ručka, a opasnosti od pristranosti, dosade i kružnog razmišljanja su vrlo stvarne – mogućnosti sintetičkih podataka čine ga vrlo uvjerljivim. A kada se pravilno iskoristi, može stvoriti efikasnost i eksponencijalne mogućnosti.