Mislav
Generatori teksta u sliku: Umjetna inteligencija mijenja kreativni svijet
Dovoljan je kratak tekst da se stvori slika kakva nikada prije nije postojala. Hoće li softveri poput Dall-E 2, Midjourney i Stable Diffusion uskoro neka kreativna zanimanja učiniti suvišnima?
Potrebna je samo jedna rečenica. “Isus i Marija slikaju selfie u Disneylandu.” Ili nekoliko riječi opisa: “Wall Street od šećerne vune.” Ili, za naprednije, neka izmišljena glupost: “Portret stogodišnjaka koji je heklao portal na druga dimenzija, renesansno ulje na platnu.«
Potrebno je 30 sekundi da se pretvori u sliku. Vizualizacija napisanog, u potpunosti stvorena umjetnom inteligencijom (AI), bez potrebe za ljudskom kreativnošću, zanatom ili čak umijećem u trenutku stvaranja slike. Pojavljuju se nevjerojatne slike. Djela, kako god ih zvali, za koje bi ljudima trebalo višestruko vrijeme.
Tehnički izraz za ove spektakularne nove alate je u najboljem slučaju dosadan: generatori teksta u sliku. Već nekoliko mjeseci u neizvjesnosti drže start-upove, tehnološke tvrtke, Silicijsku dolinu i cijelu kreativnu industriju. Smatraju se novom velikom stvari. Istraživači ih opisuju kao prekretnicu u polju strojnog učenja, potpodručja umjetne inteligencije.
Programi se zovu Dall-E 2, Stable Diffusion, Midjourney, Craiyon ili Google Imagen , a svi rade nešto slično. Svaki opis upisan u tekstualni okvir pretvorit će se u sliku za nekoliko trenutaka. Nova, tek »izmišljena«. S kojim umjetna inteligencija konačno ulazi u područje koje ljudi još uvijek posjeduju za sebe - ne samo prepoznavanje obrazaca, već zapravo stvaranje nečeg novog. Tehnička revolucija. Stroj kao Picasso.
Ugodna soba, ambijentalno svjetlo, velika biljka
Razvoj napreduje vrtoglavom brzinom. Obrisi onoga što će tehnologija jednog dana biti moguće tek se naziru, no filmski i televizijski producenti već su naelektrizirani mogućnostima, a mijenjaju se i metode rada ilustratora i dizajnera, fotografa i umjetnika. Počela je rasprava o tome što će u budućnosti još biti umjetnost, a što je kreativnost.
I kao sa svakom novom tehnologijom, potraga za komercijalnim primjenama počinje odmah. Kako ovu umjetnu inteligenciju za slikanje unijeti u svakodnevni softver koji koriste milijuni ljudi? I kako spriječiti da ti programi postanu generatori horora, alati za serijsku proizvodnju motiva mržnje i ilegalnih slika?
»Oglašivačka industrija će se radovati«
Nicolay Mausz je potpuno izvan sebe. “U IT svijetu, ovo je najluđa stvar koja mi se ikada dogodila u mojih više od 20 godina u poslu”, kaže informatičar i vlasnik softvera za leteće pse sa sjedištem u dvorcu Quassel u Mecklenburg-Western Pomeranija. Trenutak usporediv sa slijetanjem na Mjesec. On sam radije radi sa Stable Diffusion. Model su razvili istraživači umjetne inteligencije na Ludwig-Maximilians-Universität (LMU) i sada je odgovornost tvrtke Stability AI, koja je nedavno prikupila 101 milijun dolara rizičnog kapitala.
Za preuzimanje softvera i korištenje kod kuće dovoljno je računalo sa snažnom grafičkom karticom. Posebnost: kod je javan, svatko ga može kopirati i dalje razvijati. “U prva četiri tjedna gotovo da nisam spavao i programirao dan i noć”, izvještava Mausz. Rezultat je, prema njegovim riječima, bila prva stabilna difuzijska ekstenzija za poznati grafički program Photoshop tvrtke Adobe, koju sada prodaje po početnoj cijeni od 89 dolara.
Mauszov softver ubrzava rad dizajnera poput turbopunjača, pretvarajući grube skice u gotovo fotorealistične nacrte u Photoshopu. Generatori umjetne inteligencije, siguran je, “imat će veliki utjecaj na dizajn proizvoda, na dizajn interijera, na modu”. “Oglašivačka industrija također će biti sretna, oni će raditi samo s njom, odmah od faze ideje”.
Proces podučavanja strojeva ovom nevjerojatnom prividu kreativnosti prilično je tehnički uključen. U osnovi, modeli umjetne inteligencije naučili su uklanjati šum na slikama. Kako bi to učinili, istraživački timovi ubacili su milijune slika uključujući tekstualne opise u modele kao podatke za obuku. Slike su namjerno učinjene neprepoznatljivima u različitim fazama: optički šum je položen preko slika sloj po sloj, dok se na kraju nisu mogle vidjeti samo snježne vjetrove. Zadatak umjetne inteligencije tada je bio obrnuti proces, odnosno prepoznati i ukloniti šum na slikama. Na taj način AI uči generirati sliku bez šuma koja odgovara kratkom, opisnom tekstu – tada je samo mali korak do stvaranja slika iz teksta.
Ako unesete opis u tekstualno polje modela, AI počinje s potpuno šumnom slikom. Jezični model kodira naredbu i prenosi je u višedimenzionalni matematički prostor. Postoji bezbroj klastera i koordinata za crvenilo, okruglost, glatkoću, na primjer. Ali i puno specifičnije pojmove poput lepršavosti, bananastičnosti, adutosti. Tada na scenu stupa uvježbani model difuzije, dekoder. Pretvara ove koordinate u slike bez šuma.
»U početku sam bio totalno entuzijastičan i ujedno sam mislio: super. U svakom slučaju, to mnoge ljude čini nezaposlenima”, kaže Julian Schleef. Ovaj 37-godišnjak vodi odjel za dizajn i postprodukciju u Bildundtonfabriku, tvrtki sa sjedištem u Kölnu s 94 zaposlenika koja proizvodi Netflixove dokumentarce, TV emisije, serije i računalne igre. Više od 15 godina Schleef radi s 3D i grafičkim programima kako bi ideje iz ljudskih glava prenio na zaslone. Gotovo svi njihovi koncepti započinju istraživanjem: »Kakvo raspoloženje prenosi sadržaj? Kako bi takav set mogao izgledati? Što vidite u ploči scenarija?” Generatori umjetne inteligencije imaju sve što je potrebno za potpunu transformaciju kreativnih procesa njegovog tima. »Ovo je nevjerojatan alat koji vam omogućuje brzo dobivanje rezultata koji odgovaraju raspoloženju.«
◁ Fotografija svijeta iz snova. to je prekrasan krajolik. detalj je nevjerojatan. jednostavno zapanjujuće. isus, crkva, savršena lica, nuri iyem, james gurney, james jean, greg rutkowski, anato finnstark, isus krist
vrlo detaljna epska kinematografska konceptualna umjetnost CG render digitalna slika umjetničko djelo: Cybernetic core. Napisao Greg Rutkowski, u stilu Francisa Bacona i Syd Meada i Normana Rockwella i Beksinskog, otvoreni strop, vrlo detaljan, oslikao Francis Bacon i Edward Hopper, oslikao James Gilleard, nadrealizam, zračni kist, Ilya Kuvshinov, WLOP, Stanley Artgerm, vrlo koherentna, trijadna shema boja, umjetnost Takato Yamamoto i James Jean
◁ Vrlo detaljna epska kinematografska konceptualna umjetnost CG render digitalna slika umjetničko djelo: Cybernetic core. Napisao Greg Rutkowski, u stilu Francisa Bacona i Syd Meada i Normana Rockwella i Beksinskog, otvoreni strop, vrlo detaljan, oslikao Francis Bacon i Edward Hopper, oslikao James Gilleard, nadrealizam, zračni kist, Ilya Kuvshinov, WLOP, Stanley Artgerm, vrlo koherentna, trijadna shema boja, umjetnost Takato Yamamoto i James Jean
Međukoraci smanjenja buke uz Stable Diffusion »portret mlade, samouvjerene, perzijske kraljice duge smeđe kose, zlatnog reza, okružene simetričnim paprati, autor Ernst Haeckel«
I u takozvanoj stock fotografiji za generičke motive, simbolične fotografije mogle bi se zamijeniti računalnim slikama. Honorari za te subjekte u međuvremenu su iznosili nekoliko centi, “ionako teško da bilo koji fotograf može živjeti od toga”, kaže Gockel. Na kraju će učinkovitost vjerojatno biti odlučujući čimbenik: “Samo morate vidjeti što je brže: stvoriti rajčicu na računalu – ili je staviti na stol i fotografirati.”
Može li se slavna fotografija »Tankman« reproducirati? Evo rezultata u Dall-E 2 za “Analognu fotografiju iz 1980-ih čovjeka u bijeloj košulji i crnim hlačama, ispred parade četiri kineska tenka na trgu u Zabranjenom gradu”
Brojna pravna pitanja ostala su neriješena. Budući da novi AI sustavi izvlače uzorke iz umjetničkih djela, mogu oponašati stil umjetnika bez kopiranja njihovih umjetničkih djela. Pomoću tražilice lexica.art dobivate dojam koji stilovi su posebno često traženi za imitaciju u Stable Diffusion. Nije svima polaskano kada se njihov vlastiti rad koristi neželjeno i bez financijskog doprinosa s Interneta. Ionako je neriješeno pitanje autorskih prava nove slike. Dok je fotografska agencija Getty najavila da će u potpunosti bez slika generiranih umjetnom inteligencijom, Shutterstock želi koristiti slike generirane s Dall-E 2 i »nagraditi« umjetnike koji se petljaju s njima. Kako bi to točno trebalo biti pravedno?
“To je krađa”
Irski animator David O’Reilly se baš ne nada: “Skoro svi koji su pridonijeli vrijednosti AI generatora slika sada ih iskorištavaju” , piše on u objavi na Instagramu o kojoj se naširoko raspravljalo . “To je krađa.” Ilustrator James Gurney stoga poziva na veću transparentnost u procesu stvaranja: “Mislim da je jedino pošteno da ljudi znaju koja je naredba korištena i također koji softver.” On također uvodi pravo veta za umjetnike. Trebali bi moći odbiti da se “njihova umjetnost, na kojoj su toliko dugo ručno radili, pojavi u skupu podataka” , kaže on u video intervjuu za američki časopis Vox.
Ako se sve što se može napisati može pretvoriti u sliku, nije to samo za modu i rajčice. Mračne misli također mogu postati vidljive na ovaj način. Ilustratorica Gila von Meissner kaže da su neki pokušali stvoriti gole slike djece ili još gore, te pokazuje primjere koje je pronašla u svom istraživanju usred putovanja i prijavila ih operaterima. »To je očito cilj nekih korisnika. Ako znate prave pojmove za pretraživanje, naći ćete tako nešto.«
Eksperiment Franka Müllera pokazuje koliko se brzo tehnologija može zloupotrijebiti. Njegovo pravo ime je drugačije, ali ne želi otkriti svoje ime u vezi sa svojim internetskim istraživanjem Nove desnice. U proteklih nekoliko tjedana Müller je pokušao učiniti javno dostupnim AI generator »maksimalno rasističkog i glorificirajućeg nasilja«.
Da bi to učinio, testirao je desetke upita i otkrio da je softver očito također hranjen sumnjivim podacima o obuci: Slike ne podsjećaju na Louvre, već na prljave internetske forume na kojima se izmjenjuju prikazi nasilja, pornografije i mržnje. “Jasno vidim mogućnost korištenja toga za stvaranje mizantropske propagande kao opasnost”, kaže Müller. “I također ne postoji jednostavna funkcija izvješćivanja, kao kod gotovo svih drugih novih generatora umjetne inteligencije.” Njegov zaključak: Način na koji je sustav sada strukturiran i koliko je loše moderiran, zapravo ne bi trebao biti javno dostupan.
Tvorci generatora su svjesni problema. Björn Ommer vodi grupu za strojni vid i učenje na LMU-u koja je razvila stabilnu difuziju. “Izvorni kod je objavljen u skladu s utvrđenim znanstvenim standardima kako bi se osigurala ponovljivost i transparentnost, čime se omogućuje daljnje istraživanje”, kaže on. Podaci o obuci su također javni. Ali velika masa onemogućuje ručno pregledavanje materijala unaprijed. Potrebni su automatski filtri – a oni su daleko od savršenih. “Također možete njime stvoriti svjetove koje mi ne želimo”, priznaje Ommer. »Razgovarali smo o negativnim implikacijama sa Stability AI i oni žele preuzeti odgovornost.
Dall-E 2 konkurentskog OpenAI-ja – među investitorima su šef Tesle, Elon Musk i Microsoft – odabrao je srednji put kako bi sustav učinio sigurnim: start-up je u početku dopuštao samo ograničenom broju kreativnih ljudi da se igraju s modelom, s njihovim filtrima razvijen za sprječavanje stvaranja slika mržnje, političkih dezinformacija i pornografije. Tek tada je model javno dostupan i to samo za registrirane korisnike. Ako želite registrirati više od 15 kompleta slika nakon prvog mjeseca, plaćate najmanje 15 USD mjesečno.
Google je još sumnjičaviji. Postoji “rizik” da su “štetni stereotipi i prikazi kodirani” u Googleovom Imagen generatoru teksta u sliku , navodi se na web stranici projekta . “To nas je dovelo do odluke da ne objavimo Imagen bez poduzimanja dodatnih sigurnosnih mjera.”
Douglas Eck, Googleov viši direktor istraživanja u Mountain Viewu, kaže u video pozivu da je “ponosan” na ovakav stav. Tehnologija je još daleko od gotovog proizvoda: “Primjeri koje smo objavili djeluju poput magije. Ali ima još puno toga za napraviti prije nego što integriramo tehnologiju u naše usluge.«
Internetski div si neće još dugo moći priuštiti ovu nevoljkost. Komercijalizacija tehnologije, koliko god nedovršena bila, već je počela – a s njom i utrka za naklonost masa.
Naredba za Dall-E 2: “Horda mačaka kupuje dionice na burzi”
Nicolas Mausz poranio je sa svojim proširenjem za Photoshop. Generatori teksta u sliku uskoro bi trebali biti uobičajeni dio svih vrsta online usluga, baš kao što su predlošci digitalnih čestitki bili već dugi niz godina. Microsoft je, primjerice, sredinom listopada najavio da će u svoju web aplikaciju “Designer” integrirati Dall E-2 generator koji se može koristiti za izradu prezentacija, postera, razglednica ili pozivnica u pregledniku. Odatle nije daleko ni do društvenih mreža koje će biti preplavljene računalno generiranim slikama.
Drugi programeri aplikacija također su mogli koristiti izravno sučelje za Dall-E 2 od prošlog tjedna. Mixtiles, na primjer , izraelska online usluga za izradu zidnih dekoracija, već eksperimentira s tim. Umjesto reprodukcije van Gogha, Picassa i Klimta, nekima bi uskoro nad sofom mogla visjeti slika koju su sami napisali. Ne moraju to nužno biti »ričući jeleni pred riječnim krajolikom«.