Mislav

Generatori teksta u sliku: Umjetna inteligencija mijenja kreativni svijet

Dovoljan je kratak tekst da se stvori slika kakva nikada prije nije postojala. Hoće li softveri poput Dall-E 2, Midjourney i Stable Diffusion uskoro neka kreativna zanimanja učiniti suvišnima?

Potrebna je samo jedna rečenica. “Isus i Marija slikaju selfie u Disneylandu.” Ili nekoliko riječi opisa: “Wall Street od šećerne vune.” Ili, za naprednije, neka izmišljena glupost: “Portret stogodišnjaka koji je heklao portal na druga dimenzija, renesansno ulje na platnu.«

Potrebno je 30 sekundi da se pretvori u sliku. Vizualizacija napisanog, u potpunosti stvorena umjetnom inteligencijom (AI), bez potrebe za ljudskom kreativnošću, zanatom ili čak umijećem u trenutku stvaranja slike. Pojavljuju se nevjerojatne slike. Djela, kako god ih zvali, za koje bi ljudima trebalo višestruko vrijeme.

Tehnički izraz za ove spektakularne nove alate je u najboljem slučaju dosadan: generatori teksta u sliku. Već nekoliko mjeseci u neizvjesnosti drže start-upove, tehnološke tvrtke, Silicijsku dolinu i cijelu kreativnu industriju. Smatraju se novom velikom stvari. Istraživači ih opisuju kao prekretnicu u polju strojnog učenja, potpodručja umjetne inteligencije.

Programi se zovu Dall-E 2, Stable Diffusion, Midjourney, Craiyon ili Google Imagen , a svi rade nešto slično. Svaki opis upisan u tekstualni okvir pretvorit će se u sliku za nekoliko trenutaka. Nova, tek »izmišljena«. S kojim umjetna inteligencija konačno ulazi u područje koje ljudi još uvijek posjeduju za sebe - ne samo prepoznavanje obrazaca, već zapravo stvaranje nečeg novog. Tehnička revolucija. Stroj kao Picasso.

Tweet

I djeluje. Bilo da se radi o figurama, pejzažima ili teksturama. Bilo fotorealistično, u stilu Gustava Klimta ili kao manga – dovoljna je odgovarajuća naredba, koja se na engleskom zove “prompt”. Kreativci diljem svijeta uče razgovarati sa strojevima ovim novim jezikom i iz njih izmamiti dosad neviđene slike.

Ugodna soba, ambijentalno svjetlo, velika biljka

Razvoj napreduje vrtoglavom brzinom. Obrisi onoga što će tehnologija jednog dana biti moguće tek se naziru, no filmski i televizijski producenti već su naelektrizirani mogućnostima, a mijenjaju se i metode rada ilustratora i dizajnera, fotografa i umjetnika. Počela je rasprava o tome što će u budućnosti još biti umjetnost, a što je kreativnost.

I kao sa svakom novom tehnologijom, potraga za komercijalnim primjenama počinje odmah. Kako ovu umjetnu inteligenciju za slikanje unijeti u svakodnevni softver koji koriste milijuni ljudi? I kako spriječiti da ti programi postanu generatori horora, alati za serijsku proizvodnju motiva mržnje i ilegalnih slika?

»Oglašivačka industrija će se radovati«

Nicolay Mausz je potpuno izvan sebe. “U IT svijetu, ovo je najluđa stvar koja mi se ikada dogodila u mojih više od 20 godina u poslu”, kaže informatičar i vlasnik softvera za leteće pse sa sjedištem u dvorcu Quassel u Mecklenburg-Western Pomeranija. Trenutak usporediv sa slijetanjem na Mjesec. On sam radije radi sa Stable Diffusion. Model su razvili istraživači umjetne inteligencije na Ludwig-Maximilians-Universität (LMU) i sada je odgovornost tvrtke Stability AI, koja je nedavno prikupila 101 milijun dolara rizičnog kapitala.

Za preuzimanje softvera i korištenje kod kuće dovoljno je računalo sa snažnom grafičkom karticom. Posebnost: kod je javan, svatko ga može kopirati i dalje razvijati. “U prva četiri tjedna gotovo da nisam spavao i programirao dan i noć”, izvještava Mausz. Rezultat je, prema njegovim riječima, bila prva stabilna difuzijska ekstenzija za poznati grafički program Photoshop tvrtke Adobe, koju sada prodaje po početnoj cijeni od 89 dolara.

Mauszov softver ubrzava rad dizajnera poput turbopunjača, pretvarajući grube skice u gotovo fotorealistične nacrte u Photoshopu. Generatori umjetne inteligencije, siguran je, “imat će veliki utjecaj na dizajn proizvoda, na dizajn interijera, na modu”. “Oglašivačka industrija također će biti sretna, oni će raditi samo s njom, odmah od faze ideje”.

Proces podučavanja strojeva ovom nevjerojatnom prividu kreativnosti prilično je tehnički uključen. U osnovi, modeli umjetne inteligencije naučili su uklanjati šum na slikama. Kako bi to učinili, istraživački timovi ubacili su milijune slika uključujući tekstualne opise u modele kao podatke za obuku. Slike su namjerno učinjene neprepoznatljivima u različitim fazama: optički šum je položen preko slika sloj po sloj, dok se na kraju nisu mogle vidjeti samo snježne vjetrove. Zadatak umjetne inteligencije tada je bio obrnuti proces, odnosno prepoznati i ukloniti šum na slikama. Na taj način AI uči generirati sliku bez šuma koja odgovara kratkom, opisnom tekstu – tada je samo mali korak do stvaranja slika iz teksta.

Ako unesete opis u tekstualno polje modela, AI počinje s potpuno šumnom slikom. Jezični model kodira naredbu i prenosi je u višedimenzionalni matematički prostor. Postoji bezbroj klastera i koordinata za crvenilo, okruglost, glatkoću, na primjer. Ali i puno specifičnije pojmove poput lepršavosti, bananastičnosti, adutosti. Tada na scenu stupa uvježbani model difuzije, dekoder. Pretvara ove koordinate u slike bez šuma.

»U početku sam bio totalno entuzijastičan i ujedno sam mislio: super. U svakom slučaju, to mnoge ljude čini nezaposlenima”, kaže Julian Schleef. Ovaj 37-godišnjak vodi odjel za dizajn i postprodukciju u Bildundtonfabriku, tvrtki sa sjedištem u Kölnu s 94 zaposlenika koja proizvodi Netflixove dokumentarce, TV emisije, serije i računalne igre. Više od 15 godina Schleef radi s 3D i grafičkim programima kako bi ideje iz ljudskih glava prenio na zaslone. Gotovo svi njihovi koncepti započinju istraživanjem: »Kakvo raspoloženje prenosi sadržaj? Kako bi takav set mogao izgledati? Što vidite u ploči scenarija?” Generatori umjetne inteligencije imaju sve što je potrebno za potpunu transformaciju kreativnih procesa njegovog tima. »Ovo je nevjerojatan alat koji vam omogućuje brzo dobivanje rezultata koji odgovaraju raspoloženju.«

◁ Fotografija svijeta iz snova. to je prekrasan krajolik. detalj je nevjerojatan. jednostavno zapanjujuće. isus, crkva, savršena lica, nuri iyem, james gurney, james jean, greg rutkowski, anato finnstark, isus krist

Midjourney je najzanimljiviji za njegov rad jer sustav izgleda kao da je istreniran s puno slikanja i umjetnosti, dok Dall-E 2 daje dojam poznavanja “cijelog interneta”. “Sada sam na točki u kojoj imam nejasan osjećaj kako različiti modeli interpretiraju ulazne podatke. Ali ne mogu to opisati riječima, mogu samo pokazati primjerima.«

Međutim, rezultati još nisu savršeni. Schleef naknadno obrađuje svaki AI rezultat u Photoshopu kako bi izgladio nedostatke slike kao što su lebdeće noge stola ili kako bi stvorio simetriju. Budući da umjetna inteligencija uvijek stvara potpuno nove slike, a ne sastavlja ih jednostavno iz postojećeg materijala, mogu nastati dijelovi slike koji su nerealni. Ovo bi moglo biti zanimljivo za svjetove računalnih igara – u oglašavanju treća nosnica na licu ima tendenciju da bude dosadna.

Nakon početnog entuzijazma, postaje malo promišljeniji o sustavima i njihovom utjecaju na kreativni proces. Generator umjetne inteligencije ne može čitati misli, čak ni uz najbolje opise. “Nikada zapravo nisam dobio ono što sam želio od Midjourneyja. Ali mislim da to uopće nije ideja. Iznad svega, pomaže u otkrivanju puteva kojima inače ne biste krenuli.«

vrlo detaljna epska kinematografska konceptualna umjetnost CG render digitalna slika umjetničko djelo: Cybernetic core. Napisao Greg Rutkowski, u stilu Francisa Bacona i Syd Meada i Normana Rockwella i Beksinskog, otvoreni strop, vrlo detaljan, oslikao Francis Bacon i Edward Hopper, oslikao James Gilleard, nadrealizam, zračni kist, Ilya Kuvshinov, WLOP, Stanley Artgerm, vrlo koherentna, trijadna shema boja, umjetnost Takato Yamamoto i James Jean

vrlo detaljna epska kinematografska konceptualna umjetnost CG render digitalna slika umjetničko djelo: Cybernetic core. Napisao Greg Rutkowski, u stilu Francisa Bacona i Syd Meada i Normana Rockwella i Beksinskog, otvoreni strop, vrlo detaljan, oslikao Francis Bacon i Edward Hopper, oslikao James Gilleard, nadrealizam, zračni kist, Ilya Kuvshinov, WLOP, Stanley Artgerm, vrlo koherentna, trijadna shema boja, umjetnost Takato Yamamoto i James Jean

◁ Vrlo detaljna epska kinematografska konceptualna umjetnost CG render digitalna slika umjetničko djelo: Cybernetic core. Napisao Greg Rutkowski, u stilu Francisa Bacona i Syd Meada i Normana Rockwella i Beksinskog, otvoreni strop, vrlo detaljan, oslikao Francis Bacon i Edward Hopper, oslikao James Gilleard, nadrealizam, zračni kist, Ilya Kuvshinov, WLOP, Stanley Artgerm, vrlo koherentna, trijadna shema boja, umjetnost Takato Yamamoto i James Jean

Ljudi mogu odrediti koja je slika stvorena samo putem sučelja: upita, opisa koje unose u red teksta. U chat grupama, na blogovima i na javnim forumima trenutno se vode žestoke rasprave o tome kako stroju šapnuti posebno pametne upute. Snalažljivi osnivači već vide prvu liniju poslovanja u upitima: nude pomoć s formulacijom. Opis slike za midjourney, na primjer za kvrgavi logotip tvrtke, može se dobiti za samo tri dolara. Promptbase je jedna od tih platformi . “Mislio sam da bi bilo cool koristiti ga za generiranje pasivnog prihoda”, piše njegov osnivač jezgrovito na internetskom forumu.

Data artisti također se približavaju novoj tehnologiji. Mario Klingemann, primjerice, bavi se pitanjem kako je moguć autoportret uz pomoć umjetne inteligencije. Nakon sat vremena petljanja s Dall-E i Stable Diffusion, rezultat je bio autoportret u prugastom džemperu, kao da je slikan u ulju. “Bilo mi je zanimljivo pristupiti svom kolegi korak po korak kroz logiku programa.”

To svakako možete usporediti sa slikarstvom, kaže Klingemann, »samo je zanat drugačiji. Danas, umjesto nanošenja slojeva boje kistom, umjetnik samo isprobava različite tekstualne upute.« Međutim, tehnologija je sada dostupna svima, što znači da gledatelje s umjetnom inteligencijom više nije tako lako impresionirati. »Prije samo tri godine umjetna inteligencija bila je jedinstvena prodajna ponuda. Uskoro će biti normalno,« kaže Klingemann, »i sam se već osjećam pomalo prezasićen.«

Drugi su tek na početku. Gila von Meissner, ilustratorica i grafička dizajnerica iz Langwedela blizu Kiela, radi s Midjourneyem nekoliko tjedana. Tehnologija ima potencijal dramatično povećati učinak 47-godišnjaka. U roku od sedam dana, kaže, stvorila je cijelu dječju knjigu uz pomoć umjetne inteligencije. Bez toga bi trajalo “otprilike šest puta duže”. Posebno su pozadine iz Midjourneyja. “Brdoviti krajolik sa šumom u mraku, u stilu”, nakon čega slijedi ime drugog ilustratora bio je jedan unos (preveden na njemački) koji je koristila.

Međukoraci smanjenja buke uz Stable Diffusion »portret mlade, samouvjerene, perzijske kraljice duge smeđe kose, zlatnog reza, okružene simetričnim paprati, autor Ernst Haeckel«

Na to troši 50 dolara mjesečno: 30 dolara za pristup umjetnoj inteligenciji putem online platforme Discord i potrebne računalne snage u oblaku, 20 dolara za slike koje se za nju generiraju da se šalju samo njoj osobno i ne dijele javno. Postoji i naknada za softver koji pretvara slike niske rezolucije sa sredine putovanja u datoteke za ispis.

Ona ne misli da je tehnologija ubojica posla: »Većina njih u mojoj industriji nudi dodatnu vrijednost – od kompozicije do prijeloma do znanja o pripremi za tisak – koju amater s umjetnom inteligencijom ne može zamijeniti.«

Fotograf Tilo Gockel stvari vidi drugačije. 54-godišnjak je napisao nekoliko knjiga o fotografiji, vodi blog o tehnologiji fotografije i predaje obradu slika i tehničku fotografiju na TH Aschaffenburg. On ne smatra generatore tekstualnih slika povijesnim promašajem – ali vidi promjene koje dolaze u industriju. “Modna će fotografija biti ozbiljno pogođena”, sumnja on: reklamne stranice čija je proizvodnja skupa mogla bi se zamijeniti avatarima modela s računala. “Barem u slučaju robe masovne proizvodnje, to neće smetati potrošačima”, kaže Gockel. Casting, manekenstvo, šminka, fotografija, rasvjeta – »tu bi se mogli izgubiti mnogi poslovi«.

I u takozvanoj stock fotografiji za generičke motive, simbolične fotografije mogle bi se zamijeniti računalnim slikama. Honorari za te subjekte u međuvremenu su iznosili nekoliko centi, “ionako teško da bilo koji fotograf može živjeti od toga”, kaže Gockel. Na kraju će učinkovitost vjerojatno biti odlučujući čimbenik: “Samo morate vidjeti što je brže: stvoriti rajčicu na računalu – ili je staviti na stol i fotografirati.”

Može li se slavna fotografija »Tankman« reproducirati? Evo rezultata u Dall-E 2 za “Analognu fotografiju iz 1980-ih čovjeka u bijeloj košulji i crnim hlačama, ispred parade četiri kineska tenka na trgu u Zabranjenom gradu”

Brojna pravna pitanja ostala su neriješena. Budući da novi AI sustavi izvlače uzorke iz umjetničkih djela, mogu oponašati stil umjetnika bez kopiranja njihovih umjetničkih djela. Pomoću tražilice lexica.art dobivate dojam koji stilovi su posebno često traženi za imitaciju u Stable Diffusion. Nije svima polaskano kada se njihov vlastiti rad koristi neželjeno i bez financijskog doprinosa s Interneta. Ionako je neriješeno pitanje autorskih prava nove slike. Dok je fotografska agencija Getty najavila da će u potpunosti bez slika generiranih umjetnom inteligencijom, Shutterstock želi koristiti slike generirane s Dall-E 2 i »nagraditi« umjetnike koji se petljaju s njima. Kako bi to točno trebalo biti pravedno?

“To je krađa”

Irski animator David O’Reilly se baš ne nada: “Skoro svi koji su pridonijeli vrijednosti AI generatora slika sada ih iskorištavaju” , piše on u objavi na Instagramu o kojoj se naširoko raspravljalo . “To je krađa.” Ilustrator James Gurney stoga poziva na veću transparentnost u procesu stvaranja: “Mislim da je jedino pošteno da ljudi znaju koja je naredba korištena i također koji softver.” On također uvodi pravo veta za umjetnike. Trebali bi moći odbiti da se “njihova umjetnost, na kojoj su toliko dugo ručno radili, pojavi u skupu podataka” , kaže on u video intervjuu za američki časopis Vox.

Ako se sve što se može napisati može pretvoriti u sliku, nije to samo za modu i rajčice. Mračne misli također mogu postati vidljive na ovaj način. Ilustratorica Gila von Meissner kaže da su neki pokušali stvoriti gole slike djece ili još gore, te pokazuje primjere koje je pronašla u svom istraživanju usred putovanja i prijavila ih operaterima. »To je očito cilj nekih korisnika. Ako znate prave pojmove za pretraživanje, naći ćete tako nešto.«

◁ portret moderne hipster djevojke u kafiću pozira za kameru. ludo i epski detaljan umjetnički rad olovkom u boji vrhunske kvalitete, nevjerojatno složena slika, epska ilustracija olovkom Rangea Murate i Alphonsea Muche.

Eksperiment Franka Müllera pokazuje koliko se brzo tehnologija može zloupotrijebiti. Njegovo pravo ime je drugačije, ali ne želi otkriti svoje ime u vezi sa svojim internetskim istraživanjem Nove desnice. U proteklih nekoliko tjedana Müller je pokušao učiniti javno dostupnim AI generator »maksimalno rasističkog i glorificirajućeg nasilja«.

Da bi to učinio, testirao je desetke upita i otkrio da je softver očito također hranjen sumnjivim podacima o obuci: Slike ne podsjećaju na Louvre, već na prljave internetske forume na kojima se izmjenjuju prikazi nasilja, pornografije i mržnje. “Jasno vidim mogućnost korištenja toga za stvaranje mizantropske propagande kao opasnost”, kaže Müller. “I također ne postoji jednostavna funkcija izvješćivanja, kao kod gotovo svih drugih novih generatora umjetne inteligencije.” Njegov zaključak: Način na koji je sustav sada strukturiran i koliko je loše moderiran, zapravo ne bi trebao biti javno dostupan.
Tvorci generatora su svjesni problema. Björn Ommer vodi grupu za strojni vid i učenje na LMU-u koja je razvila stabilnu difuziju. “Izvorni kod je objavljen u skladu s utvrđenim znanstvenim standardima kako bi se osigurala ponovljivost i transparentnost, čime se omogućuje daljnje istraživanje”, kaže on. Podaci o obuci su također javni. Ali velika masa onemogućuje ručno pregledavanje materijala unaprijed. Potrebni su automatski filtri – a oni su daleko od savršenih. “Također možete njime stvoriti svjetove koje mi ne želimo”, priznaje Ommer. »Razgovarali smo o negativnim implikacijama sa Stability AI i oni žele preuzeti odgovornost.

Dall-E 2 konkurentskog OpenAI-ja – među investitorima su šef Tesle, Elon Musk i Microsoft – odabrao je srednji put kako bi sustav učinio sigurnim: start-up je u početku dopuštao samo ograničenom broju kreativnih ljudi da se igraju s modelom, s njihovim filtrima razvijen za sprječavanje stvaranja slika mržnje, političkih dezinformacija i pornografije. Tek tada je model javno dostupan i to samo za registrirane korisnike. Ako želite registrirati više od 15 kompleta slika nakon prvog mjeseca, plaćate najmanje 15 USD mjesečno.
Google je još sumnjičaviji. Postoji “rizik” da su “štetni stereotipi i prikazi kodirani” u Googleovom Imagen generatoru teksta u sliku , navodi se na web stranici projekta . “To nas je dovelo do odluke da ne objavimo Imagen bez poduzimanja dodatnih sigurnosnih mjera.”

Douglas Eck, Googleov viši direktor istraživanja u Mountain Viewu, kaže u video pozivu da je “ponosan” na ovakav stav. Tehnologija je još daleko od gotovog proizvoda: “Primjeri koje smo objavili djeluju poput magije. Ali ima još puno toga za napraviti prije nego što integriramo tehnologiju u naše usluge.«
Internetski div si neće još dugo moći priuštiti ovu nevoljkost. Komercijalizacija tehnologije, koliko god nedovršena bila, već je počela – a s njom i utrka za naklonost masa.

Naredba za Dall-E 2: “Horda mačaka kupuje dionice na burzi”

Nicolas Mausz poranio je sa svojim proširenjem za Photoshop. Generatori teksta u sliku uskoro bi trebali biti uobičajeni dio svih vrsta online usluga, baš kao što su predlošci digitalnih čestitki bili već dugi niz godina. Microsoft je, primjerice, sredinom listopada najavio da će u svoju web aplikaciju “Designer” integrirati Dall E-2 generator koji se može koristiti za izradu prezentacija, postera, razglednica ili pozivnica u pregledniku. Odatle nije daleko ni do društvenih mreža koje će biti preplavljene računalno generiranim slikama.

Drugi programeri aplikacija također su mogli koristiti izravno sučelje za Dall-E 2 od prošlog tjedna. Mixtiles, na primjer , izraelska online usluga za izradu zidnih dekoracija, već eksperimentira s tim. Umjesto reprodukcije van Gogha, Picassa i Klimta, nekima bi uskoro nad sofom mogla visjeti slika koju su sami napisali. Ne moraju to nužno biti »ričući jeleni pred riječnim krajolikom«.