Hva er DALL·E 2?

DALL·E 2 er et kunstig intelligensprogram som lager bilder fra tekstbeskrivelser, avslørt torsdag av OpenAI, et forskningsselskap.

Den bruker en 12-milliarder parameteropplæringsversjon av GPT-3-transformatormodellen for å tolke de naturlige språkinndataene og generere tilsvarende bilder. For eksempel, når den ble levert med setningen 'et svart-hvitt-bilde av en liten hund', produserte det et korrekt gjengitt svart-hvitt-bilde av en Chihuahua.

Systemet er ikke perfekt - det produserer noen ganger bilder som er vanskelige å tolke, eller som er helt ute av stand. For eksempel, når du ble bedt om å generere et bilde av 'en person som kjører en enhjulssykkel på en stram snor over en vulkan', produserte det et (vakkert, etter min mening), men helt ubeslektet bilde av en solnedgang over vann med en liten figur i forgrunnen .

Likevel er resultatene imponerende, og OpenAI sier at DALL·E 2 'er den første AI-modellen som genererer bilder fra tekstlige beskrivelser som kan konkurrere med kvaliteten til profesjonelle menneskelige kunstnere.'

Systemet ble trent på et datasett med tekst-bilde-par, bestående av rundt 1,3 millioner bilder og bildetekster fra Internett som ble skrapet og kuratert av OpenAI. Treningsdataene ble deretter brukt til å finjustere GPT-3-modellen slik at den kunne generere bilder fra tekstbeskrivelser.

OpenAI sier at systemet kan generere bilder av 'høy kvalitet' fra et bredt spekter av tekstbeskrivelser, inkludert de som er abstrakte, konkrete eller til og med poetiske.

I tillegg til Chihuahua-eksemplet inkluderer andre eksempler på bilder produsert av DALL·E 2 et korrekt gjengitt portrett av Adolf Hitler, et bilde av en drage laget av grønnsaker og et bilde av Mona Lisa laget av toast.

Systemet er også i stand til å generere bilder av ting som ikke eksisterer, for eksempel en 'floof' (et sminket dyr) eller en 'tulpa' (en tankeform).

Samlet sett er resultatene imponerende, og OpenAI sier at systemet 'åpner nye muligheter for å generere bilder fra tekstbeskrivelser.'

FRA E 2 Dette CLIP-system konverterer tekstinformasjon til visuell informasjon. Dette er et koder-dekoder-paradigme, som betyr at når inndatatekst er gitt, blir den først konvertert til maskininndata, deretter behandlet av systemet, og til slutt sendt til dekoderen, som konverterer de kodede dataene til et bilde.

Hva er DALL E 2

Hva er DALL·E 2?

Dette er den siste generasjonen av DALL·E, en generativ språkmodell som bruker fraser for å lage helt nye visuelle effekter. DALL E 2 er en enorm 3,5V-modell, men ikke så massiv som GPT-3. Interessant nok er den også lettere enn forgjengeren (12B). Når det gjelder beskrivelsesjustering og fotorealisme, er DALL·E 2 70 % bedre enn DALL·E 2 til tross for sin større størrelse.

DALL.E 2- forklaring for nybegynnere med eksempler

Nærmere bestemt er DALL·E 2 en hierarkisk betinget tekstbildesyntesemodell som kombinerer dyp læring for naturlig språkbehandling med datasyn for bildegenerering. Målet er å trene to modeller, og treningssettet består av sammenkoblede bilder og beskrivelser. Den første er a priori som, gitt en skriftlig tittel, kan trenes til å generere et CLIP-bildeinnbygging. Vi har da en dekoder som, når vi legger inn et CLIP-bilde (og bildetekst, hvis det finnes), kan generere et trent bilde.

DALLE 2 er opplært til å bruke hundrevis av millioner bilder med bildetekster fra internett, og noen av disse bildene blir fjernet og omstokket for å endre hva modellen lærer. Den henter flere bildealternativer CLIP-vedlegg og deretter bruke den dekoder gå gjennom hver av dem. Det skaper da en interessant blanding av all den informasjonen gitt brukerens input.

Eksempel DALL ER 2

La oss spille et lite spill for å forstå DALL·E. La oss dele det ned i de neste tre trinnene.

Se for deg regnbuer, skyer og enhjørninger som flyr på den blå himmelen. Se for deg hvordan et bilde kan se ut i fantasien din. Folk er det nærmeste vi har den perfekte analogen til en bildeinnbygging, og bildet som nettopp dukket opp i hodet ditt er et perfekt eksempel på det. Du kan bare gjette om det endelige produktet, men du har en god ide om hva som bør inkluderes. A priori-modellen tar leseren fra ordene i en frase til en scene i hans eller hennes fantasi.
Nå kan du begynne å tegne. Det unCLIP gjør er å konvertere ditt mentale bilde til en ekte skisse. Nå kan du nøyaktig gjenskape en annen karakter fra samme beskrivelse, med den samme grunnleggende statistikken, men med en helt ny visuell stil. DALL·E 2 kan også generere unike bilder fra et eksisterende bilde innebygd på denne måten.
Vær oppmerksom på skissen du har laget. Dette er hva som skjer når du skisserer beskrivelsen av 'en enhjørning i midten av skyene, og en regnbue reiser seg mot himmelen.' Undersøk nå bildet og teksten for å finne ut hva som best illustrerer den andre (sol, hus, tre osv.) og hva som best illustrerer emnet, stilen, farger osv. Det CLIP gjør er å kode egenskaper. tekst og bilder.

Nå som vi vet hva DALL-E er, la oss gå videre til neste seksjon og forstå funksjonene.

Tips: Hvordan lage realistiske bilder med DALL-E-2 AI-tjenesten

Har DALL E 2

Nedenfor er spesifikasjonene til DALL·E 2.

Variasjoner
Fargelegging
Tekstforskjeller

La oss snakke om dem i detalj.

hvordan lage visittkort i word 2010

1] Variasjoner

DALL·E 2 går lenger enn bare å oversette en setning til et bilde. OpenAI kan eksperimentere med den generative prosessen, og produsere forskjellige resultater for en gitt signatur takket være robuste CLIP-innbygginger. Det CLIP 'ser' i 'sinnet' er hva det anser som viktig fra input (forblir det samme for alle bilder) og hva som kan erstattes (som endres for forskjellige bilder). Når det er mulig, vil DALL·E 2 beholde både 'meningsfull informasjon ... og estetiske aspekter'.

2] Farging

DALL·E 2 kan endre eksisterende bilder med automatisk fylling. I følgende eksempel er det venstre bildet originalbildet, og midt- og høyrebildet har elementet tegnet på forskjellige steder. DALL·E 2 matcher et tilleggselement til bildestilen. Den oppdaterer også teksturer og refleksjoner for å gjenspeile det nye elementet.

Lese : Hva kan du gjøre med ChatGPT

3] Tekstforskjeller

DALL·E 2 konverterer bilder ved hjelp av tekstforskjeller. DALL·E 2 har også avanserte interpolasjonsmuligheter som lar deg endre objekter. En Twitter-bruker var i stand til å 'oppheve' sin iPhone. twitter.com å sjekke det ut.

Hvis du liker disse funksjonene, er alt du trenger å gjøre å gå til openai.com og deretter registrere deg. Du kan opprette en ny konto eller bruke eksisterende Microsoft- eller Google-kontoer for å registrere deg. Når du gjør det, vil du få noen gratis kreditter, hvis du vil ha mer, må du betale for det.

Dette er noen av funksjonene til DALL·E 2, den har mange gode brukstilfeller, men det anbefales alltid å ikke stole for mye på AI-verktøy. Tross alt er de ikke annet enn verktøy som brukes for å få jobben gjort, de kan aldri erstatte en persons emosjonelle intelligens.

Les også: De beste Deepfake-appene, -programvarene og -nettstedene.