Tag: AI

  • Eläköön, AI-kuvien fotorealismi!

    Omalla tietokoneella pyörivällä AI-kuvien generoinnilla saavutetaan jo huikean realistinen taso

    Ilmeisesti eilen julkaistiin uusi poikkeuksellisen hyvä tekoälymalli kuvien generointiin, sillä huomasin sen tänään työpäivän loppuvaiheilla ja ensimmäiset postaukset siitä olivat eiliseltä ainakin nopeasti Redditin viestien aikaleimoista katsottuna. Heti toimistolta kotiin päästyäni täytyi malli ladata omalle koneelle kokeilemista varten. Yhden illan kokeilujen perusteella olen todella vakuuttunut sen laadusta ja nopeudesta.

    Malli on nimeltään Z Image Turbo ja sen saa pyörimään omalla koneella mikäli konetehot riittävät, eli sitä ei tarvitse ajaa missään pilvipalvelussa. Tavalliseen tapaan tätäkin onnistuu ajaa ComfyUI:n työnkulkujen kautta ja valmis työnkulkuesimerkki löytyi nopeasti netistä Redditin keskusteluista.

    Omassa tietokoneessani on näytönohjaimena NVidia RTX 4060 Ti jossa on 16 GB VRAMia ja koneesta löytyy muistia 32 GB ja ainakin tällä kombinaatiolla kuvia onnistuu generoida nopealla tahdilla, sillä yhden kuvan generointiin menee ainoastaan n. 35 – 55 sekuntia 1920×1088 tai 1088×1920 resoluutiolla. Jostain syystä ComfyUI:ssa ei onnistu valita tälle FullHD-resoluutiota (eli 1920×1080), mutta väliäkö tuolla. Myös muita resoluutioita tuetaan, sillä ainakin oletuksena valintana oli 1024×1024.

    Tuttuun tapaan selkeimmät havaintokohdat mistä näistä yleensä erottaa ne tekoälyn generoimaksi kuvaksi on tekstit, sormet tai varpaat (jos varpaat on kuvassa nähtävissä). Myös näissä alempana nähtävissä esimerkkikuvissa voi ainakin yhden kuvan tunnistaa helposti tekoälyllä tehdyksi jos keskittyy katsomaan kuvassa tekstejä etiketeistä.

    Vaikka malli onkin hyvä, toisinaan kuvia generoidessa tulee silti mukaan selkeitä järjettömyyksiä kuten vaikkapa kolme kättä, mutta näin räikeiden epämääräisyyksien määrä on ollut erittäin harvinaista ainakin ensimmäisen illan testien perusteella, ehkä yksi tai kaksi kuvaa kahdesta sadasta generoidusta kuvasta on mennyt tähän kategoriaan.

    Vaikka nämä kuvat joita tässä blogitekstissä jaan ovat fotorealistisia tai vähintäänkin sellaiseen pyrkiviä, on hyvä huomioida että tällä mallilla onnistuu myös muunkinlaisten kuvien generointi. Kuvien aiheiden ei tarvitse noudattaa siis mitään fysiikan tai realismin lakeja ja sillä onnistuu generoida myös kuvia vaikkapa keijuista tai dinosauruksista. Lisäksi kuvatyylin ei tarvitse olla valokuva, vaan ne voivat olla esimerkiksi anime-tyylisiä piirroksia tai Pixarin elokuvien tyyliä, joten malli soveltuu muuhunkin kuin valokuvilta näyttävien kuvien generointiin.

    Kaikki tähän jakamani kuvat ovat vaakatasossa olevia blogitekstin selkeyden vuoksi (koska nämä generoidut pystykuvat eivät skaalaudu täysin samaan leveyteen tässä teemassa kuin vaakakuvat), mutta laitan luultavasti jonakin toisena päivänä postauksen missä on pelkästään pystykuvia. Mahdollisesti tulen julkaisemaan jossain vaiheessa myös postauksen joissa on kuvia jotka eivät noudata fysiikan tai realismin rajoja.

    Pidemmittä puheitta laitan tähän alle joitain tämän illan generoiduista kuvista josta voi itse kukin arvioida onko laatu millainen.