Tag: AI

  • Kuvien editointia qwen-image-2509:llä

    Z-Image Turbolla generoitu kuva jota käytetty testaamiseen

    Lähiaikoina olen käyttänyt enemmän tai vähemmän jälleen qwen-image-2509:ää kuvien muokkaamiseen. En ole aikaisemin siitä tänne kirjoittanut, joten laitan lyhyen postauksen siitä mitä tällä työkalulla on mahdollista tehdä jotta vähemmän teknologiaa seuraavatkin voivat kuulla mitä kaikkea nykyajan AI-härpättimillä voidaan tehdä jo kotikoneella.

    Lyhesti kerrottuna kyseessä on tekoälymalli jolla voi muokata olemassa olevia kuvia. Erinomaista siinä on sen laatu, sekä se, että sitä voi ajaa omalla koneellaan ainakin ComfyUI käyttöliittymässä mikäli koneessa riittävät tehot.

    Omassa koneessa on 32 GB RAMia ja näytönohjaimena on 16 GB VRAM:illa varustettu NVidia RTX 4060 Ti jolla ainakin pikaisella 4 Step LoRA:lla yhden kuvan saa muokattua muutamassa minuutissa, tosin vaihteluväliä on paljon aina 53 sekunnista 134:ään sekuntiin.

    Mikäli laatua haluaa paremmaksi, pitää nopeuttavat LoRA:t jättää työnkulusta pois jolloin laatu ainakin joissain tapauksissa paranee mutta generoinnissa kestää merkittävästi kauemmin. Muutaman testin perusteella tähän meni aikaa noin 8,5 minuuttia per kuva.

    Generoin tämän blogipostauksen alussa nähtävän hevoskärrykuvan ensin Z-Image Turbolla jonka jälkeen käytin qwen-image-edit-2509:ää seuraavien kuvien muokkaamiseen joista saa jonkinlaisen käsityksen mitä tällä voi tehdä.

    Qwen-image-edit-2509:n näkemys samasta hevoskärrystä jos se olisi kuvattuna edestä.
    Sama kärry kuvattuna takaa.

    Yhdestä kuvasta pystyi tällä työkalulla siis generoimaan useamman kuvan eri kuvakulmasta. Tästä oli hyötyä lyhyessä AI:lla tekemässäni videossa.

    Olen käyttänyt qwen-image-edit-2509:ää myös laajentamaan kuvia. Alkuperäisessä kuvassa on ollut henkilö osittain näkyvissä jonka jälkeen tällä mallilla on voinut luoda henkilöstä kokovartalokuvan kuten alla olevista kuvista voi nähdä.

    Alkuperäinen Z Image Turbolla generoitu kuva
    Qwen-Edit-2509:llä laajennettu kuva, eli puolivartalokuvasta saa tehtyä kokovartalokuvan.
    Myös hahmon pyöräyttäminen onnistuu tässäkin tapauksessa kumpaan suuntaan tahansa

    Kuvan muokkausta voi käyttää myös kohteiden sijoittamiseen uuteen taustaan kuten alla olevista kuvista näkee.

    Alkuperäinen Z Image Turbolla generoitu kuva
    Hahmo siirrettynä uuteen taustaan käyttäen qwen-image-2509:ää
    Maiseman vaihdon lisäksi myös vaatteiden vaihto, käsien asennon muutos sekä ilmeen vaihdos onnistuu. Lisäksi kädessä olleet pelikortit on jätetty pois.

    Kuten yllä olevista esimerkeistä voi huomata, tekoälymallilla on mahdollista muokata kuvia jo tätä nykyä omalla kotikoneella erittäin monipuolisesti. Kuvissa nähtävien taustojen ja esineiden vaihto tai poisto, ilmeiden ja kehon asennon muutokset, eri kuvakulmista kohteen näyttämiset sekä valaistuksen muutokset ja monet muut tarpeet onnistuvat kohtalaisen nopeasti.

    Kuvan laatu on omiin tarpeisiini hyvä jo nopealla 4 Step LoRA:lla jolloin myös kuvan generointiaika pystyy maltillisena.

    Virheitä muokkauksiin kyllä tulee ja toisinaan olen jättänyt asian tekemättä jos tarpeeksi monella yrittämällä en ole saanut tulosta joka olisi edes sinne päinkään sitä mitä koetan saavuttaa, mutta näiden tapausten määrä on merkittävästi vähäisempää kuin onnistuneiden muokkausten tekeminen. Useasti tulee kuitenkin samasta kuvauksesta generoitua monta kuvaa ennen kuin tulos tulee sellaiseksi kuin haluaa.

    Esimerkiksi vielä loppuun laitan kolme kuvaa joista kaksi ensimmäistä on lähdekuvat ja viimeisenä on kuva jossa olen yhdistänyt viulua soittavan naisen käyttämään toisessa kuvassa nähtyä avaruuspukua. Näitä kuvia generoin ensin seitsemän kuvaa jotka ei onnistuneet siinä mitä koetin tavoitella, mutta kahdeksas kerta tuotti haluamani lopputuleman.

    Alkuperäinen Z Image Turbolla generoitu kuva naisesta soittamassa viulua.
    Alkuperäinen Z Image Turbolla generoitu kuva astronautista hyppimässä avaruudessa planeetalla.
    Lopullinen qwen-image-2509:llä generoitu kuva jossa on yhdistetty henkilö ja asu yllä nähdyistä kuvista
  • Eläköön, AI-kuvien fotorealismi!

    Omalla tietokoneella pyörivällä AI-kuvien generoinnilla saavutetaan jo huikean realistinen taso

    Ilmeisesti eilen julkaistiin uusi poikkeuksellisen hyvä tekoälymalli kuvien generointiin, sillä huomasin sen tänään työpäivän loppuvaiheilla ja ensimmäiset postaukset siitä olivat eiliseltä ainakin nopeasti Redditin viestien aikaleimoista katsottuna. Heti toimistolta kotiin päästyäni täytyi malli ladata omalle koneelle kokeilemista varten. Yhden illan kokeilujen perusteella olen todella vakuuttunut sen laadusta ja nopeudesta.

    Malli on nimeltään Z Image Turbo ja sen saa pyörimään omalla koneella mikäli konetehot riittävät, eli sitä ei tarvitse ajaa missään pilvipalvelussa. Tavalliseen tapaan tätäkin onnistuu ajaa ComfyUI:n työnkulkujen kautta ja valmis työnkulkuesimerkki löytyi nopeasti netistä Redditin keskusteluista.

    Omassa tietokoneessani on näytönohjaimena NVidia RTX 4060 Ti jossa on 16 GB VRAMia ja koneesta löytyy muistia 32 GB ja ainakin tällä kombinaatiolla kuvia onnistuu generoida nopealla tahdilla, sillä yhden kuvan generointiin menee ainoastaan n. 35 – 55 sekuntia 1920×1088 tai 1088×1920 resoluutiolla. Jostain syystä ComfyUI:ssa ei onnistu valita tälle FullHD-resoluutiota (eli 1920×1080), mutta väliäkö tuolla. Myös muita resoluutioita tuetaan, sillä ainakin oletuksena valintana oli 1024×1024.

    Tuttuun tapaan selkeimmät havaintokohdat mistä näistä yleensä erottaa ne tekoälyn generoimaksi kuvaksi on tekstit, sormet tai varpaat (jos varpaat on kuvassa nähtävissä). Myös näissä alempana nähtävissä esimerkkikuvissa voi ainakin yhden kuvan tunnistaa helposti tekoälyllä tehdyksi jos keskittyy katsomaan kuvassa tekstejä etiketeistä.

    Vaikka malli onkin hyvä, toisinaan kuvia generoidessa tulee silti mukaan selkeitä järjettömyyksiä kuten vaikkapa kolme kättä, mutta näin räikeiden epämääräisyyksien määrä on ollut erittäin harvinaista ainakin ensimmäisen illan testien perusteella, ehkä yksi tai kaksi kuvaa kahdesta sadasta generoidusta kuvasta on mennyt tähän kategoriaan.

    Vaikka nämä kuvat joita tässä blogitekstissä jaan ovat fotorealistisia tai vähintäänkin sellaiseen pyrkiviä, on hyvä huomioida että tällä mallilla onnistuu myös muunkinlaisten kuvien generointi. Kuvien aiheiden ei tarvitse noudattaa siis mitään fysiikan tai realismin lakeja ja sillä onnistuu generoida myös kuvia vaikkapa keijuista tai dinosauruksista. Lisäksi kuvatyylin ei tarvitse olla valokuva, vaan ne voivat olla esimerkiksi anime-tyylisiä piirroksia tai Pixarin elokuvien tyyliä, joten malli soveltuu muuhunkin kuin valokuvilta näyttävien kuvien generointiin.

    Kaikki tähän jakamani kuvat ovat vaakatasossa olevia blogitekstin selkeyden vuoksi (koska nämä generoidut pystykuvat eivät skaalaudu täysin samaan leveyteen tässä teemassa kuin vaakakuvat), mutta laitan luultavasti jonakin toisena päivänä postauksen missä on pelkästään pystykuvia. Mahdollisesti tulen julkaisemaan jossain vaiheessa myös postauksen joissa on kuvia jotka eivät noudata fysiikan tai realismin rajoja.

    Pidemmittä puheitta laitan tähän alle joitain tämän illan generoiduista kuvista josta voi itse kukin arvioida onko laatu millainen.