Intervista a Michele Petino: Intelligenza Artificiale, LLM, ChatGPT, ComfyUI, FLUX.1, …

Questa è la trascrizione del video. Leggi l'articolo originale con tutti i dettagli →

Iscriviti al mio canale YouTube: ValorosoIT. Retro tecnologia, impianti stereo vintage, retro computer, esperimenti e prove. Retroprogrammazione, Basic. Commodore, IBM, Atari, Apple, Texas Instruments, Amstrad, MSX.

Buongiorno, bentornati sul canale ValorosoIT, il canale dedicato ai computer e all'elettronica vintage. Ma questa volta non è proprio vintage! Ci troviamo al Varese RetroComputing 2024 insieme a Michele Petino.

Piacere, buongiorno!

E lui non ci parlerà di computer vintage, ma ci parlerà di qualcosa di più moderno. Sentiamo!

Sì, siamo qui presenti con una postazione che è un po’ diversa da quelle che potete trovare alle altre postazioni, in quanto ci hanno specificamente invitato per far vedere quello che è invece l’evoluzione più recente di quello che sono l’informatica e le tecnologie legate alla modellazione 3D, rendering e le nuove frontiere dell’intelligenza artificiale.

Allora, questa è la tua postazione, giusto?

Sì. Abbiamo portato per l’occasione una workstation di ultima generazione: è un Intel i9 di 13ª generazione, con una scheda video 4090 RTX, GeForce 4090. Abbiamo scelto questa scheda principalmente sia per la potenza, sia per la quantità di memoria video. Avendo 24 GB di memoria video ci consente di lavorare meglio con questi algoritmi di generazione di immagini da testo, perché necessitano di parecchio spazio, appunto.

Quindi ne parliamo di intelligenza artificiale generativa, che partendo da un testo riesce a creare un'immagine.

Esattamente. Ad esempio, in questo caso stiamo vedendo ComfyUI, con installato il nuovo motore che è uscito praticamente ad agosto (2024), che si chiama Flux. In questo caso stiamo usando Flux Dev, il FLUX.1 [dev].

Iscriviti al gruppo Facebook. Retro tecnologia, Commodore, impianti stereo vintage, retro computer, esperimenti e prove. Commodore, IBM, Atari, Apple, Texas Instruments, Amstrad, MSX.

Vedete, questo è un processo abbastanza... diciamo, è un flusso abbastanza complesso. In questo caso noi abbiamo acceso come punto di partenza un LLM Prompt Generator.

Questi flussi qua, chi li imposta?

Questi qua si possono generare come si vogliono, si possono modificare come si vuole, vedete?

Ma lo modifichi tu, però?

Certamente. In questo caso io ne ho usato uno che ha fatto un utente di Civitai, che è un sito dove appunto si possono trovare questo tipo di... sia modelli che...

Quindi si parte da una base…

Volendo sì, o anche da zero. Dopodiché, questo è abbastanza sofisticato perché si possono impostare parecchie fonti, diciamo così, del testo da elaborare, e poi varie funzioni successive, come l’aggiunta di disturbo per ingrandire con più dettagli, oppure l’ingrandimento, il miglioramento della faccia, eccetera.

In questo caso stiamo utilizzando un Prompt Generator che è collegato a ChatGPT.

Ah, a questo punto noi gli diciamo: Crea un prompt in inglese per la generazione di un’immagine di...

Cioè… neanche ti vuoi sbattere per creare un prompt?

Esatto. In questo caso la generazione è abbastanza... eh... complessa, perché lui va a fare un qualcosa di complicato come prompt. E otteniamo questo.

Nel momento in cui lanciamo la generazione, qui possiamo vedere una preview di quello che lui sta calcolando.

In questo caso, appunto, un animaletto all’uncinetto. Quando finisce di calcolarlo - lo vediamo da questa barra verde in alto che arriva in fondo - avremo l’immagine qui accanto.

Un’immagine che è generata... eccola qua.

Questa immagine chiaramente non esiste, non l’ha presa da un database: è stata creata dall’algoritmo di intelligenza artificiale, creandola praticamente dal nulla, basandosi sul prompt che le abbiamo inserito.

Ok. Ma invece, poi, il prompt che ChatGPT ha creato dov’è finito?

Il prompt che ha creato, è quello che lui ha utilizzato per fare questo lavoro, è questo qui, qui in alto. In questo caso l’ha creato... abbastanza facile, assolutamente, esatto.

Non s’è sbattuto più di tanto, ChatGPT. Altre volte invece crea dei prompt molto più complessi.

Proviamo adesso a creare un’immagine un po’ più complessa. Scriviamo in inglese, in questo modo ChatGPT capisce meglio quello che deve fare, in questo caso. Così si sbatte un po’ di più rispetto a prima.

Esatto. Allora, crea un prompt per generare un’immagine dettagliata di un mago nella foresta, con una natura strana, dei funghi luminosi, in un’atmosfera fantastica. Sullo sfondo, un castello dettagliato.

Proviamo a vedere cosa viene fuori con questo tipo di descrizione.

Ok, ho lanciato il comando.

Lui sta generando.

Ha creato il testo, si vede. Questo è tutto il prompt, quindi molto complesso.

Sì, molto di più rispetto alla riga che aveva fatto prima.

Qui adesso incomincerà a farmi vedere la preview di questa immagine.

Allora, nonostante la RTX 4090, un pochino di tempo ci mette, vedo.

Più che altro sì, ma non è tanto la scheda video in questo caso quanto il caricamento sulla memoria della scheda video di tutti i parametri e dei modelli necessari.

Ah, beh, si comincia a vedere qualcosa...

Ed ecco la nostra immagine. Come vedete, abbiamo i funghi luminosi. I funghi luminosi! Abbiamo il nostro mago, il castello sullo sfondo, e devo dire, complessivamente ha fatto un bel lavoro. Abbiamo la nebbiolina, i funghi sono molto credibili, anche se un po’ irreali...

Glieli hai chiesti tu luminosi, ma diciamo, che se glieli mettevi normali… non erano luminosi.

Esatto, in effetti. Bello!

E tu con questo puoi creare questo tipo di immagini di fantasia oppure anche… Qualsiasi cosa. Può essere un ritratto, una persona... è molto bravo a capire anche i dettagli.

Quindi possiamo far vedere delle immagini che abbiamo generato in precedenza, ad esempio proprio per questo evento, in cui - come potete vedere - Varese Retrocomputing 2024, riesce a riprodurre bene anche le scritte.

Ogni tanto sbaglia, ma raramente. E diciamo che questo Flux, rispetto a Stable Diffusion, ad esempio, ha un'ottima capacità di riprodurre scritte, ma anche mani, piedi e forchette. Esatto, che erano i talloni d’Achille.

Belle immagini!

Sì, infatti! Che tanti strumenti di intelligenza artificiale, in effetti, quando gli chiedi di generare un'immagine, per lui le scritte sono un po' offuscate, diciamo... non si capisce bene che cosa vorrebbe scrivere.

Qui c’è la... la O di retrocomputing, che sembra boh, un simbolo strano… ma sembra quasi voluto.

Eh, infatti. Ma probabilmente l’ha fatto per... chissà che motivo.

Ah, lo sa solo lui.

Lo sa solo lui, esatto.

Beh, uno dei punti chiave dell’intelligenza artificiale è che, tutto sommato, si perde un minimo di controllo rispetto a quello che si fa.

Assolutamente sì. A me ha colpito molto quando hanno intervistato i responsabili di OpenAI, che producono appunto ChatGPT. Gli è stato chiesto: Ma cosa succede esattamente all’interno di ChatGPT quando genera una risposta?

E la loro risposta è stata: Sinceramente, non lo sappiamo.

Esatto. Perché comunque si auto... si autocrea, si autogenera.

Belle queste foto qua.

Queste le abbiamo generate ieri, per oggi, per portare qualcosa. Vedete anche, ecco, la capacità di Flux di generare immagini con riflessi, luci molto dettagliate, credibili, è notevole. Guardate i riflessi sul metallo come sono coerenti, diciamo, coi colori e la luminosità della scena.

Sì, molto bella.

Qui in esposizione, oltre a questi motori di generazione di immagini con l’intelligenza artificiale, un po’ più legato a quello che è il mio lavoro, appunto modellazione 3D e rendering, ho portato anche SketchUp con questo D5 Render, che è un motore di render molto potente e che negli ultimi mesi si è arricchito di nuove funzionalità che consentono la creazione di render e il loro miglioramento con intelligenza artificiale, per avere un effetto visivo ancora più realistico.

Ma ad esempio, adesso, le pale che girano vengono renderizzate in tempo reale?

In questo caso sì. Tutto quello che stai vedendo lo sto muovendo in tempo reale. Questa scena è molto, molto semplice, ma con questo software - con una macchina adeguata - si riescono a realizzare scene molto molto complesse, anche di 4, 5, 6 miliardi di poligoni, senza troppi problemi.

Ti ringrazio molto allora per questa presentazione.

Prego, è stato un piacere.

Perché ridi?

È venuto male? Di merda! Allora stoppa che rifacciamo.

Ti ringrazio allora per questa presentazione.

E’ stato un piacere.

È stato un piacere anche per me.

Mi raccomando, iscrivetevi al canale @ValorosoIT, attivate la campanella delle notifiche e noi ci vediamo al prossimo video. Ciao!

Lascia un commento