VideoPoet: un LLM per generare video da un semplice prompt.


Google ha annunciato l’uscita di VideoPoet, un LLM per la generazione di video zero-shot. Recentemente molti modelli di generazione video sono stati proposti. In molti casi questi modelli dimostrano una qualità pittoresca sorprendente. Uno dei principali ostacoli nella generazione di video è la capacità di produrre movimenti coerenti. In molti casi, anche i migliori modelli attuali generano piccoli movimenti oppure se producono movimenti più ampi, mostrano artefatti evidenti.

L’articolo descrive “VideoPoet”, che può eseguire vari compiti come trasformazione testo-in-video, immagine-in-video, stilizzazione video, e generazione audio da video. Utilizza modelli autoregressivi e tokenizzatori per gestire diversi tipi di input e output. Il modello mostra capacità notevoli nella generazione di movimenti interessanti e di alta qualità nei video e ha ottenuto risultati promettenti nei test di valutazione. L’articolo mette in evidenza l’efficacia e il potenziale dei LLM nell’ambito della generazione video illustra i potenziali cammini di sviluppo.


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *