Blog · Geração de Vídeo · 10 min de leitura

Google Flow + Gemini Omni: Primeiras Impressões para Geração de Vídeo

Por Fabio Douek

Ir para seção
Explica (TLDR) como se eu fosse...
O que é isso?

Imagina que seu amigo robô consegue desenhar um desenho animado bem pequenininho de você jogando um esporte, com todos os sons certos, só de você falar o que quer. Tênis, pickleball, padel: ele faz três filminhos, e você não precisa pegar nem um lápis.

A parte divertida é que depois você pode falar "deixa a bolinha mais rápida" ou "coloca o menino de tênis vermelho", e o robô redesenha só o pedacinho certo. A parte difícil é que o robô não jogou todo esporte que existe, então às vezes ele mistura os detalhes, e um adulto precisa perceber isso.

Trate o Google Flow rodando em Gemini Omni como a entrada de um novo fornecedor no pipeline de conteúdo. As perguntas relevantes são direitos sobre o output do modelo, exposição a dados de treino, e quais obrigações de disclosure sobre conteúdo de IA o time herda no momento em que esses clipes vão para social, publicidade ou canais com clientes.

O Flow agora roda em Gemini Omni para vídeo, Veo 3.1 para controles criativos expandidos, e Nano Banana para imagens estáticas, vendido por assinatura com créditos em tiers em vez de cobrança por clipe. Leia a licença sobre propriedade do output, confirme qual modelo produziu cada render, e trate qualquer coisa destinada a mídia paga como material que exige os mesmos controles de proveniência de qualquer outro asset gerado por IA.

Pense nisso como um tratamento alvo para o problema de produzir conteúdo em vídeo curto, baseado em cenas, sem uma equipe de filmagem. O mecanismo é um modelo multimodal que aceita texto, fotos e clipes curtos como input e devolve por volta de dez segundos de vídeo com áudio sincronizado, além de edições em linguagem natural em múltiplos turnos por cima.

Efeitos colaterais a monitorar são detalhes confiantemente errados em assuntos de nicho e as lacunas usuais de realismo em movimento rápido. Bons candidatos são marketing, prototipação e explainers internos. Maus candidatos são qualquer coisa vendida como referência factual, onde pequenos erros visuais induzem o público ao erro.

Note o que muda para um criador quando uma ideia visual de dez segundos deixa de custar meio dia de filmagem. O alívio é real, e costuma aparecer na forma de pessoas dispostas a tentar o conceito bobo que teriam silenciosamente matado numa reunião de planejamento, porque o custo de descobrir agora é uma pausa para o café.

O novo atrito aparece em outro lugar. O trabalho vira direção em vez de execução: escrever o storyboard, nomear os detalhes pequenos, decidir qual take do modelo é honesto o bastante para publicar. Os times que vão prosperar são os que combinam em voz alta o que conta como bom o bastante, porque o modelo vai gerar com alegria mais do que o time tem paladar para aproveitar.

Trate o Flow como um pequeno estúdio com um músico de sessão incansável. O Storyboard Studio é a partitura, o Scenebuilder é o arranjo, e o Gemini Omni é o músico que sabe ler qualquer um dos dois, ou apenas pegar o feeling de uma linha cantarolada. O tempo de uma volta de ideia até clipe é de poucos minutos, o que muda silenciosamente com que frequência você se dá ao trabalho de tentar.

O detalhe é o feel. O músico é ótimo dentro de dez segundos e começa a divagar um pouco depois disso, então você compõe em frases curtas e encadeia em vez de pedir um solo longo. Quando você pega o jeito de escrever em movimentos de oito compassos e editar no passe seguinte, o conjunto se sustenta e a música cai bem.

A história aqui é tempo até valor para vídeo. Um conceito curto que antes precisava de briefing, storyboard, filmagem e corte agora chega como um clipe de dez segundos publicável em uma tarde com um criador só. O antes e depois é concreto o bastante para colocar num deck quase sem edição.

O posicionamento não é "substitua seu time de vídeo", é "finalmente deixe o time prototipar em voz alta". Lidere com o Storyboard Studio para profissionais de marketing que já pensam em cenas, áudio nativo para times social-first, e o modelo unificado de créditos para finance owners que odeiam surpresas de preço por clipe.

Google Flow + Gemini Omni: Primeiras Impressões para Geração de Vídeo

Visão Geral

A Google anunciou o Gemini Omni no Google I/O ‘26 (19 e 20 de maio de 2026) como o novo modelo omni por trás da geração e edição de vídeo no Gemini e no Google Flow. A página inicial do Flow agora lista o Gemini Omni ao lado do Veo 3.1 e do Nano Banana como a camada de modelos por trás do estúdio criativo, com o Omni descrito como o “mais recente modelo de geração e edição de vídeo” da Google que “vai substituir o Veo no app Gemini.”

O Flow em si é o “estúdio criativo de IA da Google construído com os modelos generativos avançados da Google”, com duas ferramentas de composição nomeadas em cima da camada de modelos: Storyboard Studio (“escreva um roteiro, crie o elenco e visualize um storyboard”) e Scenebuilder para composição cena a cena. A mudança do Veo 3.1 para o Omni importa porque o Omni é o primeiro modelo de vídeo da Google que aceita texto, fotos e vídeo curto como input misturado no mesmo prompt, em vez de tratá-los como modos separados.

Para um teste de verdade, pedi ao Flow que produzisse um explainer satírico dos três esportes, focado nas diferenças técnicas (raquetes, bolas, paredes, a “Kitchen” do pickleball, e a mecânica do saque), com um narrador hiper energético no estilo comentarista esportivo e um visual 3D em estilo Pixar. A premissa era deliberadamente boba: jogadores brasileiros contra jogadores irlandeses, com personagens nomeados, legendas na tela e sound design exagerado. O detalhe é que um único render do Gemini Omni tem teto de dez segundos, então para entregar uma peça de quarenta segundos precisei gerar quatro clipes separados e costurá-los dentro do Scenebuilder do Flow. Abaixo está o que aconteceu.

Principais Recursos

As peças que de fato usei nessa sessão, mais as que valem conhecer mesmo que eu não tenha me apoiado nelas:

  • Clipes de dez segundos com áudio nativo. O Gemini Omni Flash gera “vídeos de 10 segundos” com “geração de áudio nativo” por padrão, em vez de mixar áudio como uma segunda passada.
  • Inputs multimodais num único prompt. “Transforme qualquer combinação de texto, fotos ou vídeo em vídeo.” Fotos podem ser combinadas “até cinco” por geração, que é a alavanca para a continuidade estilo storyboard com que eu me importava nas três cenas.
  • Edição em múltiplos turnos. Marcado como “Novo” na página de visão geral do Gemini. Você mantém o clipe na tela e refina em linguagem comum (“deixe a bola se mover mais rápido”, “escureça as paredes do padel”), em vez de rerenderizar do zero a cada vez.
  • Storyboard Studio. Uma superfície de planejamento com roteiro e ciência de elenco que transforma um outline escrito num storyboard visual. Essa é a camada onde travei os três esportes como três cenas com um personagem consistente.
  • Scenebuilder. Composição cena a cena que espalha prompts visuais pelo storyboard, para que cada cena carregue seu próprio cenário e notas de movimento enquanto compartilha o mesmo elenco.
  • O seletor de modelo continua útil. O Veo 3.1 segue no Flow para “controles criativos expandidos e suporte a áudio nativo”, e o Nano Banana cuida de geração e edição de imagem dentro do mesmo canvas. O Omni é o padrão para vídeo novo, mas você não está preso a ele.
  • Teto de dez segundos e o workaround do Scenebuilder. Um render único do Omni Flash tem teto de dez segundos, ponto. Para fazer qualquer coisa mais longa você compõe múltiplos renders dentro do Scenebuilder, que os costura numa única timeline com o mesmo elenco e uma estética compartilhada. Vale saber antes de prometer trinta segundos pra alguém.

Preços

O Flow migrou para um modelo unificado de créditos Google AI. Créditos são consumidos por qualquer ação generativa em vídeo, imagem e edição, em vez de preço por tipo de clipe, que é a mudança com a qual os finance owners vão se importar mais do que qualquer outra coisa no spec sheet.

PlanoPreçoCréditos
Free$050 créditos diários do Flow
Google AI Plus$7.99/mês200 créditos mensais
Google AI Pro$19.99/mês1,000 créditos mensais
Google AI Ultra$99.99–$199.99/mês10,000–25,000 créditos mensais

Fonte: labs.google/flow.

Dois pontos que vale sinalizar. Primeiro, na minha sessão cada render de dez segundos do Gemini Omni custou 30 créditos, o que dá por volta de 33 clipes de dez segundos por mês no tier Google AI Pro (1,000 créditos / 30). Esse é o número de guardanapo para orçar; os 50 créditos diários do tier Free dão um ou dois clipes do Omni por dia antes de você começar a pagar. Segundo, a faixa Ultra cobre dois sub-tiers ($99.99 e $199.99) em vez de um preço único; escolha o orçamento de créditos que bate com o volume mensal real em vez de cair direto no topo.

Preço de API por clipe para o próprio modelo Gemini Omni (via Gemini API e Agent Platform API) não estava no ar no momento da escrita; o rollout do Omni Flash para desenvolvedores é o item “nas próximas semanas” do keynote do I/O ‘26.

Os Storyboards

A sessão começou como uma conversa, não como um prompt. Abri um projeto novo chamado Racket Sports Comparison Video e digitei uma frase: “i want to create a video explaining the difference between padel, tennis and pickleball. it must be a bit funny and with a narrator.” O Flow voltou com três perguntas de follow-up sobre o tom do narrador, o tipo de humor, e o estilo visual. Respondi numa linha: “hyper energetic. it can be satirical. brazilian players against irish players. 3d animation.”

Janela de chat do Flow: o kickoff do projeto Racket Sports Comparison Video

Essa resposta foi todo o briefing criativo. O Flow transformou isso num conceito funcional, gerou um primeiro storyboard, e ficou esperando feedback. Um vai e vem curto bastou para afiar o ângulo (apoiar nas diferenças técnicas em vez de comédia pastelão pura) e travar o elenco, com o Flow regenerando o storyboard a cada vez sem perder o contexto da conversa.

O output é um storyboard de nove frames. Seis frames narrativos cobrem o equipamento e as regras (raquetes, bolas, as paredes de vidro do padel, a Kitchen do pickleball, os saques contrastantes, e um resumo do elenco com legendas “STRINGS / HOLES / PLASTIC”), seguidos por três “Technical Appendices” com diagramas das dimensões das quadras de cada esporte. Esse último pedaço é o movimento que me convenceu do Storyboard Studio: eu nunca pedi as dimensões da quadra; o modelo decidiu que um explainer sobre esportes de raquete provavelmente deveria incluir os tamanhos reais das quadras, e adicionou.

Racket Science: o storyboard completo de nove frames do Flow, seis frames narrativos mais três apêndices com dimensões de quadra

O elenco persiste em cada frame sem que eu precise redescrever um único personagem, que é todo o ponto do Storyboard Studio comparado a prompting livre. O Scenebuilder espalha os prompts visuais em nível de cena (saibro vermelho vs. quadra dura de sábado de manhã vs. gaiola neon de padel) pelo storyboard, para que cada segmento carregue seu próprio cenário enquanto compartilha o mesmo elenco e tom.

A Demo: Tênis vs Pickleball vs Padel

O corte de quarenta segundos acima é quatro renders de dez segundos do Omni Flash combinados dentro do Scenebuilder do Flow. Pedi ao Omni para “extend to thirty seconds” e o chat respondeu, educadamente, que dez segundos é o teto fixo para uma única geração do Omni Flash e propôs exatamente esse fluxo: gerar um segmento de dez segundos por vez, e depois costurar no Scenebuilder. É a resposta certa; também é uma restrição real e vale conhecer logo de cara.

Scenebuilder do Flow: quatro clipes de 10 segundos mesclados numa única timeline, com uma caixa de chat para edições do Omni Flash abaixo

O Scenebuilder em si é a parte inesperadamente útil. Os quatro clipes ficam numa única timeline, você navega entre eles, e o prompt “Describe your edits” embaixo roteia pedidos de edição em linguagem natural de volta pelo Omni Flash no segmento que você tem selecionado. Não tem modo de edição separado e nem precisa sair da metáfora do chat; o mesmo loop conversacional que escreveu o storyboard também reescreve os cortes.

Para mostrar a amplitude, aqui está um segundo clipe do mesmo modelo no outro extremo do espectro estético: próximo do realismo live-action em vez da estilização Pixar acima. Mesmo fluxo do Flow, mesmo teto de dez segundos por render, visual bem diferente.

No que o Omni acertou:

  • Continuidade do elenco entre quatro renders separados. O Thiago parece o Thiago no tênis e no pickleball; a barba do Liam e a cara de pouco impressionado sobrevivem até o segmento do padel. Essa é a parte que prompting livre não consegue fazer, e é o maior argumento sozinho para usar o Storyboard Studio em vez de um prompt cru de texto.
  • A estética Pixar. Saturação, iluminação e rigging de personagem ficam consistentes entre segmentos mesmo com a paleta mudando (golden hour para o tênis, cartoon brilhante para o pickleball, arena neon para o padel).
  • Sound design. O áudio nativo carrega uma voz satírica de comentarista esportivo sobre um fundo de samba nas batidas brasileiras, com efeitos de twang / plink / thud no equipamento. O áudio não é mixado depois; é gerado junto com o frame.

Onde tropeçou:

  • Gerações com falha. Dois dos meus renders voltaram como Failed (a primeira tomada de tênis e a primeira de padel) e tiveram que ser refeitos. Em umas seis tentativas isso é chato mas não bloqueante; vale orçar um render ou dois a mais ao planejar um projeto.
  • O teto de dez segundos é real. Sem o Scenebuilder você ficaria preso. Com ele a restrição é viável, mas ainda força você a compor em frases curtas e decidir os cortes antes, que é um músculo diferente do prompting de forma longa.

A leitura honesta é que o Omni é bom na forma ampla de um esporte, no tom da comédia e na continuidade entre segmentos, e mais fraco nos pequenos detalhes específicos do esporte que distinguem disciplinas parecidas. Para um explainer satírico de trinta segundos essa lacuna é engraçada em vez de fatal; para um vídeo de treinamento técnico não seria.

Veredito

Para vídeo curto, baseado em cenas, onde o custo de errar um detalhe é “mais uma passada de edição”, o Flow rodando em Gemini Omni é genuinamente útil hoje. O Storyboard Studio mais o Scenebuilder é a parte que eu não devolveria: transforma “tenho uma ideia” num plano estruturado que o modelo de fato consegue seguir, em vez de uma parede de texto de prompt. Igualmente importante é o loop de iterar com o chatbot que transformou um briefing de uma frase (“brazilian players against irish players, 3d animation”) num storyboard de nove frames com elenco nomeado e diagramas técnicos de quadra; essa camada conversacional é a maior parte do que faz o Flow parecer diferente de uma ferramenta pura de prompt para vídeo. E o Scenebuilder é o que torna o teto de dez segundos por render viável na prática; sem ele, esse limite por render seria uma limitação bem maior do que o spec sheet sugere.

Comments