Gerador de Vídeos IA
Quadros-chave
OpcionalQuadro Inicial
⇆
Quadro Final
Faça upload de imagens JPG/PNG/WEBP de até 10 MB, com largura/altura mínima de 300 px.
Prompt
*Modelo
Proporção
16:9
Resolução
480p
Duração
4s
Áudio
Ativado
Experimente o HappyHorse 1.0 da Alibaba no Cuty.ai — o modelo de vídeo IA #1 no Artificial Analysis Video Arena. Gere vídeo 1080p nativo com áudio sincronizado em uma única passagem direta, sincronização labial nativa em sete idiomas e qualidade cinematográfica a partir de prompts de texto ou imagem. Experimente grátis!
Descubra o que torna HappyHorse 1.0 excepcional
O HappyHorse 1.0 é construído sobre um Transformer unificado de fluxo único de 40 camadas que remove ruído de tokens de texto, imagem, vídeo e áudio juntos em uma única sequência — sem modelo Foley separado, sem etapa de pós-processamento. Fala, passos e som ambiente surgem da mesma etapa que as imagens, para que diálogo e ação na tela se alinhem em nível de fonema.
A sincronização labial em nível de fonema é entregue nativamente para inglês, mandarim, cantonês, japonês, coreano, alemão e francês. As formas da boca são produzidas dentro da mesma etapa de remoção de ruído que o restante do quadro — não acopladas por um pós-ajustador da região do rosto — fazendo do HappyHorse 1.0 um dos poucos modelos de vídeo de elite com diálogo multilíngue pronto para produção desde o lançamento.
Geração nativa em 1080p — não escalonada — em 16:9, 9:16, 1:1, 4:3 e 3:4, para que a mesma cena seja composta corretamente para entrega cinematográfica, vertical, quadrada e em retrato. Durações de clipe de 3 a 15 segundos, com cerca de 38 segundos de inferência por clipe de 5 segundos em 1080p em uma única NVIDIA H100, graças a um caminho de remoção de ruído destilado DMD-2 de 8 etapas.
O HappyHorse 1.0 conquistou o #1 tanto em Texto para Vídeo (Elo 1333) quanto em Imagem para Vídeo (Elo 1392) no Artificial Analysis Video Arena — um benchmark de preferência humana cega — em poucos dias após sua estreia anônima em 7 de abril de 2026. A diferença de 60 pontos Elo em T2V em relação ao líder anterior é o maior salto de um único lançamento na tabela desde o seu lançamento.
Tudo que você precisa saber sobre HappyHorse 1.0
HappyHorse 1.0 é o primeiro modelo de vídeo IA do Future Life Lab do Grupo Taotian da Alibaba — um Transformer unificado de 15 bilhões de parâmetros que gera vídeo e áudio sincronizado a partir de prompts de texto ou imagem em 1080p nativo. Após estrear de forma anônima no Artificial Analysis Video Arena por volta de 7 de abril de 2026 e imediatamente assumir o #1 tanto em Texto para Vídeo quanto em Imagem para Vídeo, a Alibaba reivindicou publicamente a autoria em 10 de abril de 2026.
O HappyHorse 1.0 foi construído no Future Life Lab do Grupo Taotian da Alibaba, parte da unidade de inovação em IA ATH (Alibaba Token Hub). O líder técnico é Zhang Di — um veterano com quinze anos de experiência no setor, que serviu como Vice-Presidente na Kuaishou e foi o arquiteto técnico do Kling AI antes de retornar à Alibaba no final de 2025 para liderar o laboratório.
Diferentemente da maioria dos modelos de vídeo que adicionam áudio como uma etapa de pós-processamento separada, o HappyHorse 1.0 coloca os tokens de texto, imagem, vídeo e áudio em uma única sequência de tokens e os remove de ruído juntos em um Transformer unificado de fluxo único de 40 camadas. Fala, efeitos sonoros e áudio ambiente sincronizam-se naturalmente com as imagens porque são produzidos na mesma passagem direta.
O HappyHorse 1.0 oferece sincronização labial nativa em sete idiomas: inglês, mandarim, cantonês, japonês, coreano, alemão e francês. As formas da boca são alinhadas a fonemas na mesma etapa de remoção de ruído que o restante do quadro. Outros idiomas ainda produzem movimento bucal razoável, mas a precisão em nível de fonema é inferior ao conjunto suportado.
O HappyHorse 1.0 gera vídeo 1080p nativo (com 720p disponível) em clipes de 3 a 15 segundos. As proporções incluem 16:9, 9:16, 1:1, 4:3 e 3:4 — abrangendo formato cinematográfico, vertical para celular, quadrado para redes sociais e retrato. O pipeline de destilação DMD-2 de 8 etapas leva cerca de 38 segundos por clipe de 5 segundos em 1080p em uma única NVIDIA H100.
O HappyHorse 1.0 ocupa o #1 tanto em Texto para Vídeo quanto em Imagem para Vídeo no Artificial Analysis Video Arena, à frente de Kling, Veo e Seedance em votação cega de preferência humana. Ele também é único entre os modelos de elite por gerar vídeo e áudio juntos em uma única passagem direta, sincronização labial nativa em sete idiomas e saída cinematográfica nativa em 1080p. Com o áudio ativado, o HappyHorse 1.0 ocupa atualmente o #2 por uma pequena margem.
Você pode experimentar o HappyHorse 1.0 no Cuty.ai com nossos créditos de teste gratuitos — tanto Texto para Vídeo quanto Imagem para Vídeo estão disponíveis no estúdio. Para uso intensivo e acesso a todos os recursos premium, incluindo clipes mais longos e o modo Pro para tomadas hero e conteúdo com muito diálogo, oferecemos diversos planos de assinatura.
Comece a gerar conteúdo incrível com nossos poderosos modelos de IA. Experimente grátis hoje!