AI 비디오 생성기
키프레임
선택사항시작 프레임
⇆
종료 프레임
JPG/PNG/WEBP 이미지를 업로드할 수 있습니다(최대 10MB, 가로/세로 최소 300px).
프롬프트
*모델
종횡비
16:9
해상도
480p
지속 시간
4s
오디오
켜기
Cuty.ai에서 알리바바의 HappyHorse 1.0을 만나보세요 — Artificial Analysis Video Arena 1위에 오른 AI 영상 모델. 단 한 번의 순방향 패스로 네이티브 1080p 영상과 동기화 오디오를 생성하고, 7개 언어의 네이티브 립싱크와 텍스트·이미지 프롬프트로 시네마틱 품질을 구현합니다. 무료로 체험해 보세요!
무엇이 HappyHorse 1.0 특출난지 알아보세요
HappyHorse 1.0은 텍스트, 이미지, 영상, 오디오 토큰을 하나의 시퀀스에서 함께 디노이징하는 40레이어 통합 단일 스트림 Transformer 위에 구축되었습니다. 별도의 Foley 모델이나 후처리 패스가 필요 없으며, 음성·발자국·환경음이 영상과 동일한 단계에서 생성되어 대사와 화면 동작이 음소 수준으로 정렬됩니다.
음소 단위 립싱크가 영어, 중국어(만다린), 광둥어, 일본어, 한국어, 독일어, 프랑스어의 7개 언어에서 네이티브로 제공됩니다. 입 모양은 얼굴 영역 후처리기로 덧붙이는 방식이 아니라, 프레임 전체와 같은 디노이징 단계에서 생성됩니다. 그래서 HappyHorse 1.0은 출시 시점부터 다국어 대사를 프로덕션 품질로 제공하는 보기 드문 최상위 영상 모델 중 하나입니다.
업스케일이 아닌 진짜 1080p 생성 — 16:9, 9:16, 1:1, 4:3, 3:4 비율을 지원하여 동일한 장면을 시네마틱·세로형·정사각·세로 인물 컷에 맞게 정확히 구성할 수 있습니다. 클립 길이는 3~15초이며, 8단계 DMD-2 증류 디노이징 경로 덕분에 단일 NVIDIA H100에서 5초 1080p 클립을 약 38초만에 추론합니다.
HappyHorse 1.0은 2026년 4월 7일 익명으로 데뷔한 지 며칠 만에, 사람의 선호도를 가린 블라인드 벤치마크인 Artificial Analysis Video Arena의 텍스트 투 비디오(Elo 1333)와 이미지 투 비디오(Elo 1392) 부문에서 모두 1위에 올랐습니다. T2V에서 직전 1위 모델 대비 60Elo 차이는 리더보드 출범 이래 단일 릴리스 기준 최대 상승 폭입니다.
알아야 할 모든 것 HappyHorse 1.0
HappyHorse 1.0은 알리바바 타오톈 그룹 산하 Future Life Lab에서 처음 선보인 AI 영상 모델로, 150억 매개변수의 통합 Transformer입니다. 텍스트나 이미지 프롬프트로 네이티브 1080p 영상과 동기화 오디오를 함께 생성합니다. 2026년 4월 7일경 Artificial Analysis Video Arena에 익명으로 등장해 즉시 텍스트 투 비디오와 이미지 투 비디오 부문 1위를 차지한 뒤, 알리바바는 2026년 4월 10일에 자사가 만들었음을 공식 발표했습니다.
HappyHorse 1.0은 알리바바 타오톈 그룹 산하 Future Life Lab에서 개발되었으며, 이 연구소는 ATH(Alibaba Token Hub) AI Innovation Unit 소속입니다. 기술 책임자는 장디(Zhang Di) — 15년 경력의 베테랑으로, Kuaishou 부사장과 Kling AI 기술 아키텍트를 거쳐 2025년 말 알리바바로 돌아와 이 연구소를 이끌고 있습니다.
오디오를 별도의 후처리 단계로 붙이는 대부분의 영상 모델과 달리, HappyHorse 1.0은 텍스트·이미지·영상·오디오 토큰을 하나의 토큰 시퀀스에 담아 40레이어 통합 단일 스트림 Transformer로 함께 디노이징합니다. 음성·효과음·환경음이 영상과 동일한 순방향 패스에서 생성되기 때문에 자연스럽게 동기화됩니다.
HappyHorse 1.0은 영어, 중국어(만다린), 광둥어, 일본어, 한국어, 독일어, 프랑스어의 7개 언어에서 네이티브 립싱크를 지원합니다. 입 모양은 프레임 전체와 같은 디노이징 단계에서 음소에 정렬됩니다. 그 외 언어에서도 비교적 자연스러운 입 움직임은 가능하지만 음소 단위 정확도는 지원 언어보다 낮습니다.
HappyHorse 1.0은 네이티브 1080p 영상(720p 선택 가능)을 3~15초 길이로 생성합니다. 화면비는 16:9, 9:16, 1:1, 4:3, 3:4를 지원하여 시네마틱 와이드, 모바일 세로, 정사각 SNS, 세로 인물 포맷을 모두 커버합니다. 8단계 DMD-2 증류 파이프라인은 단일 NVIDIA H100에서 5초 1080p 클립당 약 38초가 걸립니다.
HappyHorse 1.0은 Artificial Analysis Video Arena의 텍스트 투 비디오와 이미지 투 비디오 모두에서 1위를 유지하며, 블라인드 인간 선호도 투표에서 Kling, Veo, Seedance를 앞섭니다. 또한 단일 순방향 패스에서 영상과 오디오를 함께 생성하고, 7개 언어에서 네이티브 립싱크를 제공하며, 네이티브 1080p 시네마틱 출력을 갖춘 점에서 최상위 모델 가운데서도 독보적입니다. 오디오를 켠 상태에서는 HappyHorse 1.0이 근소한 차이로 현재 2위입니다.
Cuty.ai에서 무료 체험 크레딧으로 HappyHorse 1.0을 사용해 보실 수 있습니다 — 텍스트 투 비디오와 이미지 투 비디오 모두 스튜디오에 활성화되어 있습니다. 더 긴 클립, 핵심 컷·대사 비중이 높은 콘텐츠를 위한 Pro 모드 등 모든 프리미엄 기능을 폭넓게 사용하시려면 다양한 구독 플랜을 제공합니다.