Hailuo AI
扫码查看

Hailuo Video est un outil de génération de vidéos par IA qui transforme rapidement du texte en contenu vidéo de haute qualité.

Hailuo AI

Étant quotidiennement torturé par les travailleurs de l'édition vidéo (occasionnellement, je fais aussi un peu de vidéo auto-médiatique), j'ai été très préoccupé par toutes sortes d'outils vidéo d'IA. Récemment, la vidéo sur la conque domestique (Hailuo AI) est très grand, affirmant que "chaque idée est un blockbuster", de la main de la société d'IA MiniMax. Après deux semaines d'utilisation approfondie, j'en suis venu à une expérience réelle - pas de vent, pas de noir, les avantages et les inconvénients sont étalés pour dire.

I. Qui est Conch Video ? Que puis-je faire ?
Conch video est un outil de génération de vidéos piloté par l'IA, la fonction principale des deux blocs :
Texte à vidéo (Text to Video/T2V) : saisie d'une phrase ou d'un script, AI génère directement des images dynamiques.
De l'image à la vidéo (I2V) : télécharger des images statiques et faire "bouger" les éléments de l'image, par exemple en faisant couler les nuages de la photo et en faisant clignoter et marcher les personnages.
Au début de l'année, elle a mis à niveau le moteur Hailuo 02, améliorant la qualité de l'image à 1080p et rendant les mouvements physiques plus réalistes, en particulier pour les mouvements complexes tels que la gymnastique et le lancer et l'attraper d'objets, qui étaient auparavant le "domaine le plus touché" par les vidéos d'intelligence artificielle.

2. tester personnellement la fonction principale : surprendre et renverser l'enregistrement 
1. Vidéo de Vincent : le moteur physique, c'est vraiment quelque chose
scène de base stable comme un vieux chien
test "clown lance et attrape trois petites balles" - la trajectoire parabolique des trois balles est tout à fait raisonnable, l'action du clown est naturelle, mais aussi avec un sourire et un clin d'œil détails 3. Par rapport aux "mains et pieds fantômes" générés par d'autres outils il y a six mois, les progrès sont évidents à l'œil nu.

Scène physique complexe 
Défi : "Femme se maquillant devant un miroir".
Résultat : l'action du rouge à lèvres est délicate, l'image miroir est impeccable - il s'agit d'un test classique de l'authenticité de la vidéo de l'IA, la conque a en fait passé le niveau 3 !
Les instructions extra-longues garantissent un degré élevé
Une explosion élémentaire de mots clés :
"Femme à la jupe jaune sur un canapé fleuri, livre rouge sur la table, assiette jaune avec un steak d'asperges, golden retriever en promenade, homme en smoking assis, enfant enneigé jouant devant la fenêtre, peinture d'un voilier sur le mur..."
Le film terminé : les éléments sont presque tous réussis ! L'assiette de steak, l'enfant des neiges, la marche du golden retriever sont tous rendus avec précision.3 Cependant, l'apparence des personnages est aléatoire à chaque fois qu'ils sont générés, ce qui nécessite de multiples "tirages de cartes".

Figure née vidéo : laisser l'image fixe "vivre" dans le sens du film
Une clé pour générer du matériel vidéo court
Téléchargez une photo de la poupée Labubu, saisissez-la : "vidéo promotionnelle, affichage de plusieurs scènes de la poupée, fin de l'ajout des effets spéciaux du texte 'Labubu' ".
Le film fini : les modèles d'enfants dans les différentes scènes transitent en douceur, les effets de texte sans fautes d'orthographe (ce point est meilleur que certains outils internationaux), peut être utilisé directement comme matériel publicitaire 3.

La gestion professionnelle des objectifs est un atout caché
Le "mode directeur" propose 15 langues d'objectif (push/pull/shake/shift, etc.), qui peuvent être combinées librement.
Test case : téléchargement d'une photo d'un paysage de montagne enneigée + cue word "camera left, woman walks towards the snowy mountain" (caméra à gauche, femme marchant vers la montagne enneigée).
Effet : Panoramique cinématographique, changements simultanés de personnages et de profondeur de champ, et sens de l'atmosphère.46
supporte également le zoom Hitchcock - une technique difficile à obtenir même avec un montage manuel !

Référence principale (S2V) : il s'agit de la "bombe royale".
C'est la fonction la plus convaincante : téléchargez une photo du visage d'une personne et l'IA peut la faire jouer dans n'importe quelle scène.

Test : Téléchargez une photo de Dragon Mom tirée de "Power Trip" : "Debout devant le dragon dans la vallée, les cheveux longs flottant, la caméra se relève pour montrer les ailes du dragon qui se déploient".

Effet : Les traits du visage de Longmama sont stables, les ailes du dragon se balancent naturellement et le mouvement de la caméra correspond exactement à la description 5.

La solution traditionnelle nécessite de télécharger des photos de la même personne sous un grand nombre d'angles (ce qui prend beaucoup de temps et d'énergie), alors que Conch ne s'appuie que sur une seule photo pour assurer l'uniformité du sujet, ce qui accroît l'efficacité !

Expérience réelle

  • Résumé des avantages
    Le fonctionnement est extrêmement simple : l'interface du site officiel/APP est rafraîchie, le texte/la vidéo brute graphique se fait en 5 étapes (enregistrement→mode de sélection→input→generate→download) ;
  • Économique : les nouveaux utilisateurs reçoivent 500-1000 points (10 secondes de vidéo ≈ 50 points), les membres supportent la HD sans filigrane ;
  • Création mobile conviviale : L'APP prend en charge le contrôle du miroir et la prévisualisation en temps réel, ce qui vous permet de découper des films même pendant vos déplacements ;
  • Une itération ridiculement rapide : trois mises à jour majeures en trois mois, de l'animation de graphiques statiques aux percées du moteur physique.

 

  • ❌ Rappels sur les points douloureux
    Durée des vidéos : les vidéos individuelles sont limitées à 6 ou 10 secondes3 , les vidéos longues doivent être coupées manuellement ;
  • Des bogues occasionnels dans le moteur physique : par exemple, l'articulation non naturelle des montagnes dans "Train à travers les Alpes" ;
  • Les sujets multijoueurs ne sont pas encore pris en charge : S2V est actuellement limité à un seul joueur, et les vidéos interactives multi-joueurs devront attendre les mises à jour ;
  • La génération de texte est plus faible que l'écran : une mise en page complexe est sujette à des erreurs, c'est pourquoi nous suggérons d'éviter les sous-titres de grande taille.

 

FacebookXWhatsAppPinterestLinkedIn