渾源視頻
掃碼查看

騰訊的 Hunyuan AI Video 是一個開放源碼的 13B 參數模型,可從文字產生具有先進動態和視覺保真度的高品質影片。

渾源視頻

人工智能不斷打破內容生成的極限,騰訊的 「渾圓視頻 」作為這一領域最具創新性的資產之一脫穎而出。結合 130 億個參數,這個開源模型率先通過文字轉視頻技術的簡單應用,創造出動態豐富、畫質優良的高品質視頻。此版本包羅萬象,������,並進一步深入介紹該工具的功能、案例研究以及啟動過程的詳細概要。
渾源介紹影片
漢元視頻模型只是騰訊整個漢元 AI 鏈條中的一環,該解決方案是為了與市場上其他現有的文字轉視頻模型正面交锋而定制的。儘管這一版本的主要區別在於它是開放源碼的,即開發者和研究人員可以根據自己的特定目的自由修改核心。13B 參數架構允許它描述非常複雜的場景,同時在產生的輸出中建立一致性。
該模型在生成具有流暢過場、自然移動的物件和連續視覺模式的視訊方面具有很高的效率。對於處理長序列有問題的競爭,並非所有人都能處理;但渾元視訊在保留畫格的時間流動方面特別出色,因此,在這樣的領域內,它非常適合廣告或教育領域的視訊內容製作任務。
主要特色與功能
洪源視訊新增了許多引人注目的領先功能,從而使其成為市場上頂級的視訊生成工具:
支援高達 1080p 解析度的高解析度輸出
AI/Deep learning 功能可偵測運動中的複雜動作與互動
想要瞭解更多相關資訊嗎?閱讀自動文字摘要指南
以不同顏色代替黃色汽車的部分/側面圖片
可自訂風格參數以進行藝術控制
模型的權重開放源碼,以便促進社區發展

模型的架構有包含空間和時間注意權重的頁面,讓模型與產生的物件一致,並流動物件的動作。這一連串的創新,讓他們在早期的模型世代中所面對的視覺假象,遠遠低於當時的感知。
實際測試結果
渾圓視訊在各種條件下的應用,證明了它的有效性和目前的瓶頸。AI 系統在一些簡單的情境下,例如山間的夕陽和繁忙的城市街道,都相當有效,達到畫面栩栩如生、動態和光線變化可感知的程度。模型在背景中確實會遇到物件遮蔽等問題,然而相較於其他模型,出現的不一致情況較少。
一個值得注意的正面是模型在辨識類似人類的人物時的表現。雖然不是逼真,但這些人物比其他人物更逼真,因此在解說影片的情況下更容易被接受。此外,由於對精確度的要求,它們也可以用來做概念性的演示,而不是在這一點上。
在本機部署的情況下,其產生速度相當合理,在高階消費性機器上,5 秒的影片約需 90 秒即可完成。以雲端為基礎的方式似乎更有效率,因此搭配主機架構,仍是主要關鍵。
逐步使用教學
使用渾元視訊,乍看之下,需要與程式碼相關的故障排除,但如果使用者有技術背景,過程會相當容易。
從官方的渾源 GitHub 頁面複製一份套件庫
將所有相依性設定就位,例如安裝 PyTorch 和 CUDA 以進行 GPU 加速
取得模型預先訓練的權重
在提供的腳本中填入您的文字提示
以您所寫的文字執行指定的指令
檢查/處理產生的視訊,以確保它是可接受的

終端使用者若覺得命令列工具令人望而生畏,可能會偏好由社群開發的網路介面,這種介面採用較具視覺吸引力的方式,儘管較為連貫且僅供視力正常或視覺受損的使用者存取,但卻不像命令列那般一目了然。
優點與缺點
優點:洪源視訊比大多數的開放原始碼工具更優勝,它所產生的視訊具有視覺吸引力和連貫的動態,但同時在視覺上又不奢華。
缺點: 為了在最高層級上運作,模型需要大量的計算資源,而大部分的計算資源可能無法提供給某些使用者,因為他們可能會發現存取的限制。資源數量相當可觀。
浑源视频软件是开源人工智能视频生成项目的一个有利可图的新成员,因为它标志着研究领域的进步进入了一个新时代,同时也是日常功能应用中的一个有价值的工具。由於複雜性不高,開發人員現在可以輕鬆地構想他們夢寐以求的客製視訊管道。對於視訊內容創造者來說,這些資產比只有高品質的資產更有需求。

臉書XWhatsAppPinterestLinkedIn