Skyreels V1モデルでImage to Video

Skyreels V1モデルを使用し、ComfyUIでローカル動画生成を行いました。
Image to Video生成を行い、パラメータについても探ってみます。

また、本記事ではネイティブ版ではなくkijai氏のComfyUI-HunyuanVideoWrapperを使用します。

はじめに
生成結果
1. 完成した動画
2. パラメータテスト中の動画
Leapfusion Image-to-Videoとの比較
1. モデル
2. 生成結果[Leapfusion版]
まとめ

はじめに

Skyreels V1について

SkyReels V1は、Skyworkが開発したオープンソースの人間中心のビデオ生成モデルです。このモデルは、HunyuanVideoを微調整し、1,000万以上の高品質な映画やテレビのクリップでトレーニングされています。その結果、33種類の微妙な表情と400以上の自然な動作をサポートし、映画級の光と影の効果を持つ高品質なビデオを生成できます。github.com

SkyReels V1は、テキストからビデオを生成する「Text-to-Video（T2V）」と、画像からビデオを生成する「Image-to-Video（I2V）」の両方の機能を備えています。これにより、ユーザーは多様な創作ニーズに対応できます。github.com

このモデルは、GitHub上で公開されており、誰でも利用や改良が可能です。github.com

さらに、ComfyUIなどのプラットフォームでもSkyReels V1をサポートしており、ユーザーはこれらのツールを活用してビデオ生成を行うことができます。comfyuiweb.com

使用モデル

skyreels_hunyuan_i2v_fp8_e4m3fn.safetensors

huggingface.co

skyreels_hunyuan_i2v_fp8_e4m3fn.safetensors · Kijai/SkyReels-V1-Hunyuan_comfy...

https://huggingface.co/Kijai/SkyReels-V1-Hunyuan_comfy/blob/main/skyreels_hunyuan_i2v_fp8_e4m3fn.safetensors

保存場所は次のフォルダ

ComfyUI_windows_portable\ComfyUI\models\diffusion_models\hyvid

素材画像

画像生成した魔女の画像。これを入力画像として使用します。

プロンプト

日本語：

FPS-24, 幻想的な森の中、美しい魔女が魔法の鳥と戯れる。彼女は黒いレースのドレスと大きなとんがり帽子を身にまとい、長いウェーブの髪が風になびく。魔法のオーブを手に浮かべると、光の粒子が舞い上がり、そこから幻想的な光の鳥が生まれる。鳥は魔女の周りを優雅に飛び回り、彼女の指先にとまったり、くるくると宙を舞う。ランタンのほのかな光が森を照らし、黒い蝶やコウモリが舞う中、魔女は微笑みながら鳥と優雅に戯れる。霧が漂う神秘的な夜、静寂の中で魔法が輝く幻想的な映像。

English:

FPS-24, In an enchanting forest, a beautiful witch plays with a magical bird. She wears a flowing black lace dress and a wide-brimmed witch hat, with long wavy hair gently swaying in the breeze. As she lifts her hand, a glowing magical orb appears, releasing sparkling light particles that transform into a luminous bird. The ethereal bird flutters gracefully around her, perching on her fingertip and dancing through the air. Soft lantern lights illuminate the mystical woods, while black butterflies and bats hover nearby. In the misty, moonlit night, the witch smiles gently, immersed in this mesmerizing moment of magic and serenity.

ワークフロー

beautiful_witch.json ダウンロード

実行環境

Windows 11
Nvidia RTX 4080 16GB
ComfyUI_portable

ComfyUIやtritonその他インストールについては以前の記事を参考にしてください。

生成結果

720 x 720 x 97フレームの1動画あたりで約5分40秒かかりました。VRAM使用量は13.5GB程度。
GPUを70%に制限して使っているのでもう少し早く生成することも可能だと思います。

高速化に関する設定は以前の記事を参考にしてください。

完成した動画

最終的に次のような設定になりました。

720×720
97フレーム
30steps
embedded_guidance_scale: 9.0
flow_shift: 9.0
scheduler: DPMSolverMultistepScheduler

Skyreels V1のText to Videoモデルでは embedded_guidance_scale=1.0 を使うらしいですが、I2Vの場合は 9.0 まで上げたほうが綺麗になりました。
flow_shift も 9.0~17.0 あたりまで上げると良さげ。
scheduler は FlowMatchDiscreteScheduler よりも DPMSolverMultistepScheduler が若干綺麗な気がします。

以下が生成された動画です。

seed: 左上から 777, 888, 999, 101010

パラメータテスト中の動画

パラメータを探っている最中の動画も貼っておきます。
参考にしてみてください。

embedded_guidance_scaleをテスト

	それぞれの動画の設定
guidance_scale: 0.5 flow_shfit: 3.0	guidance_scale: 1.0 flow_shfit: 3.0
guidance_scale: 6.0 flow_shfit: 3.0	guidance_scale: 12.0 flow_shfit: 3.0

大きめの値のほうが背景が崩れていませんね。

embedded_guidance_scale 大きめの値をテスト

	それぞれの動画の設定
guidance_scale: 9.0 flow_shfit: 3.0	guidance_scale: 12.0 flow_shfit: 3.0
guidance_scale: 15.0 flow_shfit: 3.0	guidance_scale: 18.0 flow_shfit: 3.0

上げすぎると絵が潰れてしまうようです。

flow_shiftをテスト

	それぞれの動画の設定
guidance_scale: 9.0 flow_shfit: 2.0	guidance_scale: 9.0 flow_shfit: 3.0
guidance_scale: 9.0 flow_shfit: 9.0	guidance_scale: 9.0 flow_shfit: 17.0