Skyreels V1モデルでImage to Video

AI

Skyreels V1モデルを使用し、ComfyUIでローカル動画生成を行いました。
Image to Video生成を行い、パラメータについても探ってみます。

また、本記事ではネイティブ版ではなくkijai氏のComfyUI-HunyuanVideoWrapperを使用します。

はじめに

Skyreels V1について

SkyReels V1は、Skyworkが開発したオープンソースの人間中心のビデオ生成モデルです。このモデルは、HunyuanVideoを微調整し、1,000万以上の高品質な映画やテレビのクリップでトレーニングされています。その結果、33種類の微妙な表情と400以上の自然な動作をサポートし、映画級の光と影の効果を持つ高品質なビデオを生成できます。github.com

SkyReels V1は、テキストからビデオを生成する「Text-to-Video(T2V)」と、画像からビデオを生成する「Image-to-Video(I2V)」の両方の機能を備えています。これにより、ユーザーは多様な創作ニーズに対応できます。github.com

このモデルは、GitHub上で公開されており、誰でも利用や改良が可能です。github.com

さらに、ComfyUIなどのプラットフォームでもSkyReels V1をサポートしており、ユーザーはこれらのツールを活用してビデオ生成を行うことができます。comfyuiweb.com

使用モデル

  • skyreels_hunyuan_i2v_fp8_e4m3fn.safetensors

保存場所は次のフォルダ

ComfyUI_windows_portable\ComfyUI\models\diffusion_models\hyvid

素材画像

画像生成した魔女の画像。これを入力画像として使用します。

美しい魔女の画像

プロンプト

日本語:

FPS-24, 幻想的な森の中、美しい魔女が魔法の鳥と戯れる。彼女は黒いレースのドレスと大きなとんがり帽子を身にまとい、長いウェーブの髪が風になびく。魔法のオーブを手に浮かべると、光の粒子が舞い上がり、そこから幻想的な光の鳥が生まれる。鳥は魔女の周りを優雅に飛び回り、彼女の指先にとまったり、くるくると宙を舞う。ランタンのほのかな光が森を照らし、黒い蝶やコウモリが舞う中、魔女は微笑みながら鳥と優雅に戯れる。霧が漂う神秘的な夜、静寂の中で魔法が輝く幻想的な映像。

English:

FPS-24, In an enchanting forest, a beautiful witch plays with a magical bird. She wears a flowing black lace dress and a wide-brimmed witch hat, with long wavy hair gently swaying in the breeze. As she lifts her hand, a glowing magical orb appears, releasing sparkling light particles that transform into a luminous bird. The ethereal bird flutters gracefully around her, perching on her fingertip and dancing through the air. Soft lantern lights illuminate the mystical woods, while black butterflies and bats hover nearby. In the misty, moonlit night, the witch smiles gently, immersed in this mesmerizing moment of magic and serenity.

ワークフロー

実行環境

  • Windows 11
  • Nvidia RTX 4080 16GB
  • ComfyUI_portable

ComfyUIやtritonその他インストールについては以前の記事を参考にしてください。

生成結果

720 x 720 x 97フレーム の1動画あたりで約5分40秒かかりました。VRAM使用量は13.5GB程度。
GPUを70%に制限して使っているのでもう少し早く生成することも可能だと思います。

高速化に関する設定は以前の記事を参考にしてください。

完成した動画

最終的に次のような設定になりました。

  • 720×720
  • 97フレーム
  • 30steps
  • embedded_guidance_scale: 9.0
  • flow_shift: 9.0
  • scheduler: DPMSolverMultistepScheduler

Skyreels V1のText to Videoモデルでは embedded_guidance_scale=1.0 を使うらしいですが、I2Vの場合は 9.0 まで上げたほうが綺麗になりました。
flow_shift も 9.0~17.0 あたりまで上げると良さげ。
scheduler は FlowMatchDiscreteScheduler よりも DPMSolverMultistepScheduler が若干綺麗な気がします。

以下が生成された動画です。

  • seed: 左上から 777, 888, 999, 101010

パラメータテスト中の動画

パラメータを探っている最中の動画も貼っておきます。
参考にしてみてください。


embedded_guidance_scaleをテスト

それぞれの動画の設定
guidance_scale: 0.5
flow_shfit: 3.0
guidance_scale: 1.0
flow_shfit: 3.0
guidance_scale: 6.0
flow_shfit: 3.0
guidance_scale: 12.0
flow_shfit: 3.0

大きめの値のほうが背景が崩れていませんね。


embedded_guidance_scale 大きめの値をテスト

それぞれの動画の設定
guidance_scale: 9.0
flow_shfit: 3.0
guidance_scale: 12.0
flow_shfit: 3.0
guidance_scale: 15.0
flow_shfit: 3.0
guidance_scale: 18.0
flow_shfit: 3.0

上げすぎると絵が潰れてしまうようです。


flow_shiftをテスト

それぞれの動画の設定
guidance_scale: 9.0
flow_shfit: 2.0
guidance_scale: 9.0
flow_shfit: 3.0
guidance_scale: 9.0
flow_shfit: 9.0
guidance_scale: 9.0
flow_shfit: 17.0

高めの値のほうが背景のランタンや木が綺麗。あと、ある程度上げると人物の動きが変わりました。

Leapfusion Image-to-Videoとの比較

Hunyuan Video + Leapfusion Image-to-Video の組み合わせでも魔女の動画を生成してみました。
Skyreels V1との比較として参考にしてみてください。

モデル

  • hunyuan_video_720_cfgdistill_fp8_e4m3fn.safetensors
  • img2vid544p.safetensors

生成結果[Leapfusion版]

  • seed: 左上から 777, 888, 999, 101010

映像は綺麗ですが、あまり動いてくれませんね。

縦長(512×768)にして121フレームに増やしてみます。

先程より動いていてくれました。LeapfusionのI2Vでは121フレームくらいあったほうが良さそうです。

こちらは鳥さんも登場しており、プロンプトに忠実な感じも良い。

まとめ

Skyreels V1モデルでのImage to Video生成を行ってみました。
人物に強いという触れ込みの通り、97フレームでも動く動画が生成できました。

猫ちゃんの画像で試したときは、まともな動画を生成することが出来なかったので使い分けが必要かもしれません。

あと、Skyreels V1モデルでは縦長動画がうまく生成できない印象を受けました。

コメント

タイトルとURLをコピーしました