Talking Avatar 完全ガイド：写真 1 枚 + 台本 = AI が喋る動画

何ができる機能か

Talking Avatar は、顔写真 1 枚（生成画像でも実写でも OK）と台本 or 音声を渡すだけで、その顔が指定したセリフを口パク完璧、頭の自然な動き、表情まで合わせて喋る 15 秒動画を生成します。リギング不要、モデル学習不要、キーフレーム不要。写真を入れて、セリフを打って、生成ボタンを押すだけ。

使ってる技術は ByteDance OmniHuman v1.5 — エンタープライズ映像制作で実際に使われてる業務用モデル。EGAKU では設定なしのワンボタン UI に集約。

裏で動いてる 2 つのエンジン

OmniHuman v1.5 が映像側を担当。顔写真の構造を解析して、音声波形に合わせてアニメーション化します。口の形・顎の動き・首振り・瞬き・微表情、全部音声から自動生成。

TTS (text-to-speech) が音声側を担当（音声ファイルを自分で用意しない場合）:

Inworld TTS-1.5 Max — 自然なナレーター音声、英語 + 日本語、9 種類厳選（Sarah, Mark, James, Chloe 等）
OpenAI HD voices — 多言語フォールバック（Nova, Onyx, Alloy, Echo, Fable, Shimmer）

自分で録音した音声ファイル（声優、ボイスクローン、よその MP3）もアップロード可能。avatar はその音声に口パク同期します。

ステップ 1 — 写真をアップ

/talking-avatar を開く。Step 1 のドロップエリアに顔写真を入れる。うまく動くのは:

正面 or 斜め 45 度（完全な真横は NG）
両目が見える
口を閉じてる or 軽く開いてる
顔に遮蔽物なし（マスク・サングラスは外す）
解像度それなり（1024×1024 以上推奨）

手元に写真ない場合は、Premium Studio で先に生成（GPT Image 2 か Nano Banana 2 がおすすめ）→ ハンドオフボタンで Talking Avatar に直接渡せる。

ステップ 2 — 台本を書く（or 音声アップ）

Step 2 で 2 つから選ぶ:

台本モード: 最大 5,000 文字までテキスト入力。言語（en / ja / es / zh）と音声を選択。EGAKU が音声を合成 → アニメーション化。
音声アップロードモード: MP3 / WAV をドロップ。avatar はその音声に口パク同期。ブランド用ナレーション、ボイスクローン、既存の録音音源に活用。

台本用に「トーンプリセット」が 6 種類あって、音声・言語・サンプル文を一括設定: Natural / Presenter, Vlogger, Sultry / Whisper, Horror / Dark, Dramatic Monologue, 日本語ナレーション。クリックで空白ページから即脱出。

ステップ 3 — 生成

Generate ボタンを押すとパイプライン実行:

TTS が音声合成 (約 5 秒)
OmniHuman が口パク映像生成 (約 2-3 分)
H.264 + AAC の MP4 が gallery に保存

1 本約 65 クレジット = $0.50 程度。ダウンロード・シェア可、EGAKU AI のメタデータが自動で付与され、出所表示も自動。

実際に集客になる 5 つの使い道

営業の cold メール動画: 自分の声を 1 回ボイスクローン → AI 版の自分が 100 人の名前を読み込んで 100 本パーソナライズ動画を 1 回の収録なしで送れる
講座・チュートリアル動画のナレーション: 講師の見た目を全コマで統一、スタジオ撮影なし
VTuber 隣接コンテンツ: 立ち絵 1 枚 + 台本でエピソード制作、Live2D リグ不要
多言語プロダクトデモ: 同じ台本を 4 言語に、音声と言語切り替えて 10 分で 4 本
SNS ショート: 15 秒トーキングヘッド Reels / TikTok / X 用、EGAKU 透かしで集客導線

プラン

Talking Avatar は Lite プラン（¥480/月）以上で利用可能。1 本 65 クレジット。プラン詳細 →