何ができる機能か
Talking Avatar は、顔写真 1 枚(生成画像でも実写でも OK)と台本 or 音声を渡すだけで、その顔が指定したセリフを口パク完璧、頭の自然な動き、表情まで合わせて喋る 15 秒動画を生成します。リギング不要、モデル学習不要、キーフレーム不要。写真を入れて、セリフを打って、生成ボタンを押すだけ。
使ってる技術は ByteDance OmniHuman v1.5 — エンタープライズ映像制作で実際に使われてる業務用モデル。EGAKU では設定なしのワンボタン UI に集約。
裏で動いてる 2 つのエンジン
OmniHuman v1.5 が映像側を担当。顔写真の構造を解析して、音声波形に合わせてアニメーション化します。口の形・顎の動き・首振り・瞬き・微表情、全部音声から自動生成。
TTS (text-to-speech) が音声側を担当(音声ファイルを自分で用意しない場合):
- Inworld TTS-1.5 Max — 自然なナレーター音声、英語 + 日本語、9 種類厳選(Sarah, Mark, James, Chloe 等)
- OpenAI HD voices — 多言語フォールバック(Nova, Onyx, Alloy, Echo, Fable, Shimmer)
自分で録音した音声ファイル(声優、ボイスクローン、よその MP3)もアップロード可能。avatar はその音声に口パク同期します。
ステップ 1 — 写真をアップ
/talking-avatar を開く。Step 1 のドロップエリアに顔写真を入れる。うまく動くのは:
- 正面 or 斜め 45 度(完全な真横は NG)
- 両目が見える
- 口を閉じてる or 軽く開いてる
- 顔に遮蔽物なし(マスク・サングラスは外す)
- 解像度それなり(1024×1024 以上推奨)
手元に写真ない場合は、Premium Studio で先に生成(GPT Image 2 か Nano Banana 2 がおすすめ)→ ハンドオフボタンで Talking Avatar に直接渡せる。
ステップ 2 — 台本を書く(or 音声アップ)
Step 2 で 2 つから選ぶ:
- 台本モード: 最大 5,000 文字までテキスト入力。言語(en / ja / es / zh)と音声を選択。EGAKU が音声を合成 → アニメーション化。
- 音声アップロードモード: MP3 / WAV をドロップ。avatar はその音声に口パク同期。ブランド用ナレーション、ボイスクローン、既存の録音音源に活用。
台本用に「トーンプリセット」が 6 種類あって、音声・言語・サンプル文を一括設定: Natural / Presenter, Vlogger, Sultry / Whisper, Horror / Dark, Dramatic Monologue, 日本語ナレーション。クリックで空白ページから即脱出。
ステップ 3 — 生成
Generate ボタンを押すとパイプライン実行:
- TTS が音声合成 (約 5 秒)
- OmniHuman が口パク映像生成 (約 2-3 分)
- H.264 + AAC の MP4 が gallery に保存
1 本約 65 クレジット = $0.50 程度。ダウンロード・シェア可、EGAKU AI のメタデータが自動で付与され、出所表示も自動。
実際に集客になる 5 つの使い道
- 営業の cold メール動画: 自分の声を 1 回ボイスクローン → AI 版の自分が 100 人の名前を読み込んで 100 本パーソナライズ動画を 1 回の収録なしで送れる
- 講座・チュートリアル動画のナレーション: 講師の見た目を全コマで統一、スタジオ撮影なし
- VTuber 隣接コンテンツ: 立ち絵 1 枚 + 台本でエピソード制作、Live2D リグ不要
- 多言語プロダクトデモ: 同じ台本を 4 言語に、音声と言語切り替えて 10 分で 4 本
- SNS ショート: 15 秒トーキングヘッド Reels / TikTok / X 用、EGAKU 透かしで集客導線
プラン
Talking Avatar は Lite プラン(¥480/月)以上で利用可能。1 本 65 クレジット。プラン詳細 →