Кладезь знаний
AI

AI Explainer Видео: Производи 1 long-form видео в день с Agent системой

Источник: RoboNuggetsГерой: Parker Prompts канал, AI-автоматизированные explainer видеоДата:
9 видео за 1 месяц100K+ просмотров за видеоНеограниченный масштаб (1 видео/день)Стоимость talking head: $1.88/мин (480p), итого ~$10-20 за 5-мин видео + озвучка

Почему это работает / Контекст

Качество контента побеждает "AI или человек" дебаты

  • Зрители смотрят видео за ценность информации, не за то, кто её представляет
  • Если информация правильная, систематизированная, и полезная — зрители не против что это AI
  • Сравнение: среднее видео от человека (низкая информационная плотность) vs высокая информационная плотность AI видео (структурированное, лучше)

YouTube награждает регулярность больше чем качество продакшена

  • 1 видео в неделю > 1 высокопроизводственное видео в месяц
  • Автоматизация через AI позволяет 1 видео в день (9+ видео в месяц)
  • Алгоритм YouTube предпочитает регулярных авторов

Explainer видео имеют долгосрочную ценность

  • Люди ищут "как LLMs работают", "что такое blockchain", и т.д.
  • Это вечные поиски (не модное)
  • Один канал может получить тысячи просмотров месяцы после публикации

Автоматизация = экономика сходится

  • Стоимость ~$10-15 за 5-мин видео (Fish Audio + Infinite Talk $1.88/мин + B-roll)
  • YouTube монетизация: 100K просмотров = ~$300-1000 доход (зависит от ниши)
  • Если выпускаешь 10 видео в месяц: расходы ~$100-150, доход $3000-10000

Пошаговый план действий

Шаг 1: Создай driving image (персонаж, который будет говорить)

Почему это работает: Люди хотят видеть лицо в видео (не просто голос + слайды). Driving image — это статическое изображение персонажа, которое затем анимируется для создания talking head.

Ваши действия:

Вариант A: Использовать референсное изображение + AI генерация

  • Найди референсное изображение персонажа, который тебе нравится

    • Сайты: Pexels (бесплатные фото), Midjourney AI art, или генерируй через Gemini
    • Пример: профессиональное фото мужчины в костюме с техническими элементами позади
  • Воссоздай промпт используя SEALCAM фреймворк:

    • S (Subject): Кто это? "31-летний инженер, азиатского происхождения, рубашка на пуговицах"
    • E (Environment): Где находятся? "Офис с белыми стенами, растение позади, окно с естественным светом"
    • A (Action): Что делают? "Стоит прямо, спокойное выражение, готов объяснять"
    • L (Lighting): Как освещено? "Мягкое естественное освещение, минимальные тени"
    • C (Camera): Угол и расстояние? "Medium shot, от груди до головы, прямо в камеру"
    • M (Meta): Детали? "Очки, часы, фон с элементами технологии"

Полный промпт: "31-летний инженер азиатского происхождения, в синей рубашке на пуговицах с очками, стоит в белом офисе с растением позади, мягко освещено, medium shot, спокойное выражение лица, готов объяснять"

  • Генерируй изображение:

    • Вариант 1: Google Gemini (бесплатно, но с watermark)
    • Вариант 2: Nano Banana Pro через KAI ($0.09 за изображение, нет watermark, нет подписки)
  • Отрегулируй промпт если нужно (переделай несколько раз до идеала)

Вариант B: Использовать свою фотографию

  • Сделай профессиональную фотографию себя:

    • Хороший свет (окно или кольцевая лампа)
    • Чистый фон (белый, серый или офисный фон)
    • Medium shot (от груди до головы)
    • Нейтральное выражение лица (спокойное)
  • Загрузи в Infinite Talk (или Wavespeed) для тестирования

Примечание: Твоё собственное фото может работать лучше для доверия, но AI-персонаж более "универсален", если хочешь масштабировать.

Шаг 2: Создай скрипт для видео с использованием Claude или GPT

Почему это работает: Хороший скрипт структурирован (введение → основная часть → примеры → заключение). AI модели делают это быстро.

Ваши действия:

  • Определи тему и длину видео:

    • Тема: "Как работают Large Language Models (LLMs)"
    • Длина: 5 минут
    • Аудитория: Люди без технического опыта
    • Стиль: Спокойный, образовательный, с примерами
  • Напиши промпт для GPT/Claude:

Создай скрипт для 5-минутного explainer видео на русском языке.

Тема: Как работают Large Language Models (LLMs)
Аудитория: Люди без технического опыта
Стиль: Спокойный, профессиональный, образовательный
Язык: Простой (без жаргона, или объясни жаргон)

Формат скрипта:
- Разделение на 2 сцены (каждая ~2.5 минуты)
- Для каждой сцены: полный скрипт + описание выражения лица
- Каждая сцена содержит одну главную идею
- В конце каждой сцены краткое резюме

Примечание:
- Начни с вопроса ("Когда ты пишешь в ChatGPT...")
- Используй аналогии ("как человеческий мозг...")
- Добавь 2-3 конкретных примера в видео
- Заключение: "Теперь ты знаешь как работают LLMs"

Начни со скрипта сейчас.
  • Получи скрипт от AI
  • Отредактируй если нужно:
    • Упрощай слова если они сложные
    • Добавь паузы (---) где важно молчание
    • Убедись что каждая сцена имеет чёткий призыв к действию или резюме

Пример структуры скрипта:

СЦЕНА 1: "Что такое LLM?"

Когда ты пишешь запрос в ChatGPT, происходит что-то удивительное.
Модель не "ищет" ответ в интернете.
Она генерирует его слово за словом.

Представь человека который читал миллиарды текстов.
Этот человек видел все паттерны языка.
Когда ты задаёшь вопрос, он угадывает следующее слово.
Потом угадывает слово после этого.
И так далее.

Это именно что делает LLM.
(Выражение лица: сосредоточено, показывает рукой как модель строит текст)

Итак, теперь ты знаешь что LLM это просто огромный предсказатель слов.
  • Сохрани скрипт в AirTable (для автоматизации)

Шаг 3: Создай voiceover используя Fish Audio

Почему это работает: Fish Audio генерирует естественные голоса за 1/3 цены 11 Labs. Качество как 11 Labs но дешевле.

Ваши действия:

Вариант A: Ручной процесс (простой, медленный)

  • Открой Fish Audio (https://fish.audio)

  • Выбери или создай голос:

    • Вариант 1: Используй готовый голос (галерея профессиональных голосов)
    • Вариант 2: Клонируй свой голос (запиши 30-90 сек аудио → загрузи → система клонирует)
  • Для клонирования своего голоса:

    • Запиши себя читающего 30-60 секунд текста (или используй готовую запись)
    • Загрузи в Fish Audio
    • Дай название ("my natural voice") и сохрани
  • Введи скрипт в Fish Audio

  • Выбери скорость и тон (обычно 1.0x скорость, нейтральный тон)

  • Генерируй → Загрузи MP3

Пример скрипта для voiceover: "Когда ты пишешь запрос в ChatGPT, происходит что-то удивительное. (пауза) Модель не ищет ответ в интернете. Она генерирует его слово за словом."

Вариант B: Автоматизировать через N8N (продвинутый)

  • Установи N8N (локально или облако)

  • Создай workflow:

    • Trigger: новая строка в AirTable (с полем script)
    • Action: Fish Audio API генерирует voiceover
    • Action: сохраняет MP3 в Google Drive
  • Получи Fish Audio API ключ из настроек

  • Настрой N8N (документация: fish.audio/docs)

  • Сохрани полученное аудио как voiceover.mp3

Шаг 4: Создай talking head видео используя Infinite Talk

Почему это работает: Infinite Talk (через Wavespeed) берёт статическое изображение + voiceover и создаёт анимированный talking head.

Сравнение Infinite Talk vs Hijen:

Hijen Avatar 4Infinite Talk
Стоимость за минуту~$10~$1.88 (480p)
Подписка$99/мес для APIНет
КачествоОтличноеСравнимое

Hijen имеет дешёвую модель за $1/мин, но у неё двигается только рот — качество ниже.

Ваши действия:

  • Открой Infinite Talk (https://wavespeed.ai или https://infinite.cash)

  • Загрузи driving image (персонаж который мы создали на шаге 1)

  • Загрузи voiceover (MP3 из шага 3)

  • Выбери параметры:

    • Качество: High (если бюджет позволяет, иначе Medium)
    • Выражение лица: Natural (не преувеличивай эмоции)
    • Движение головы: минимальное (спокойный стиль для образовательного контента)
  • Генерируй видео (~1-2 минуты за сцену)

  • Загрузи в Google Drive или локально

Почему минимальные движения: Explainer видео не нужны энергичные жесты. Спокойный, профессиональный talking head больше привлекает внимание к контенту.

Шаг 5: Добавь B-roll, текст оверлей и музыку

Почему это работает: Просто talking head может быть скучным. B-roll (фон видео), текст оверлей (ключевые слова на экране) и фоновая музыка делают видео более профессиональным.

Ваши действия:

B-roll (фоновые видео и изображения)

  • Выбери тему B-roll в зависимости от скрипта:

    • Для "LLM" видео: Код на экране, AI, генерация текста, нейронные сети
    • Источники:
      • Kling 2.6 — AI-генерация B-roll видео из промптов (SEALCAM фреймворк для промптов, Nano Banana Pro для изображений → Kling 2.6 для анимации)
      • Pexels Videos / Unsplash / Pixabay (бесплатные стоковые)
  • Собери 3-5 B-roll клипов по 3-10 сек каждый

  • Импортируй в DaVinci Resolve или CapCut

Текст оверлей (заголовки и выделения)

  • Создай текст для ключевых слов/фраз:

    • "Large Language Models"
    • "Предсказание слов"
    • "Обучение на миллиардах текстов"
  • В видеоредакторе добавь текст оверлей в момент когда голос говорит это слово

  • Используй единый стиль (шрифт, цвет, размер)

Фоновая музыка

  • Загрузи бесплатную музыку:

    • YouTube Audio Library (если публикуешь на YouTube)
    • Free Music Archive (бесплатная музыка)
    • Epidemic Sound (если есть бюджет)
  • Выбери спокойную, ненавязчивую музыку (не отвлекает от голоса)

  • Громкость: -15 dB (голос -0 dB, поэтому голос громче)

Шаг 6: Соедини всё в финальное видео

Ваши действия:

  • Открой видеоредактор (DaVinci Resolve, CapCut или Adobe Premiere):

    • Импортируй talking head видео (сцена 1)
    • Импортируй B-roll видео/фото
    • Импортируй voiceover аудио
    • Импортируй фоновую музыку
  • Расположи на таймлайне:

    • 0-0:30: Вступление с текстом (фоновая музыка, без talking head)
    • 0:30-2:30: Сцена 1 talking head + B-roll мозаика + текст оверлей
    • 2:30-5:00: Сцена 2 talking head + B-roll мозаика + текст оверлей
    • 5:00-5:30: Завершение со ссылкой на канал / кнопка подписки
  • Синхронизируй:

    • Голос и talking head должны совпадать
    • B-roll переходы между идеями
    • Музыка входит/выходит гладко
  • Экспортируй в 1080p MP4

Шаг 7: Опубликуй на YouTube и оптимизируй

Ваши действия:

  • Создай привлекательное превью:

    • Используй контрастные цвета
    • Большой текст с одним словом (вопрос или утверждение)
    • Выражение лица (если возможно, удивлённое или заинтересованное)
    • Пример: заголовок "ЧТО ТАКОЕ LLM?" + лицо персонажа
  • Напиши заголовок:

    • Включи ключевое слово и вопрос: "Как работают LLMs? | Объяснение за 5 минут"
    • Длина: 60 символов максимум
  • Напиши описание:

    • Первое предложение: чем видео полезно
    • Таймкоды разделов (0:00 Что такое LLM, 2:30 Как это работает, и т.д.)
    • Ссылки на источники / дополнительные видео
    • Призыв подписаться
  • Добавь теги: "LLM", "ChatGPT", "искусственный интеллект", "объяснение"

  • Выбери категорию: "Education"

  • Сделай видео доступным:

    • Добавь субтитры вручную или используй автоматические субтитры YouTube
    • Проверь что субтитры правильные (YouTube иногда ошибается)

Экономика и инструменты

КатегорияИнструментСтоимость за видеоПримечание
Генерация изображенийNano Banana (KAI)$0.09Для driving image
ОзвучкаFish Audio$0.30-0.50Дешевле чем 11 Labs
Talking head видеоInfinite Talk (Wavespeed)$1.88/мин (480p)~$10 за 5-мин видео
B-roll видеоKling 2.6 + Nano Banana Pro~$0.50-2.00AI-генерация или бесплатные стоки
МузыкаYouTube Audio Library$0Если публикуешь на YT
Монтаж видеоDaVinci Resolve (бесплатно)$0Полнофункциональный
Автоматизация (опционально)N8N (self-hosted)$0Open-source
Итого за 5-мин видео~$10-15Talking head + озвучка + B-roll
Монетизация YouTube за 100K просмотров~$300-1000Зависит от ниши

Частые ошибки и подводные камни

  1. Скрывать что видео AI-генерировано Зрители ЗАМЕТЯТ артефакты. Будь честен и фокусируйся на качестве контента — люди примут, если контент хороший.

  2. Низкая информационная плотность 5-минутное видео = 5 новых идей, не 1 повторённая 5 раз. Успех Parker Prompts = высокая плотность информации.

  3. Плохое качество аудио Плохое аудио убивает видео. Используй Fish Audio + синхронизацию с talking head. Аудио должно звучать естественно.

Быстрый чеклист: Первые 30 дней

Неделя 1: Настройка и тестирование

  • Создай driving image (персонаж)
  • Тестируй изображение в Infinite Talk (посмотри как выглядит анимированный)
  • Выбери 1-2 готовых голоса в Fish Audio (и/или клонируй свой)
  • Тестируй voiceover в Fish Audio
  • Собери своё первое talking head видео (простое 1-минутное тестирование)

Неделя 2-3: Создание контента

  • Выбери 2-3 темы для первых видео
  • Создай скрипты (используй GPT/Claude)
  • Создай driving images для каждого (если хочешь разнообразия персонажей)
  • Создай voiceovers (Fish Audio)
  • Создай talking head видео (Infinite Talk)

Неделя 4: Постпродакшн и публикация

  • Соедини в финальное видео (добавь B-roll, текст, музыку)
  • Создай превью (Canva)
  • Напиши заголовки и описания
  • Загрузи на YouTube (приватно, потом опубликуй)
  • Добавь субтитры
  • Опубликуй 3 видео (начни с расписания 1 в неделю)

Месяц 2+: Масштабирование

  • Автоматизируй N8N (если технический)
  • Или найми ассистента для ручного процесса
  • Увеличь частоту публикации на 2-3 видео в неделю
  • Собирай данные: какие темы получают больше просмотров?
  • Фокусируйся на топ темах

Ключевые выводы

  1. Качество контента > раскрытие AI — Зрителей не волнует что это AI, если информация отличная
  2. Регулярность > совершенство — 1 видео/неделю лучше чем 0
  3. Плотность информации важна — 5 минут = 5 новых идей, не 1 идея с пустыми повторениями
  4. Автоматизация окупается — Стоимость $1-3 за видео, доход $300-1000 за 100K просмотров = 100x ROI
  5. Специфика платформы — Алгоритм YouTube любит регулярных авторов, долгое время просмотра, высокое удержание

Автоматизация через N8N (продвинутый уровень)

Если технически опытный:

  • Установи N8N (https://n8n.io)

  • Создай workflow:

    1. Trigger: новая строка в AirTable (с полями: topic, script, voice_id)
    2. Action 1: Claude API генерирует скрипт (если не заполнено)
    3. Action 2: Fish Audio API генерирует voiceover
    4. Action 3: Infinite Talk API генерирует talking head
    5. Action 4: Сохраняет все файлы в Google Drive
    6. Action 5: Отправляет уведомление тебе
  • Результат: Ты добавляешь тему в AirTable → через час все видео компоненты готовы → ты только добавляешь B-roll и публикуешь

  • Масштабируй: Можешь делать 1-2 видео в день без ручной работы

Понравился разбор?

В моём Telegram — больше разборов, тактики и инструменты для соло-фаундеров.

Подписаться: @systems_in_life