Перейти к содержанию

Исследование рынка TTS (обновлено)

Краткое резюме

Глобальный рынок TTS: $3.7B (2025), CAGR ~19%. Кыргызского TTS нет ни у одного мирового игрока. Но рынок КР мал: реально платёжеспособных B2C пользователей 200–500. Pivot на B2B и Центральную Азию — ключ к жизнеспособности.

Глобальный рынок TTS

Размер и рост

Показатель 2024 2025 2028 (прогноз)
Глобальный рынок TTS $3.1B $3.7B ~$7B
CAGR 19% 18–20%
Доля API-сервисов 35% 42% 55%+

Ландшафт конкурентов (февраль 2026)

Параметр Значение
Языки 70+ (было 30+ год назад)
Кыргызский ❌ НЕТ
Цена $0.30/1K символов
Voice cloning
Модели 4 уровня (Turbo, Flash, Multilingual, Standard)
Пользователей 1M+
Угроза 🔴 Если добавят кыргызский — проект обесценится
Параметр Значение
Технологии Chirp 3: HD, Studio, Neural2, WaveNet, Standard
Языки 50+ (включая казахский!)
Кыргызский ❌ НЕТ
Цена $4–16/1M символов
Угроза 🔴 Уже добавили казахский. Кыргызский — вопрос времени
Параметр Значение
Языки ~57
Кыргызский ❌ НЕТ
Качество Очень высокое
Угроза 🟡 Средняя. Фокус на английский
Параметр Значение
Модель FishAudio-S1 (4B параметров)
Языки 30+
Voice cloning ✅ 15 секунд аудио
Цена Open-source (self-host) / платный API
Голосов 2,000,000+ на платформе
Важно 🟢 Можно использовать как основу KG Labs
Параметр Значение
Yandex SpeechKit Русский, турецкий, казахский, узбекский
Sber Salute Русский + несколько СНГ
Кыргызский ❌ НЕТ у обоих
Угроза 🟡 Yandex добавил казахский и узбекский. Кыргызский может быть следующим

Критический вывод: окно возможности

Тикающие часы

Google уже добавил казахский. Yandex добавил казахский и узбекский. Кыргызский — один из последних тюркских языков без TTS у Big Tech. Окно: 12–24 месяца максимум.

Рынок Кыргызстана — реалистичная оценка

Коррекция цифр

Метрика Старый план Реалистичная оценка Обоснование
Контент-мейкеры КР 50,000 5,000–10,000 активных 50K — все аккаунты. Реально зарабатывающих в 5–10x меньше
Готовых платить за TTS 8,000 200–500 Большинство запишут голос сами
YouTube каналов 1K+ 12,000 ~8,000–10,000 Оценка адекватна, но paying conversion <5%
Средний чек $15/мес $5–10/мес КР — бедная страна. $15 = 1,300 сом — дорого для блогера
TAM (B2C, год) $2,000,000 $30,000–100,000 300 клиентов × $10/мес × 12 мес = $36K

Почему B2C не работает

graph TD A["7M населения КР"] --> B["4.2M интернет-пользователей"] B --> C["~10K контент-мейкеров"] C --> D["~2K используют TTS/озвучку"] D --> E["~500 готовы платить за AI TTS"] E --> F["~150 при цене $10/мес"] F --> G["MRR: $1,500/мес"] G --> H["❌ Не покрывает OpEx $4,950/мес"] style H fill:#ff4444,color:white

B2B — где реальные деньги

Клиент Потребность Годовой контракт Вероятность
MBank / Оптима / Бакай IVR на кыргызском $5,000–15,000 40%
Мегаком / Beeline Голосовые уведомления $10,000–20,000 35%
Тундук / ГРС Озвучка госуслуг $5,000–10,000 25%
Кабар / Азаттык / Sputnik Автоматическая озвучка новостей $3,000–8,000 50%
Онлайн-школы Аудиокниги/курсы на кыргызском $2,000–5,000 45%

B2B TAM: $50,000–150,000/год при 5–10 контрактах

Центральная Азия — масштабирование

Страна Население Язык TTS у Big Tech Потенциал
🇰🇬 Кыргызстан 7M Кыргызский Стартовый рынок
🇰🇿 Казахстан 20M Казахский ✅ Google, Yandex Конкуренция есть
🇺🇿 Узбекистан 35M Узбекский ✅ Yandex Конкуренция есть
🇹🇯 Таджикистан 10M Таджикский Потенциал
🇹🇲 Туркменистан 6M Туркменский Закрытый рынок

Вывод: Казахский и узбекский уже заняты. Кыргызский, таджикский, туркменский — свободны. TAM ЦА (без Big Tech): ~23M человек.

Данные для обучения — что доступно

HuggingFace датасеты (найдено)

Датасет Записей Тип Применимость
shunyalabs/kyrgyz-speech-dataset 4,220 Аудио + текст ✅ Для TTS fine-tuning
samil24/kyrgyz-asr 58,100 ASR (речь→текст) ✅ Аудио можно использовать
the-cramer-project/Kyrgyz_News_Corpus 256K Текст ✅ Для text processing
saillab/alpaca-kyrgyz-cleaned 52K Текст (NLP) 🟡 Косвенно
TTimur/kyrgyzMMLU 15.8K Бенчмарк 🟡 Косвенно
murat/kyrgyz_sentences_with_umlaut 1.46M Текст ✅ Для text normalization
Mozilla Common Voice (ky) Есть, мало данных Аудио ✅ Для TTS

Хорошая новость

58K аудиозаписей из kyrgyz-asr + 4.2K из kyrgyz-speech-dataset — это больше, чем ожидалось. Для zero-shot моделей (Fish Audio S1) нужно всего 15 секунд. Для fine-tuning — 1–10 часов. Данные есть.

SWOT-анализ (обновлённый)

Strengths

  • Единственный кыргызский TTS на рынке
  • $0 стартовых инвестиций (open-source + свой GPU)
  • Данные для обучения существуют на HuggingFace
  • Zero-shot cloning снизил порог входа с 10 часов до 15 секунд

Weaknesses

  • Рынок B2C слишком мал для устойчивого бизнеса
  • Coqui AI закрылась — основной фреймворк мёртв
  • Команда 5 человек × $3,800/мес = дорого для маленького рынка
  • Нет B2B sales опыта в команде

Opportunities

  • B2B (банки, госы, медиа) — стабильные контракты
  • Центральная Азия: таджикский, туркменский — свободные ниши
  • Fish Audio S1 open-source — можно запустить MVP за 2 недели
  • API-wrapper модель с минимальными затратами

Threats

  • Google добавит кыргызский (уже добавили казахский) — 12–24 мес
  • ElevenLabs растёт с 30 до 70+ языков за год
  • Бесплатные альтернативы: Fish Audio, GPT-SoVITS — зачем платить?
  • Экономический кризис → сокращение IT-бюджетов