Наръчник: Скалиране на ASR сървъра
Текущо състояние
- 1 GPU сървър — NVIDIA DGX Spark (10.42.9.37)
- 1 ASR инстанция — faster-whisper модел в GPU паметта
- Капацитет — зависи от GPU модела и размера на модела
Вертикално скалиране
Смяна на модел
По-малък модел = повече едновременни заявки, по-малко точност:
# В server/app/config.py или docker-compose.yml
# Промяна на MODEL_SIZE: large-v3 → medium → small → tiny
GPU памет оптимизация
# Проверка на текущото натоварване
ssh rosen@10.42.9.37
nvidia-smi
docker stats
Хоризонтално скалиране
Добавяне на втори GPU сървър
-
Setup на нов сървър:
# Инсталиране на Docker + NVIDIA Container Toolkit
# Clone на repo
# Copy на server/ конфигурация -
GitHub Actions runner:
- Инсталирайте self-hosted runner на новия сървър
- Добавете label (напр.
dgx-spark-2)
-
Prometheus scrape target:
# licensing-go/monitoring/prometheus/prometheus.yml
- job_name: 'asr-2'
static_configs:
- targets: ['<new-server>:8765'] -
Load balancing:
- Nginx upstream с multiple ASR backends
- Или DNS round-robin чрез Cloudflare
Мониторинг на новия сървър
Добавете нови scrape targets в prometheus.yml:
- ASR метрики
- Node exporter
- DCGM exporter (GPU метрики)