Наръчник: Скалиране на ASR сървъра

Текущо състояние

По-малък модел = повече едновременни заявки, по-малко точност:

# В server/app/config.py или docker-compose.yml
# Промяна на MODEL_SIZE: large-v3 → medium → small → tiny

# Проверка на текущото натоварване
ssh rosen@10.42.9.37
nvidia-smi
docker stats

Setup на нов сървър:

# Инсталиране на Docker + NVIDIA Container Toolkit
# Clone на repo
# Copy на server/ конфигурация

GitHub Actions runner:
- Инсталирайте self-hosted runner на новия сървър
- Добавете label (напр. dgx-spark-2)

Prometheus scrape target:

# licensing-go/monitoring/prometheus/prometheus.yml
- job_name: 'asr-2'
  static_configs:
    - targets: ['<new-server>:8765']

Load balancing:
- Nginx upstream с multiple ASR backends
- Или DNS round-robin чрез Cloudflare

Добавете нови scrape targets в prometheus.yml: