Преминете към основното съдържание

Наръчник: Скалиране на ASR сървъра

Текущо състояние

  • 1 GPU сървър — NVIDIA DGX Spark (10.42.9.37)
  • 1 ASR инстанция — faster-whisper модел в GPU паметта
  • Капацитет — зависи от GPU модела и размера на модела

Вертикално скалиране

Смяна на модел

По-малък модел = повече едновременни заявки, по-малко точност:

# В server/app/config.py или docker-compose.yml
# Промяна на MODEL_SIZE: large-v3 → medium → small → tiny

GPU памет оптимизация

# Проверка на текущото натоварване
ssh rosen@10.42.9.37
nvidia-smi
docker stats

Хоризонтално скалиране

Добавяне на втори GPU сървър

  1. Setup на нов сървър:

    # Инсталиране на Docker + NVIDIA Container Toolkit
    # Clone на repo
    # Copy на server/ конфигурация
  2. GitHub Actions runner:

    • Инсталирайте self-hosted runner на новия сървър
    • Добавете label (напр. dgx-spark-2)
  3. Prometheus scrape target:

    # licensing-go/monitoring/prometheus/prometheus.yml
    - job_name: 'asr-2'
    static_configs:
    - targets: ['<new-server>:8765']
  4. Load balancing:

    • Nginx upstream с multiple ASR backends
    • Или DNS round-robin чрез Cloudflare

Мониторинг на новия сървър

Добавете нови scrape targets в prometheus.yml:

  • ASR метрики
  • Node exporter
  • DCGM exporter (GPU метрики)