Наръчник: Incident Response
Приоритети
| Severity | Описание | Време за реакция |
|---|---|---|
| P1 — Critical | ASR не работи, потребителите не могат да диктуват | Незабавно |
| P2 — High | Licensing API down, логин не работи | < 1 час |
| P3 — Medium | Мониторинг down, Stripe webhooks failing | < 4 часа |
| P4 — Low | Уебсайт down, некритична функционалност | < 24 часа |
Диагностична процедура
Бърза диагностика
ASR сървър (P1)
ssh rosen@10.42.9.37
nvidia-smi # GPU достъпен ли е?
cd ~/whisper-keyboard/server
docker compose ps # Всички контейнери running?
docker compose logs asr --tail 50 # Грешки?
curl http://localhost:8765/health # Health check
Licensing API (P2)
curl -sf https://api.dictaro.ai/health
# Ако не е достъпен:
az vm run-command invoke \
--resource-group dictaro-rg \
--name dictaro-vm \
--command-id RunShellScript \
--scripts "cd /home/rosen/whisper-keyboard/licensing-go && docker compose ps && docker compose logs licensing --tail 50"
Grafana/Мониторинг (P3)
curl -sf https://monitoring.dictaro.ai/api/health
# Проверка на Cloudflare Tunnel:
# Cloudflare Dashboard → Zero Trust → Tunnels → dictaro-monitoring
Рестартиране
ASR
ssh rosen@10.42.9.37
cd ~/whisper-keyboard/server
docker compose down
docker compose up -d --build
Licensing + Мониторинг
az vm run-command invoke \
--resource-group dictaro-rg --name dictaro-vm \
--command-id RunShellScript \
--scripts "cd /home/rosen/whisper-keyboard/licensing-go && docker compose down && docker compose up -d --build"
Уебсайт
Ръчен redeploy от GitHub Actions → deploy-website.yml → Run workflow.
Post-mortem
След всеки P1/P2 инцидент:
- Документирайте какво се случи и кога
- Определете root cause
- Създайте задачи за предотвратяване
- Проверете Grafana дашбордите за свързани метрики