Преминете към основното съдържание

Наръчник: Incident Response

Приоритети

SeverityОписаниеВреме за реакция
P1 — CriticalASR не работи, потребителите не могат да диктуватНезабавно
P2 — HighLicensing API down, логин не работи< 1 час
P3 — MediumМониторинг down, Stripe webhooks failing< 4 часа
P4 — LowУебсайт down, некритична функционалност< 24 часа

Диагностична процедура

Бърза диагностика

ASR сървър (P1)

ssh rosen@10.42.9.37
nvidia-smi # GPU достъпен ли е?
cd ~/whisper-keyboard/server
docker compose ps # Всички контейнери running?
docker compose logs asr --tail 50 # Грешки?
curl http://localhost:8765/health # Health check

Licensing API (P2)

curl -sf https://api.dictaro.ai/health
# Ако не е достъпен:
az vm run-command invoke \
--resource-group dictaro-rg \
--name dictaro-vm \
--command-id RunShellScript \
--scripts "cd /home/rosen/whisper-keyboard/licensing-go && docker compose ps && docker compose logs licensing --tail 50"

Grafana/Мониторинг (P3)

curl -sf https://monitoring.dictaro.ai/api/health
# Проверка на Cloudflare Tunnel:
# Cloudflare Dashboard → Zero Trust → Tunnels → dictaro-monitoring

Рестартиране

ASR

ssh rosen@10.42.9.37
cd ~/whisper-keyboard/server
docker compose down
docker compose up -d --build

Licensing + Мониторинг

az vm run-command invoke \
--resource-group dictaro-rg --name dictaro-vm \
--command-id RunShellScript \
--scripts "cd /home/rosen/whisper-keyboard/licensing-go && docker compose down && docker compose up -d --build"

Уебсайт

Ръчен redeploy от GitHub Actions → deploy-website.yml → Run workflow.

Post-mortem

След всеки P1/P2 инцидент:

  1. Документирайте какво се случи и кога
  2. Определете root cause
  3. Създайте задачи за предотвратяване
  4. Проверете Grafana дашбордите за свързани метрики