VseLLM Model Health Monitor

🎯 Что такое Health Score?

Health Score — это комплексный индикатор здоровья модели (0-100 баллов), рассчитанный на основе:

Категории:

🔍 Как проверяется Basic Availability?

Отправляем минимальный запрос "Hi" с ограничением в 5 токенов и измеряем:

Штрафы Health Score:

🔄 Как проверяется Streaming?

Отправляем запрос "Count to 3" с параметром stream=True и проверяем:

Результаты: ✓ (работает), ✗ (не поддерживается), ? (неизвестно)

Штраф: -10 баллов Health Score если не поддерживается

🛠️ Как проверяется Function Calling?

Отправляем запрос "What time is it in Moscow?" с функцией get_current_time и проверяем:

Штрафы Health Score:

📝 Как проверяется Long Context?

Отправляем промпт с ~10,000 токенов текста и командой суммировать в 3 слова:

Также измеряем latency обработки длинного контекста — критично для RAG и работы с документами.

Штраф: -15 баллов Health Score если не поддерживается

⚠️ Что означают коды ошибок?

429 Rate Limit: Превышен лимит запросов, модель перегружена (Health Score: 30)
5xx Server Error: Проблема на стороне сервера VseLLM (Health Score: 20)
Timeout: Модель не ответила за 60 секунд (Health Score: 25)
404 Not Found: Модель не найдена или снята с продакшена (Health Score: 0)

При недоступности модели все capability-проверки пропускаются (N/A).

💡 Как использовать эти данные?

Выбор модели для production:

Оптимизация затрат:

VseLLM Health Monitor