VseLLM Health Monitor

Мониторинг доступности, производительности и возможностей моделей

0 Всего моделей
0 В сети
0ms Ср. задержка
0 🟢 Excellent
Модель Health Score Статус Задержка Streaming Functions Long Context
Последнее обновление: ожидание...

📖 FAQ: Методология проверки

🎯 Что такое Health Score?

Health Score — это комплексный индикатор здоровья модели (0-100 баллов), рассчитанный на основе:

  • Доступности: Модель отвечает на запросы
  • Производительности: Скорость отклика (latency)
  • Возможностей: Поддержка streaming, functions, long context
  • Ошибок: Тип недоступности (429 Rate Limit, 5xx Server Error)

Категории:

  • 🟢 Excellent (85-100): Быстрая, стабильная, все функции работают
  • 🟡 Good (70-84): Работает хорошо, возможны небольшие задержки
  • 🟠 Fair (50-69): Доступна, но медленная или ограниченный функционал
  • 🔴 Poor (0-49): Серьезные проблемы или недоступна
🔍 Как проверяется Basic Availability?

Отправляем минимальный запрос "Hi" с ограничением в 5 токенов и измеряем:

  • Доступность: Модель ответила без ошибок
  • Latency: Время от запроса до ответа (в миллисекундах)
  • Тип ошибки: 429 (Rate Limit), 5xx (Server Error), Timeout, Not Found

Штрафы Health Score:

  • Latency > 5000ms: -40 баллов
  • Latency > 3000ms: -25 баллов
  • Latency > 2000ms: -15 баллов
🔄 Как проверяется Streaming?

Отправляем запрос "Count to 3" с параметром stream=True и проверяем:

  • Модель возвращает данные чанками (как в ChatGPT)
  • Получаем минимум 2 чанка для подтверждения стабильности
  • Timeout 15 секунд для защиты от зависаний

Результаты: ✓ (работает), ✗ (не поддерживается), ? (неизвестно)

Штраф: -10 баллов Health Score если не поддерживается

🛠️ Как проверяется Function Calling?

Отправляем запрос "What time is it in Moscow?" с функцией get_current_time и проверяем:

  • Полная поддержка (✓): Модель вызвала функцию через tool_calls
  • Частичная (⚠): Модель приняла tools, но не вызвала функцию
  • Не поддерживается (✗): Ошибка при передаче tools

Штрафы Health Score:

  • Не поддерживается: -10 баллов
  • Частичная поддержка: -5 баллов
📝 Как проверяется Long Context?

Отправляем промпт с ~10,000 токенов текста и командой суммировать в 3 слова:

  • Успех (✓): Модель обработала длинный контекст
  • Провал (✗): Ошибка "context length exceeded" или таймаут (>30с)

Также измеряем latency обработки длинного контекста — критично для RAG и работы с документами.

Штраф: -15 баллов Health Score если не поддерживается

⚠️ Что означают коды ошибок?
  • 429 Rate Limit: Превышен лимит запросов, модель перегружена (Health Score: 30)
  • 5xx Server Error: Проблема на стороне сервера VseLLM (Health Score: 20)
  • Timeout: Модель не ответила за 60 секунд (Health Score: 25)
  • 404 Not Found: Модель не найдена или снята с продакшена (Health Score: 0)

При недоступности модели все capability-проверки пропускаются (N/A).

💡 Как использовать эти данные?

Выбор модели для production:

  • 🟢 Excellent/Good: Подходят для production, стабильные
  • 🟠 Fair: Можно использовать, но ожидайте задержек
  • 🔴 Poor: Не рекомендуется, возможны сбои

Оптимизация затрат:

  • Для простых задач: используйте быстрые модели с низкой latency
  • Для RAG/documents: обязательна поддержка Long Context
  • Для агентов: необходим Function Calling