ML-команды
Продакшн-инференс
LLM-чаты, генерация изображений, embeddings. Скейл до нуля и обратно — без CapEx на пустые GPU.
- streaming-стек
- webhook-уведомления
- очередь с TTL
Aivora — российская serverless-платформа для AI/ML. Очередь задач, пул воркеров с автоскейлингом до нуля и поминутная тарификация. Без виртуалок и dev-ops-плясок.
работает с
что внутри
Очередь, скейлинг, биллинг, хранилища и SDK — без интеграции четырёх SaaS-сервисов.
Пул воркеров сам растёт под нагрузку и сжимается до нуля. Платите только за активные секунды.
SSE-стрим инкрементных чанков из воркера. Идеально для LLM-генерации по токенам.
Без минимального чека и предоплаты часов. Запустили — секундомер пошёл, остановили — встал.
vLLM, ComfyUI, PyTorch + Jupyter — в один клик. Версионирование без сюрпризов в проде.
Persistent-тома, переживающие рестарт, и S3-совместимый бакет с подписанными URL.
REST через curl или OpenAPI-генератор клиентов. Идемпотентность встроенная.
как это работает
aivora endpoints create \
--image vllm/vllm-openai:latest \
--gpu 1 \
--min 0 --max 5[autoscale]
queue depth → 7
workers → 0 → 2 → 4 ✓
cold-start → 8.4scurl -X POST $URL/run \
-d '{"input":{"prompt":"..."}}'
{ "jobId": "job_8W6JN", "status": "queued" }[autoscale]
queue depth → 7
workers → 0 → 2 → 4 ✓
cold-start → 8.4sцена
Без подписок и предоплаченных часов. Платите только за активные минуты воркера — простой не считается.
от
Это ≈ 41 ₽ за час активной работы воркера. Холодный простой пула — бесплатно.
минимальная единица
1 мин
Запустили на 90 секунд — заплатили за 2 минуты.
простой воркера
0 ₽
Пул сжимается до нуля сам, idle-время не тарифицируется.
скрытых платежей
нет
Хранилища и трафик — отдельной строкой в журнале.
Полный прайс — в каталоге консоли. Юр.лица оплачивают по счёту.
Запустить воркердля кого
ML-команды
LLM-чаты, генерация изображений, embeddings. Скейл до нуля и обратно — без CapEx на пустые GPU.
первые пользователи
Без минимального чека и обязательств. Оплата в рублях с любых карт, никаких VPN.
исследователи
Запустить ноутбук на GPU за минуту, остановить за секунду. Persistent-тома между сессиями.
Это не «арендуйте видеокарту на час». Aivora — serverless: вы описываете воркер и автоскейл, а платформа сама запускает воркеры под нагрузку и гасит их в простое. Вы платите только за минуты, когда воркер реально обрабатывал задачу.
В среднем около 8 секунд для типовых образов. После прогрева пула задачи идут моментально. Если нужно, можно держать N тёплых воркеров — счётчик за тёплый воркер тикает по обычному тарифу.
Подходит: LLM-инференс, embeddings, генерация изображений, очередь batch-задач, веб-хуки. Не лучший выбор: интерактивные SSH-сессии (для них есть отдельный режим «под»), длинные тренировки (там обычная аренда выгоднее).
Пополнение баланса через CloudPayments — Visa, Mastercard, МИР, 3-D Secure. Минимальный платёж 100 ₽, максимум 1 000 000 ₽ за один платёж. Юр.лица — по счёту через поддержку.
В российских дата-центрах. Текущие активные регионы — ru-7 и ru-6. У каждой конфигурации в каталоге указан её регион и зона.
На MVP-этапе — поддержка через Telegram-бота с rapid-response в рабочее время. Формальный SLA с финансовыми гарантиями публикуется по мере выхода в общий доступ.