Serverless GPU · ранний доступ

Запускайтеинференс.Не серверы.

Aivora — российская serverless-платформа для AI/ML. Очередь задач, пул воркеров с автоскейлингом до нуля и поминутная тарификация. Без виртуалок и dev-ops-плясок.

Запустить за 5 минут Как это работает

cold-start: ≈ 8 c
мин. тариф: 1 мин
регионов в РФ: 2

job_lifecycle.svglive

работает с

vLLM·PyTorch·ComfyUI·Hugging Face·JAX·TensorRT-LLM·Llama.cpp·Diffusers·ONNX·vLLM·PyTorch·ComfyUI·Hugging Face·JAX·TensorRT-LLM·Llama.cpp·Diffusers·ONNX·vLLM·PyTorch·ComfyUI·Hugging Face·JAX·TensorRT-LLM·Llama.cpp·Diffusers·ONNX·

что внутри

Платформа, в которой всё уже сделано за вас.

Очередь, скейлинг, биллинг, хранилища и SDK — без интеграции четырёх SaaS-сервисов.

01

Очередь + автоскейл

Пул воркеров сам растёт под нагрузку и сжимается до нуля. Платите только за активные секунды.

02

Streaming-вывод

SSE-стрим инкрементных чанков из воркера. Идеально для LLM-генерации по токенам.

03

Поминутный биллинг

Без минимального чека и предоплаты часов. Запустили — секундомер пошёл, остановили — встал.

04

Готовые шаблоны

vLLM, ComfyUI, PyTorch + Jupyter — в один клик. Версионирование без сюрпризов в проде.

05

Хранилища и артефакты

Persistent-тома, переживающие рестарт, и S3-совместимый бакет с подписанными URL.

06

API и SDK

REST через curl или OpenAPI-генератор клиентов. Идемпотентность встроенная.

как это работает

От curl до продакшна — за минуты.

step 01 · описываете

aivora endpoints create \
  --image vllm/vllm-openai:latest \
  --gpu 1 \
  --min 0 --max 5

[autoscale]
queue depth → 7
workers     → 0 → 2 → 4 ✓
cold-start  → 8.4s

очередь

curl -X POST $URL/run \
  -d '{"input":{"prompt":"..."}}'

{ "jobId": "job_8W6JN", "status": "queued" }

sse · /stream/job_8W6JN

вот ответ по токенам…

[autoscale]
queue depth → 7
workers     → 0 → 2 → 4 ✓
cold-start  → 8.4s

цена

Поминутно. В рублях.

Без подписок и предоплаченных часов. Платите только за активные минуты воркера — простой не считается.

от

0,00₽/мин

Это ≈ 41 ₽ за час активной работы воркера. Холодный простой пула — бесплатно.

01

минимальная единица

1 мин

Запустили на 90 секунд — заплатили за 2 минуты.

02

простой воркера

0 ₽

Пул сжимается до нуля сам, idle-время не тарифицируется.

03

скрытых платежей

нет

Хранилища и трафик — отдельной строкой в журнале.

Полный прайс — в каталоге консоли. Юр.лица оплачивают по счёту.

Запустить воркер

для кого

Запускают на Aivora

ML-команды

Продакшн-инференс

LLM-чаты, генерация изображений, embeddings. Скейл до нуля и обратно — без CapEx на пустые GPU.

streaming-стек
webhook-уведомления
очередь с TTL

первые пользователи

Стартапы и инди

Без минимального чека и обязательств. Оплата в рублях с любых карт, никаких VPN.

оплата в RUB
API-ключи
стартовый кредит

исследователи

Эксперименты

Запустить ноутбук на GPU за минуту, остановить за секунду. Persistent-тома между сессиями.

Jupyter в шаблоне
тома до 1 ТиБ
S3 для датасетов

faq

Частые вопросы

Не нашли ответ — напишите в @aivora_support_bot в Telegram.

Это не «арендуйте видеокарту на час». Aivora — serverless: вы описываете воркер и автоскейл, а платформа сама запускает воркеры под нагрузку и гасит их в простое. Вы платите только за минуты, когда воркер реально обрабатывал задачу.

В среднем около 8 секунд для типовых образов. После прогрева пула задачи идут моментально. Если нужно, можно держать N тёплых воркеров — счётчик за тёплый воркер тикает по обычному тарифу.

Подходит: LLM-инференс, embeddings, генерация изображений, очередь batch-задач, веб-хуки. Не лучший выбор: интерактивные SSH-сессии (для них есть отдельный режим «под»), длинные тренировки (там обычная аренда выгоднее).

Пополнение баланса через CloudPayments — Visa, Mastercard, МИР, 3-D Secure. Минимальный платёж 100 ₽, максимум 1 000 000 ₽ за один платёж. Юр.лица — по счёту через поддержку.

В российских дата-центрах. Текущие активные регионы — ru-7 и ru-6. У каждой конфигурации в каталоге указан её регион и зона.

На MVP-этапе — поддержка через Telegram-бота с rapid-response в рабочее время. Формальный SLA с финансовыми гарантиями публикуется по мере выхода в общий доступ.

ваша первая GPU-задача

За пять минут. Без карты на старте.

Начать бесплатно Документация