AWS обещает вдвое сократить расходы на инференс LLM с помощью умного кэширования

AWS представила LMCache в LMI-контейнерах для SageMaker. Технология сокращает задержку на 54% и расходы на инференс LLM с длинным контекстом. Разбор.

AWS обещает вдвое сократить расходы на инференс LLM с помощью умного кэширования

Каждый, кто всерьез запускал большие языковые модели в продакшн, знает эту боль: чем длиннее контекст, тем толще счет в конце месяца. Контекстные окна раздулись до миллионов токенов, особенно в RAG-системах и у кодинг-ассистентов, которым нужно «прочитать» целые репозитории. И вот Amazon Web Services выкатывает обновление для своего Large Model Inference (LMI) контейнера, обещая чуть ли не панацею. Их ключевое заявление: сокращение задержки на 54%, что, по их логике, вдвое снижает стоимость вычислений на каждый запрос. Звучит как очередной маркетинговый булшит, но если копнуть глубже, за этим стоит довольно изящная инженерная идея.

Звезда шоу — технология LMCache. Это не просто очередной префиксный кэш, который помнит начало вашего промпта. Проблема в том, что в длинных контекстах, особенно в RAG, повторяются не только начала, но и целые документы или куски кода, засунутые в середину запроса. LMCache работает на уровне «чанков» — он находит эти повторяющиеся фрагменты текста, где бы они ни стояли, и сохраняет их предпросчитанное KV-состояние. Это, по сути, краткосрочная память модели, и вместо того, чтобы пересчитывать одно и то же по сто раз, система просто подтягивает готовый результат из кэша. Этот кэш еще и многоуровневый: самые горячие данные лежат в быстрой памяти GPU, что-то похолоднее — в оперативной памяти CPU, а гигантские объемы могут быть сброшены на NVMe-диски. В теории это позволяет обрабатывать контексты на миллионы токенов, не разоряясь на самых дорогих инстансах.

Конечно, AWS подкрепила все это бенчмарками. На инстансах p4de.24xlarge (8x A100 GPU) с моделями Qwen они получили ускорение общего времени ответа в 2.18 раза и сокращение времени до первого токена (TTFT) в 2.65 раза. Это и есть те самые «минус 54% задержки». Важно понимать, что такие цифры достижимы только на специфических задачах с высоким уровнем повторения контекста. Но для корпоративных RAG-систем, которые постоянно гоняют одни и те же внутренние документы, это может стать реальным спасением бюджета. Чем больше модель, тем раньше она упирается в лимит памяти GPU и тем раньше LMCache начинает приносить пользу. Например, 72-миллиардная модель выигрывает от кэширования уже на 500 тыс. токенов, в то время как малыши на 1.5 млрд начинают чувствовать эффект только после 2.5 млн.

Помимо кэширования, в LMI-контейнер добавили и другие приятные мелочи. Например, поддержку спекулятивного декодирования EAGLE, которое пытается угадать следующие несколько токенов, ускоряя генерацию. Также расширили список поддерживаемых моделей (DeepSeek, Mistral Large 3) и улучшили работу с LoRA-адаптерами. Теперь они загружаются «лениво» — только при первом вызове, что ускоряет развертывание систем, где на одной базовой модели висит куча клиентских адаптеров. Это небольшие, но важные улучшения качества жизни для MLOps-инженеров, которые устали бороться с монструозными развертываниями.

Вся эта история — не просто технический апдейт. Это очередной ход в большой шахматной партии облачных гигантов. Война за AI-рынок идет не только на поле «кто создаст самый умный AGI», но и на куда более приземленном поле «у кого дешевле и эффективнее крутить инференс». Инференс — это постоянные, регулярные расходы, в отличие от разового обучения модели. Делая его дешевле, AWS глубже подсаживает клиентов на свою экосистему SageMaker. Google и Microsoft Azure делают то же самое со своими стеками. LMCache — это сильный аргумент AWS в борьбе за кошельки компаний, которые уже наигрались с чат-ботами и начинают строить реальные, тяжелые AI-продукты.

Наш вердикт: Это не революция, но очень грамотная и своевременная эволюция. AWS не изобрела вечный двигатель, но предложила элегантное инженерное решение для самой острой проблемы LLM в продакшене — стоимости инференса на длинных контекстах. Заявление о «двукратном сокращении расходов» — это, конечно, маркетинг, рассчитанный на идеальные условия, но даже 30-40% экономии на реальных задачах могут высвободить миллионы долларов в бюджетах крупных компаний. LMCache — это тот самый прагматичный инструмент, который делает хайповые технологии вроде RAG на 10 млн токенов экономически вменяемыми. И это куда важнее, чем очередные рекорды в бенчмарках.

Read more