
Когда говорят о стоимости инфраструктуры для ИИ, в центре внимания обычно оказываются GPU и Nvidia — но всё важнее становится и память. По мере того как крупные облачные провайдеры готовятся строить новые дата‑центры на миллиарды долларов, цена на чипы DRAM в прошлом году выросла примерно в 7 раз. Это меняет экономику работы моделей и заставляет по‑новому смотреть на всю архитектуру систем.
Появляется отдельная дисциплина — оркестровка памяти: как и когда доставлять нужные данные нужному агенту, чтобы минимизировать издержки. Те, кто научится управлять этим умело, смогут выполнять те же запросы с меньшим числом токенов — а это часто решает, останется ли проект рентабельным или уйдёт в минус.
Аналитики и инженеры всё чаще обсуждают роль чипов памяти: в одном из интервью специалисты по полупроводникам рассказали о том, как аппаратные решения пересекаются с прикладными задачами ИИ. Фокус на памяти — не только вопрос железа, но и программной логики: кэширование подсказок, стратегия записи и чтения кэша, баланс между временем хранения и стоимостью запросов — всё это напрямую влияет на цену инференса.
Хороший пример — механики prompt‑кеширования у современных сервисов. Появляются платные окна хранения подсказок (например, 5 минут или час) — данные в кэше дешевле извлекать, поэтому правильное управление окнами и объёмом предоплаченных «записей» кэша может дать серьёзную экономию. Но есть и подводные камни: каждое новое добавление в запрос может вытеснить что‑то другое из кэша, и тогда вы теряете ранее накопленную выгоду.
Развиваются и прикладные решения: стартапы работают над оптимизацией кэша и другими слоями стека, а дата‑центры экспериментируют с тем, где лучше использовать DRAM, а где — HBM. На верхних уровнях архитектуры команды учатся выстраивать «рой» моделей и совместные кэши так, чтобы выигрывать за счёт общих данных и уменьшения дублирующихся запросов.
Итог прост: управление памятью станет одной из ключевых компетенций в мире ИИ. По мере того как оркестровка памяти будет совершенствоваться, расходы на инференс будут падать — вместе с этим появится целый ряд приложений, которые сейчас кажутся нерентабельными, но скоро смогут выйти в прибыль.


