
С развитием инфраструктуры искусственного интеллекта растёт и потребность максимально эффективно использовать мощности GPU для выполнения инференса. Для исследователей, имеющих опыт в специализированных методах, сейчас отличное время для привлечения инвестиций.
Компания Tensormesh, вышедшая из тени с посевным раундом в $4,5 млн, стремится создать коммерческую версию open-source утилиты LMCache, разработанной одним из её сооснователей, Йихуа Ченгом. LMCache способна снижать затраты на инференс в 10 раз, что сделало её популярным решением в open-source сообществах и привлекло внимание таких крупных игроков, как Google и Nvidia. Tensormesh планирует превратить этот научный успех в успешный бизнес.
Основой технологии является ключево-значимый кеш (KV cache) — система памяти, которая упрощает обработку сложных данных путём конденсации их до ключевых значений. В традиционных архитектурах этот кеш обычно удаляется после каждого запроса, что, по мнению генерального директора Tensormesh Джучена Цзяна, является серьёзным источником неэффективности.
Вместо удаления кеша, система Tensormesh сохраняет его для повторного использования при выполнении аналогичных запросов. Благодаря этому можно распределять данные между несколькими уровнями хранения, что значительно увеличивает мощность инференса при той же нагрузке на сервер.
Особенно полезна эта технология для чат-интерфейсов, где модель постоянно обращается к растущему логу сообщений в ходе беседы, а также для агентных систем с нарастающим списком действий и целей.
Хотя технически компании могут реализовать подобные решения самостоятельно, сложность задачи и опыт команды Tensormesh делают их продукт востребованным на рынке. Как отмечает Джучен Цзян, хранение KV кеша во вторичной памяти и его эффективное повторное использование без снижения производительности — очень сложная задача. Многие нанимают десятки инженеров и тратят месяцы на разработку таких систем, тогда как их продукт позволяет добиться этого быстро и эффективно.


