На Habr опубликован обширный материал, посвящённый Context Engineering — переходу от простого написания промптов к проектированию контекста для AI-инструментов. Автор разбирает, почему разработчики часто упираются в лимиты токенов в таких решениях, как Claude Code или Codex.В статье подробно описано внутреннее устройство контекстного окна, которое состоит из семи слоёв — от весов модели до MCP и skills. Отдельно рассматривается механизм attention, его квадратичная сложность O(n²) и то, как это влияет на производительность.Также автор на примере четырёх вызовов модели показывает, как работает agent loop, и объясняет, почему правильное использование prompt caching может сократить расход токенов до десяти раз. Материал получился очень объёмным и содержит множество технических деталей.