场景描述
AI网关支持精确缓存及语义缓存推理的结果上下文,对于常见的相似或重复的问题节省 Token 并减小时延,从而提升调用体验。
实践描述
AI 网关通过在内存数据库中缓存 LLM 响应,并以网关插件的形式来改善推理的延迟和成本,在网关层自动缓存对应用户的历史对话,在后续对话中自动填充到上下文,从而实现大模型对上下文语义的理解。
场景描述
AI网关支持精确缓存及语义缓存推理的结果上下文,对于常见的相似或重复的问题节省 Token 并减小时延,从而提升调用体验。
实践描述
AI 网关通过在内存数据库中缓存 LLM 响应,并以网关插件的形式来改善推理的延迟和成本,在网关层自动缓存对应用户的历史对话,在后续对话中自动填充到上下文,从而实现大模型对上下文语义的理解。