Blog Background
社区 / 博客
博客
全部文章 技术文章 生态文章 最佳实践 社区活动
大模型 Token 的消耗可能是一笔糊涂账
作者:望宸 如果您正在部署大模型应用,务必提前和 CEO 打好预防针,大模型应用远不如 Web 应用在资源成本上那么可控。 经典的 Web 应用,例如电商、游戏、出行、新能源、教育和医疗等,CPU 的消耗是可控的,和应用的在线人数和登陆时长成正相关,如果计算资源突增,可能是运营团队在做活动,也可能是预期外的突发流量,通过服务器弹性扩容后,稳定一段时间就会缩容到平时的状态,后端所消耗的资源是可追踪、可管控的。但大模型的 token 消耗并不是。 目录 01 大模型 token 消耗和哪些因素有关 02 大模型 token 消耗的隐蔽性来源 03 Agent 的资源消耗账本更...
CH3CHO | 2025-03-12
大模型 Token 的消耗可能是一笔糊涂账
大模型带火 API 后,分享我对 API 安全之认证鉴权的实践
前言 云原生API网关(以下简称网关)是云原生网关的升级版,除继承了原云原生网关的全部能力,为用户叠加了API管理的能力。API作为企业的重要数字资源,在给企业带来巨大便利的同时也带来了新的安全问题,一旦被攻击可能导致数据泄漏重大安全问题,从而给企业的业务发展带来极大的安全风险。 正是在这样的背景下,OpenAPI规范中针对API安全做了明确的定义和引导,以便用户可以安全的管理自己的API。 以下为openapi的定义: An OpenAPI file allows you to describe your entire API, including: + Available end...
CH3CHO | 2025-03-11
大模型带火 API 后,分享我对 API 安全之认证鉴权的实践
大模型无缝切换,QwQ-32B 和 DeepSeek-R1 全都要
近期,通义千问发布最新推理模型 QwQ32B。 在各类基准测试中,拥有 320 亿参数的 QwQ 模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeekR1 媲美。这意味着: + 个人用户可以在更小的移动设备上、本地就能运行。 + 企业用户推理大模型 API 的调用成本,可再降 90%。 价格对比: 如果是通过调用官方 API 的方式: DeepSeek R1:$0.14/M 输入, $2.19/M 输出 QwQ32B:$0.20/M 输入, $0.20/M 输出 如果是通过云上自建的方式,例如阿里云 PAI: DeepSe...
johnlanni | 2025-03-10
大模型无缝切换,QwQ-32B 和 DeepSeek-R1  全都要
教程:使用开源Higress实现DeepSeek联网搜索
之前发了Higress支持DeepSeek联网搜索的文章,但里面没有提供StepbyStep的指导,这篇文章是一个补充,希望对想使用这个功能的朋友有帮助。 安装 Higress 的过程不再赘述,让我们直接从一个安装好的 Higress 开始。 Step.0 配置 DeepSeek 的 API Key 可能你在安装 Higress 时没有填写 DeepSeek 的 API Key,那么可以在这里进行配置 Step.1 配置搜索引擎API域名 首先在 Higress 控制台,通过创建服务来源方式配置各个搜索引擎的域名: google 搜索 API 的域名是:customsearch...
CH3CHO | 2025-03-10
教程:使用开源Higress实现DeepSeek联网搜索
阿里云云原生团队招人,简历直推,专人负责,支持进度查询
01 中间件团队介绍 阿里云云原生中间件团队负责分布式软件和 AI Agent 基础设施的研发,致力于为阿里云数万家企业客户提供卓越的 AI 网关、API 网关和微服务产品,加速企业上云的进程和创新速度。同时,云原生中间件团队也服务着阿里集团众多核心业务和场景,是支撑双十一狂欢节的最核心团队之一。 我们的愿景和使命: ️ 引领 AI 中间件的潮流,打造世界一流的 AI 原生应用架构。 ️ 夯实分布式架构、构建 AI Agent 的基础设施,支撑百万台服务器和超万个系统的服务能力。 在这里,有世界一流的中间件产品和应用场景,有世界领先的企业互联网架构平台,融合最...
CH3CHO | 2025-02-28
阿里云云原生团队招人,简历直推,专人负责,支持进度查询
自建DeepSeek时代已来,联网搜索如何高效实现
一、开源LLM的新纪元:DeepSeek带来的技术平权 随着DeepSeek等高质量开源大模型的涌现,企业自建智能问答系统的成本已降低90%以上。基于7B/13B参数量的模型在常规GPU服务器上即可获得商业级响应效果,配合Higress开源AI网关的增强能力,开发者可快速构建具备实时联网搜索能力的智能问答系统。 二、Higress:零代码增强LLM的瑞士军刀 Higress作为云原生API网关,通过wasm插件提供开箱即用的AI增强能力: 主要能力矩阵: 联网搜索:实时接入互联网最新信息 智能路由:多模型负载均衡与自动兜底 安全防护:敏感词过滤与注入攻击防御 效能优化:...
CH3CHO | 2025-02-26
自建DeepSeek时代已来,联网搜索如何高效实现
AI 网关需要具备的10大基本能力
作者:望宸、澄潭 大模型主战场从训练转向推理,已经成为业内共识。越来越多的公司已经开始设计符满足企业内部需求和外部商业方向的大模型应用,并在生产环境中进行部署。这个过程中,我们遇到了一系列新的需求,这些需求与最初的大模型应用在 “概念验证阶段” 有所不同。这些新需求更多地源于对规模化和安全使用,其中,AI 网关成为被讨论较多的 AI 基础设施关键组件之一。 我们认为 AI 网关并不是独立于 API 网关的新形态,本质也是一种 API 网关,区别在于针对 AI 场景的新需求专门做了扩展,它既是 API 网关的继承,也是 API 网关的演进。因此我们从 API 视角,对 AI 网关的能...
CH3CHO | 2025-02-18
AI 网关需要具备的10大基本能力
玩转 DeepSeek:和 ChatGPT 对弈中国象棋
国外 up 主让 DeepSeek 跟 ChatGPT 下了一把国际象棋,DeepSeek 借助“孙子兵法”,让 ChatGPT 在优势局面下,直接认输: 如果让两个 AI 在中国象棋上对弈一把,效果会如何呢?话不多说,让我们直接来看看效果: 相比传统基于搜索算法等棋类 AI,至少目前看大模型没有太多优势。不过相比传统 AI,因为大模型可以输出一些聊天对话,会让棋局变得更有趣味性。 如果你对此感兴趣,可以看看下方的实现原理,在你自己的电脑上复现一把。 对弈实现原理 首先找了一个开源的基于终端命令行输出的象棋对弈程序: 因为是基于终端命令行的,棋局也很方便通过...
CH3CHO | 2025-02-14
玩转 DeepSeek:和 ChatGPT 对弈中国象棋
大模型应用部署过程中流量管控的常见需求和应对方案
作者:梧同、望宸 背景 目前,和 DeepSeek 相关的需求总结为两类: + 因官方 APP/Web 服务经常无法返回结果,各类云厂商、硬件或软件企业提供满血版或蒸馏版的 API + 算力服务,还有不少基于开源+家用计算和存储设备的本地部署方案,以分担 DeepSeek 官方的服务压力。 + 各行各业开始调用 DeepSeek API 来设计大模型应用,服务于企业内外部,关注应用的构建效率和稳定性。 此前,我们已经针对以上的第一点需求,发布了不少云端和本地的部署;本篇文章,将针对第二点需求,谈谈流量管理层的工程化方案。 DeepSeek 部署 由于 DeepSeek 开源了...
CH3CHO | 2025-02-10
大模型应用部署过程中流量管控的常见需求和应对方案
第 9 页 / 共 17 页