近日,阿里云提出的计算池化解决方案“Aegaeon ”成功入选顶级学术会议SOSP 2025 ,该方案可解决AI模型服务中普遍存在的GPU资源浪费问题,大幅提升GPU资源利用率,目前其核心技术已应用在阿里云百炼平台。
SOSP(操作系统原理研讨会)由ACM SIGOPS主办 ,是计算机系统领域顶级学术会议,平均每年收录的论文数量仅有数十篇,被誉为计算机操作系统界的“奥斯卡” ,入选论文代表了操作系统和软件领域最具代表的研究成果 。本届SOSP大会上,系统软件与AI大模型技术的融合成为新的趋势。
数据显示,在阿里云模型市场为期超三个月的Beta测试中 ,Aegaeon系统在服务数十个参数量高达720亿的大模型时,所需的英伟达H20 GPU数量从1192个减至213个,削减比例高达82%(见下图)。GPU用量削减82%意味着公司硬件采购成本将显著降低,这对于动辄使用成千上万张GPU的大型模型服务商至关重要 。
在真实的模型服务场景中 ,少数热门模型(如阿里的Qwen)承载了绝大多数用户请求,而大量不常被调用的“长尾”模型却各自独占着GPU资源。数据显示,在阿里云模型市场中 ,曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置严重。
而Aegaeon系统通过GPU资源池化,打破了“一个模型绑定一个GPU ”的低效模式 。
Token级调度是该系统的核心创新点 ,Aegaeon多模型混合服务系统在每次生成下一个token后动态决定是否切换模型,实现精细化管理,同时 ,通过组件复用 、显存精细化管理和KV缓存同步优化等全栈技术,Aegaeon将模型切换开销降低97%,确保了token级调度的实时性 ,可支持亚秒级的模型切换响应。
据介绍,Aegaeon系统支持单GPU同时服务多达7个不同模型,相比现有主流方案提升1.5-9倍的有效吞吐量,实现2-2.5倍的请求处理能力。
如何从底层系统软件层面优化 ,以更好地支撑和赋能上层AI应用,已成为全球学术界和工业界关注的焦点 。未来AI的发展将不仅依赖于硬件算力的单纯增长,更需要通过系统级的软件创新来深度挖掘现有硬件的潜力。
买股票要怎么开户:在手机上如何买股票-硅谷跑出一匹AI应用黑马 视频实时换脸真假莫辨 背后创始人系中国90后
股票怎么在手机上买卖:配资炒股软件论坛-OpenAI杀入招聘市场:打造AI技能认证体系+人才对接平台
在手机上怎么买卖股票:配资收费-国家统计局:1—7月份全国规模以上工业企业利润下降1.7%
股票在手机上怎么买:股票软件排行-央行:加快拓展贸易项下人民币使用 发展人民币离岸市场
炒股如何选股票:在手机上卖股票怎么操作-上调两融“折算率” 这些券商又有行动!
网上炒股杠杆:在手机上怎么开户玩股票-马斯克公开号召民众抵制税改法案后 特朗普谈及二人关系
国家允许的配资平台-炒股配资公司_国家允许的配资平台_十大正规实盘配资平台提示:文章来自网络,不代表本站观点。
宏观要闻七部门发文优化知识产权领域营商环境国家知识产权局、教育部等七部门周五发布《关于进一步优化知识产权...
近期,SOHO中国与黑石集团的交易传闻在市场上发酵。当时消息称SOHO中国有意出售位于北京、上海的核心商业物业,交易对价...
恒生科技指数午后涨幅一度扩大至2%,华虹半导体涨超20%,地平线机器人涨逾12%。恒生指数涨近1%。...
...
记者|张乔遇2023年3月23日,河北海伟电子新材料科技股份有限公司(简称:海伟电子或公司)完成河北省证...