近日,在华为开发者大会2025(HDC 2025)期间,以“智能观测,AI赋能的全栈可观测之旅”为主题的分论坛在东莞松山湖举行。本次论坛重点聚焦“AI+可观测”话题,集结了行业专家、技术领袖、创新实践者和开发者,共同探讨AI技术如何在可观测领域中发挥其独特的优势,推动行业革新与进步。
演讲伊始,华为云应用现代化Lab主任孙彬彬就智能可观测技术发展趋势做了解读与现状分析。他提到,AIOps已从手工运维演进至智能化阶段,并结合云计算、大数据、AI等技术的进步逐步成熟。当前主流企业处于L3(进阶智能化),未来将向高度智能化(L5)发展,而AIOps也将会成为未来2-5年的可观测标准竞争力。
华为云应用现代化Lab主任 孙彬彬
在中国信息技术发展的今天,AIOps厂商崛起,市场增长迅速,但仍处于成长期。
• 运维小模型:业界基于小模型算法提升故障发现与诊断效率
主流云服务运营商围绕故障发现,告警降噪和故障定位及自研运维算法工程框架提升用户体验。
• 运维大模型:基于AI Agent和LLM工程,支持复杂运维任务处理
近年来,随着大模型(LLM)技术的快速发展,其在IT运维(AIOps)领域的应用日益广泛。运维大模型通过结合自然语言处理(NLP)、知识图谱、多智能体系统等技术,显著提升了运维效率,推动了智能运维向更高层次的自动智能化发展。
华为云智能全栈可观测应用使能
数字化转型浪潮下,企业架构日趋复杂,传统运维面临故障定位与风险预判的双重挑战。如何将运维数据转化为决策依据,实现系统状态的可视化管理,已成为保障业务连续性和优化用户体验的关键。
华为云可观测产品总监 王磊
针对上述难题,华为云可观测产品总监王磊会上提到,华为云智能全栈可观测性平台,基于四层指标体系(业务层指标、应用层指标、中间件层指标、基础设施层),结合AIOps能力与面向AI大模型观测技术,提供指标(AOM)、日志(LTS)、调用链(APM)3类数据关联分析、根因分析、场景化分析等可观测分析能力,全面掌握应用、资源实时运行状况,及时发现故障。华为云智能全栈可观测性平台具备以下四大技术和创新能力:
• 全场景数据接入,统一接入中心
提供全场景数据接入能力,支持业务层(安卓、IOS、WEB等)、组件层(JAVA、GO等多语言)、中间件层(Redis、MySQL等)、运行环境层(ECS、K8s等)、云服务层、API和开源协议(OpenTelemetry、Kafka等)各种方式接入指标、链路、日志数据;提供UniAgent采集器底座管理,支持各种数据采集插件生命周期管理能力。
• 智能运维助手,通过自然语言快速分析
智能分析:洞察可观测数据,提供日志/调用链解读、SQL/PromQL图表生成、根因洞察等能力;自然语言交互:通过自然语言快速分析数据(覆盖覆盖100%小白用户),数据分析和根因定位耗时降低70%。
• 智能告警降噪,支持指标/日志/调用链配置告警
告警共现挖掘:挖掘历史告警数据中的共现关系,对告警进行合并,相似的告警或在历史数据中频繁共现的告警,将被分配到一个智能组之中;自然语言交互:告警全文本预处理,基于聚类算法,提取告警关键特征信息,对告警进行算法聚类降噪,将关键特征信息与聚类结果关联。
• 智能化代码级剖析Profiling
分钟级发现引起大量GC、内存泄漏、API请求慢的代码:提供CPU、内存、时延火焰图,能快速定位消耗内存、CPU及时延的方法及代码行。智能优化建议,一键诊断性能瓶颈:用于协助定位用户难以发现的CPU等性能问题,从系统资源消耗维度给出代码级的优化建议。
智能观测平台引入了自适应调优,主动分析行业知识库、应用架构和基础设施配置,自动调整以满足客户业务场景;实时监控流量变化和运行指标,智能地进行资源伸缩,以最小的资源浪费,满足业务流量的弹性需求,流畅地应对突发的热点事件和日常的流量波动;根据设定的SLA目标,自动分析并提出改进建议,形成一个持续改进的正向循环。
智能全栈可观测,助力捷顺科技实现从停车场管理系统到智慧停车服务的全面转型
深圳市捷顺科技实业股份有限公司副总经理许昭林向与会嘉宾分享了捷顺科技在智慧停车领域的成功实践。
深圳市捷顺科技实业股份有限公司副总经理 许昭林
捷顺科技深耕智慧物联全栈解决方案多年,是全球领先的智慧停车服务提供商和智慧城市数字生态运营商。近几年,捷顺科技与华为的合作逐渐加强。在华为技术专家的支撑下,捷顺智慧停车依托于华为云智能全栈可观测性平台,整合IOT(闸机等)、充电、储能及天启平台日志构建智慧停车全链路分析体系,实时解析、加工并智能聚合多源日志,推送至运维监控平台与云停车系统,实现可视化监控,保障服务稳定运行,提升体验并降低运维成本,推动数字化运营升级。
智能可观测技术保障软件开发生产线业务稳定运行
会上,华为云应用服务SRE总监郑磊给大家分享了多个华为云SRE的运维实践,通过实际案例证明了智能可观测在可用性观测、AIOps诊断、全栈监控能力上的优势。
华为云应用服务SRE总监 郑磊
• AOM+LTS+APM支持软件开发生产线可用性观测目标达成:华为云智能全栈可观测性平台的四层指标体系,以指标、日志、调用链三大观测支柱为支撑,通过AOM、LTS、APM来承载,支撑软件开发生产线有效演练2000+。
• 软件开发生产线,基于APM<S构建“大象流”过载场景:通过可观测平台AIOps诊断A服务过载源,启动过载处置,达成过载发现1分钟,定界16秒,过载恢复10分钟。
• 软件开发生产线,基于AOM+LTS(日志)+Grafana(可视化)全栈监控能力,实现全链路可视,支撑1-5-10目标达成。
此次活动分别向两位企业代表颁发优秀实践案例,其中,深圳市捷顺科技实业股份有限公司凭借与华为云合作推出的智慧停车解决方案,成功提升了城市停车效率,改善了用户停车体验。这一创新不仅展示了贵公司在技术应用上的卓越能力,更为智慧城市的建设贡献了重要力量。
华为云智慧停车解决方案优秀案例奖
浙江盛和网络科技有限公司、盛和游戏CTO张力带队和华为技术专家深度调试数年,24年底联合推出游戏行业日志首个解决方案,盛和游戏、恺英网络多款游戏已完成对接。该解决方案提供日志采集、管道符、函数、加工、仪表盘和转指标等能力,适用于全国绝大多数游戏客户的游戏日志基础通用能力。
华为云游戏行业日志解决方案优秀案例奖
http://www.ixfrb.com.cn/news/20250625/52781.html
发科技频道