Zenlayer Logo 1

博客

Search
Vector 10
可观测性

Copilot & AI Agent 创新应用,Zenlayer 荣获 2024年度可观测性技术创新案例奖!

Zenlayer Monitoring Automation 团队斩获殊荣!

 

7月26日,Zenlayer 受邀出席了由中国计算机学会主办的第二届 CCF 夜莺开发者创新论坛。此次盛会汇聚了包括字节跳动、滴滴、小米、知乎、作业帮等众多知名互联网企业在内的技术精英,共同探讨可观测性数据治理、标准化、可扩展性以及 eBPF 等前沿议题。

 

会上,Zenlayer Monitoring Automation 负责人钱誉向与会者分享了“AI Agent 在运维体系中的探索与实践”的技术演讲,赢得了广泛好评。Zenlayer 凭借自身在可观测性技术领域运用 AI 技术的创新实践,荣获中国计算机学会颁发的“2024年度可观测性技术创新案例奖”!

 

Ccf夜莺开发者论坛新案例 Zenlayer Page 0001 副本
Zenlayer 荣获 2024 年度可观测性技术创新案例奖

 

Copilot & AI Agent 技术加持,重塑运维体系可观测性

 

该奖项聚焦于 Zenlayer 在运维体系中通过对 Copilot & Agent 的创新应用,实现了可观测性,成功应对了日常运维工作所面临的运维数据整理利用难、IT 基础础架构复杂异构化、运维协作流程板结化、运维工具/平台分散竖井等多重挑战。

 

演讲
钱誉
尽管在现有的监控平台中,传统的 AIOps 已经能够做到异常检测和根因分析,但是依旧存在依赖标注数据、难以编码专家经验、无法处理未知故障、接入和维护成本较高等方面的问题。Zenlayer Monitoring Automation 团队敏锐地洞察到 Copilot & Agent 框架、大语言模型的优势:
✓ 将专家经验转化为模型可以理解和推理的形式,提升故障处理能力;

✓ 采用集成学习的概念,通过模块化设计,使得系统能够像搭积木一样动态编排;

✓ 基于通用知识和训练中学到的关键字,推断出未知故障的性质;

✓ 能够做到非技术用户也能轻松与系统交互,提高用户体验;

✓ 从运维使用者角度,通过 workflow 与 tools plugin 的方式可以自由构建自己想要的 bot 能力,诸如:告警查询,数据库查询,知识库指引等等;

✓ 通过工具链实现拨测能力 AI,给出针对拨测结果的企业私域数据,对网络调整进行辅助决策;

✓ 在 BGP 趋势分析上,通过 AI 与工具链 BGP 全链路的波动、异常、给出分析,并输出桑基图,给运维专家提供完整的 BGP 链条视图能力。

 

 

GraphRAG 驱动,Zenlayer 自建 AI 大模型,加速运维自动化和智能化进程

 

自2024年初,Zenlayer Monitoring Automation 团队积极采用 LLM 技术来应对运维领域的挑战,并在此过程中综合运用了多种 AI 技术,显著增强了系统的可观测性,为 Zenlayer 运维团队提供强有力的支持。

 

团队探索新的大模型 FT 方式,如利用 OneKE/DeepKE 技术,从高度碎片化、非结构化的信息中提取关键内容,成功构建了高质量的知识图谱,并确立了知识要素间的逻辑关系。这一举措不仅实现了可解释的推理决策,还有效提升了系统的稳定性。同时,借助 GraphRAG 技术,团队能够更深入地理解和利用知识间的关系,这对于运维场景中复杂系统架构和故障传播路径的理解提供了极大的帮助。基于图结构,模型还能够进行更复杂的推理,例如预测运维场景中的故障影响范围或推荐有效的解决方案。

 

 

值得一提的是,Zenlayer 的 AI 能力皆源于自身构建的大模型,其中 Qwen2-72B 用于文本逻辑推理,llama-3.1-405B 用于数理逻辑推理,mistralai-2047用于总结综合处理,glm4-9B 用于function calling 和 tools choice 工具链调用。Zenlayer 的 LLM 驱动的可观测性(LLMOps)创新方案目前在实际应用中已经取得了显著成效。通过搭建知识库/知识图谱、实施基础工具(如变更事件查询工具)以及构建高效的工作流,Zenlayer 不仅显著增强了监控和故障预测能力,还加速了运维自动化和智能化的进程,为企业数字化和人工智能化战略提供了强有力的技术支撑。

 

Zenlayer GFS Monitoring Automation 的负责人钱誉表示:“我们的核心目标是解决一切运维团队面临的实际问题,真正缓解运维人员的痛点。展望未来,我们将继续深入探索 AI 在运维领域的应用,推动根因诊断(RCA)Agent 框架的落地实施。这包括进一步完善知识库建设、优化工具链,以及积极探索 AI 自动生成和优化工作流的可能性,通过能提出好问题,得到好答案的方式,真正意义上提升整个运维与可观测能力。”

 

WOW”我们的客户!

 

正是得益于这样一支持续创新、不断进取的支持团队,Zenlayer 才能够持续为客户提供 24/7 小时全天候的技术支持,实现 15 分钟内快速响应的承诺,并能在 4 小时内处理 95% 的故障工单,不断为客户带来“WOW”服务!

分享:

下载白皮书