终端监控 | ManageEngine DEX Manager Plus

可见性在数字体验监控中的重要性

如今，我们在工作中执行的几乎每项任务——无论是协作、创作还是沟通——都发生在数字工作空间中。设备已成为现代员工的延伸，其性能直接决定了工作的完成方式。正如我们优先考虑定期健康检查一样，定期评估终端设备的健康状况也至关重要。

但是，随着分布在各地和混合工作环境中的设备数量不断增长，手动检查已不再实用，也无法扩展。IT团队需要一种更好的方法来了解设备的性能及其对用户体验的影响。

这正是数字体验监控的起点——可见性。通过收集和分析实时终端遥测数据，IT部门能够深入了解关键性能指标，如CPU使用率、内存消耗、启动时间、崩溃频率等。这种可见性为及早发现体验问题、减少支持工单并最终提高员工生产力奠定了基础。

可见性始于遥测（或）数据

无法衡量，就无法改进。遥测是数字体验监控的基础层——它将不可见的设备行为转化为可操作的洞察。通过持续收集CPU使用率、内存负载、启动时间、系统崩溃等实时数据点，IT团队可以深入了解每个终端设备的运行状况，无论其位于何处。

但遥测不仅仅是监控。它通过在问题演变为用户投诉或生产力问题之前发出早期预警信号，实现主动式IT管理。借助正确的数据，团队可以在员工甚至尚未察觉之前就检测到摩擦、自动化响应并确保流畅的性能。简而言之，遥测将可见性转化为控制力，使其成为现代终端监控和体验管理的支柱。

DEX Manager Plus 如何收集和使用终端遥测数据

DEX Manager Plus 设有一个轻量级代理，该代理位于最终用户设备上，在后台静默运行且不影响性能。此代理持续从每个受管终端（无论是现场、远程还是混合环境）收集高保真遥测数据，让IT团队能够实时掌握员工体验的脉搏。我们的代理全天候收集数据，即使在设备离线时也是如此。关键/与警报相关的数据随后会发布到服务器以供进一步分析。

该轻量级代理持续捕获丰富的遥测数据流，这些数据直接影响用户生产力、设备健康状况和数字体验质量。这些遥测数据大致可分为两类：

开箱即用监控的内置终端指标
使用用户定义的数据收集器收集的自定义遥测数据

让我们详细探讨每一类：

内置终端指标

DEX Manager Plus 跟踪一组精心挑选的高影响力指标，这些指标能深入揭示终端设备的性能表现及其对最终用户体验的影响。这些指标分为四个关键类别：

应用程序可靠性识别与应用相关的问题，如崩溃
设备性能监控CPU、内存、GPU和磁盘使用情况，确保运行流畅响应迅速
设备可靠性跟踪硬件健康状况、电池状态、保修状态和系统稳定性
设备响应能力测量面向用户的延迟，如启动时间、登录持续时间和输入延迟

这些基础指标帮助IT团队及早发现问题、确定支持优先级并优化整个员工队伍的终端体验。

下表涵盖了受监控的指标及其影响。由于大多数指标具有可配置的阈值（管理员可设置这些阈值以识别系统性能下降），我们还为这些指标提供了最佳实践阈值，供开始进行体验管理之旅的IT团队参考：

类别	监控指标	对体验的影响	最佳实践阈值/警报条件
应用程序可靠性	应用程序崩溃事件	应用程序崩溃会中断工作并降低用户对IT的信任	监控所有应用程序崩溃事件。
设备性能	可用磁盘空间	磁盘空间不足会导致速度变慢、更新失败和应用程序崩溃	可用磁盘空间小于 10 GB
	可用磁盘空间（系统驱动器）	系统驱动器空间不足导致系统不稳定和操作失败	系统驱动器可用空间小于 10GB
	CPU 使用率	高CPU使用率导致响应时间变慢和应用程序无响应	CPU 使用率超过 70% 持续 5-10 分钟
	内存使用率	高内存使用率导致卡顿、冻结和应用程序崩溃	内存使用率超过 50% 持续 5 分钟
	内存交换率	表明系统正在使用磁盘而非RAM，导致性能下降	交换率超过 5000 页持续 10 分钟
	内存交换大小	交换文件过大表明内存过度使用和速度下降	交换大小超过 75% 持续 10 分钟
	CPU 中断	高中断率可能表明硬件故障或驱动程序问题	中断率超过 CPU 的 2% 持续 5 分钟
	GPU 使用率	高GPU负载可能减慢图形密集型应用程序、视频通话或设计工具的速度	GPU 使用率超过 75% 持续 10 分钟
	磁盘队列长度	磁盘队列过长导致读/写操作延迟	平均队列长度超过 1 持续 10 分钟
设备可靠性	电池健康度	电池健康度差会降低便携性并增加用户挫败感	电池健康度低于 25%-30%（约 70—75% 损耗）
	保修状态	过保设备存在维修风险和成本影响	保修期在 30-60 天内到期
	设备使用年限	旧设备通常性能不如新设备且容易发生故障	设备使用年限超过 3-5 年
	硬重置	频繁硬重置可能指向更深层次的系统问题或用户挫败感	监控所有硬重置事件如果在 7 天内硬重置次数 > 2 次则报警
	系统崩溃	系统崩溃导致数据丢失和生产力中断	监控所有系统崩溃事件
设备响应能力	启动时间	启动时间过长导致工作日开始时的延迟	启动时间超过 60 秒
	登录时间过长	登录缓慢阻碍用户访问和工作准备	登录时间超过 60 秒
	最大输入延迟	高输入延迟导致用户交互滞后和挫败感	输入延迟超过 500 毫秒持续 5-10 分钟

最佳实践阈值的前提

CPU、内存、磁盘使用率阈值接近 85—90% 在行业默认设置中被广泛认可，用于标记实际性能问题而不会触发噪音警报
磁盘空间警告设置为 < 10 GB 或 < 10% 可以防止常见的故障模式，同时仍保留操作开销空间
内存警报，特别是可用RAM低于10%，预示着即将发生内存交换和速度下降。
持续时间很重要——在一段时间内持续的高使用率比短暂的峰值更有意义。

使用用户定义数据收集器的自定义遥测

虽然内置遥测涵盖了广泛的關鍵设备信号，但每个组织根据其环境、工作流程和员工工具都有独特的需求。这正是自定义遥测的用武之地。

借助用户定义的数据收集器，IT团队可以通过定义和收集适合其业务的自定义指标来扩展监控能力。无论是跟踪连接的设备、POS外设的可用性，还是提取影响最终用户生产力的企业应用程序详情等，DEX Manager Plus 都允许IT使用 PowerShell 或预构建模板创建轻量级数据收集器。

监控自定义硬件传感器
查询特定于应用程序的日志或计数器
检查内部工具的服务运行状况
跟踪关键业务操作的延迟或响应能力
提取注册表值、WMI数据或命令输出

收集的数据可以输入到检测和修复工作流中，实现与核心遥测数据的关联、警报触发以及自动化修复工作流。这使IT能够完全控制体验监控，确保即使在复杂或遗留设置中也没有盲点。

从本质上讲，自定义收集器弥补了标准指标与您独特数字环境之间的差距，帮助您超越开箱即用的监控，实现真正的体验可观测性。