数据管理和处理

在边界条件下，例如，平台-收集器服务器通信中断时，数据处理管道的表现如何？

默认保留期是多长？

30 天。可以使用企业许可证从 UI 增加保留期。注意：增加时，请确保遵循磁盘准则。

如何在收集器上处理数据？

收集器上的所有数据将转换为 SDM（自描述消息），然后再发送到平台（包括流数据）。包括任何数据源的所有配置、清单和衡量指标数据。如果无法访问平台或 SDM 上载到 Kafka 队列失败，则会将这些数据写入收集器虚拟机上的磁盘（写入 /var/BLOB_STORE 下）。

何时开始在收集器上清除数据？

对于非流数据：分配了 10 GB 空间用于在磁盘 (BLOB_STORE) 上存储 SDM。当此存储填满时，收集器将开始删除较旧的 SDM，然后将新的 SDM 添加到磁盘。这取决于从所有数据源收集的数据大小以及超出此限制的速度。

对于流数据：分配了 15 GB 空间用于存储原始流（存储在 /var/flows/vds/nfcapd 下）。此空间用尽后，流处理器便开始删除较旧的流文件。入站原始流速率约为 2M/分钟时，大约需要 10 小时才会开始进行轮换。

清除逻辑是什么？

首先删除最旧的 SDM。

何时在收集器中停止处理新数据？

只要服务正常运行，就永久不会停止。

假设平台和收集器之间断开连接，并且未满足任何清除条件，则在重新连接时是否会在平台上协调所有数据？

存储在磁盘上的所有数据都将发送到平台。除非平台上存在数据丢失情况（详细信息见下文），否则应完全进行协调。

在平台上可能会发生数据丢失的情况有哪些？

平台开始删除 Kafka 队列中超过 6 小时（3 节点集群的情况下为 18 小时）的 SDM。另一种可能的情况是队列达到饱和状态。系统中出现滞后且入站数据速率较高时，可能会发生这种情况。

最新的 SDM 是先发布还是按照该顺序为最早的一个？

先发送最旧的 SDM。在 v3.9 之前，存在一个已知问题，该问题会导致一些数据丢失。有关详细信息，请联系 GSS。

数据是否先存储在收集器中的磁盘上，然后不存在通信问题时再推送到平台？

如果不存在通信问题，则 SDM 不会存储在磁盘上。这些数据从内存本身发送到平台。仅当收集器收到 SDM 发送过程出现问题时，才将其存储在磁盘上。

如果出现任何问题，收集器如何了解哪个是最后处理的流文件？

流处理器会在数据库中保留上次处理 nfcapd 文件的书签。

在没有任何问题的情况下可以处理的最大 SDM 大小是多少？用户如何了解是否违反此限制？

SDM 大小上限为 15 MB。从 v3.9 开始，每当平台放入大型 SDM 时都会引发事件。