데이터 관리 및 처리
데이터 처리 파이프라인은 플랫폼-수집기 서버 통신이 중단되는 경우와 같은 경계 조건에서 어떻게 동작합니까?
- 기본 보존 기간은 어떻게 됩니까?30일입니다. 엔터프라이즈 라이센스를 사용하여 UI에서 기간을 늘릴 수 있습니다. 참고: 기간을 늘릴 때 디스크 지침을 준수해야 합니다.
- 데이터는 수집기에서 어떻게 처리됩니까?수집기의 모든 데이터는 흐름 데이터를 포함하여 플랫폼으로 보내지기 전에 SDM(Self Describing Message)으로 변환됩니다. 여기에는 모든 데이터 소스의 전체 구성, 인벤토리 및 메트릭 데이터가 포함됩니다. 플랫폼에 연결할 수 없거나 Kafka 대기열로의 SDM 업로드가 실패하면 수집기 VM의 디스크에 기록됩니다(/var/BLOB_STORE 아래).
- 수집기에서 데이터 제거는 언제 시작됩니까?흐름 데이터의 경우: 원시 흐름을 저장하도록 15GB 공간이 할당되어 있습니다(/var/flows/vds/nfcapd 아래). 이 공간이 다 사용되면 흐름 프로세서가 이전 흐름 파일을 삭제하기 시작합니다. 2M/분 이하의 원시 수신 흐름 속도에서 순환 발생 시작까지는 최대 10시간이 걸립니다.흐름 데이터가 아닌 경우: SDM을 저장하도록 디스크에 10GB 공간이 할당되어 있습니다(BLOB_STORE). 이 저장소가 가득 차면 수집기가 이전 SDM을 삭제하기 시작하고 새 SDM을 디스크에 추가합니다. 이 제한이 얼마나 빨리 위반될지는 모든 데이터 소스에서 수집되는 데이터의 크기에 달려 있습니다.
- 제거 논리는 어떻게 됩니까?가장 오래된 SDM이 가장 먼저 삭제됩니다.
- 수집기에서 새 데이터 처리는 언제 중단됩니까?서비스가 정상적으로 실행된다면 중단되지 않습니다.
- 플랫폼과 수집기 간 연결이 끊겼고 제거 조건이 충족되지 않는다고 가정할 때 다시 연결되면 플랫폼에서 모든 데이터가 조정됩니까?디스크에 저장된 모든 데이터는 플랫폼으로 전송됩니다. 데이터는 플랫폼에 데이터 손실 조건이 있는 경우를 제외하고 완전하게 조정됩니다(아래에서 자세한 내용 참조).
- 플랫폼에서 데이터 손실이 발생할 수 있는 조건이란 무엇입니까?플랫폼은 Kafka 대기열에 추가된 지 6시간이 넘은 SDM을 삭제하기 시작합니다(3-노드 클러스터의 경우 18시간). 다른 가능성은 대기열이 포화 상태가 되는 경우입니다. 시스템에 지연이 있고 수신 데이터 속도가 높은 경우에 이러한 문제가 발생할 수 있습니다.
- 먼저 게시되는 SDM은 최신의 SDM입니까 아니면 가장 오래된 SDM입니까?가장 오래된 SDM이 먼저 전송됩니다. 버전 3.9까지는 일부 데이터가 손실되는 알려진 문제가 있습니다. 자세한 내용은 GSS에 문의하십시오.
- 통신 문제가 없는 경우 데이터가 수집기의 디스크에 저장된 다음, 플랫폼으로 푸시됩니까?통신 문제가 없다면 SDM은 디스크에 저장되지 않습니다. 메모리 자체에서 플랫폼으로 전송됩니다. 수집기가 SDM 전송에 문제가 있음을 수신한 경우에만 SDM이 디스크에 저장됩니다.
- 문제가 발생했을 때 수집기는 어떤 것이 마지막에 처리된 흐름 파일인지 어떻게 알 수 있습니까?흐름 프로세서는 어떤 것이 마지막으로 처리된 nfcapd 파일인지에 대한 책갈피를 DB에 유지합니다.
- 문제 없이 처리할 수 있는 SDM의 최대 크기는 얼마나 됩니까? 사용자는 이 위반에 대해 어떻게 알 수 있습니까?SDM 크기 제한은 15MB입니다. 버전 3.9부터는 플랫폼에서 대용량의 SDM을 삭제할 때마다 이벤트가 발생합니다.