데이터 관리 및 처리

데이터 처리 파이프라인은 플랫폼-수집기 서버 통신이 중단되는 경우와 같은 경계 조건에서 어떻게 동작합니까?

  • 기본 보존 기간은 어떻게 됩니까?
    30일입니다. 엔터프라이즈 라이센스를 사용하여 UI에서 기간을 늘릴 수 있습니다. 참고: 기간을 늘릴 때 디스크 지침을 준수해야 합니다.
  • 데이터는 수집기에서 어떻게 처리됩니까?
    수집기의 모든 데이터는 흐름 데이터를 포함하여 플랫폼으로 보내지기 전에 SDM(Self Describing Message)으로 변환됩니다. 여기에는 모든 데이터 소스의 전체 구성, 인벤토리 및 메트릭 데이터가 포함됩니다. 플랫폼에 연결할 수 없거나 Kafka 대기열로의 SDM 업로드가 실패하면 수집기 VM의 디스크에 기록됩니다(/var/BLOB_STORE 아래).
  • 수집기에서 데이터 제거는 언제 시작됩니까?
    흐름 데이터가 아닌 경우: SDM을 저장하도록 디스크에 10GB 공간이 할당되어 있습니다(BLOB_STORE). 이 저장소가 가득 차면 수집기가 이전 SDM을 삭제하기 시작하고 새 SDM을 디스크에 추가합니다. 이 제한이 얼마나 빨리 위반될지는 모든 데이터 소스에서 수집되는 데이터의 크기에 달려 있습니다.
    흐름 데이터의 경우: 원시 흐름을 저장하도록 15GB 공간이 할당되어 있습니다(/var/flows/vds/nfcapd 아래). 이 공간이 다 사용되면 흐름 프로세서가 이전 흐름 파일을 삭제하기 시작합니다. 2M/분 이하의 원시 수신 흐름 속도에서 순환 발생 시작까지는 최대 10시간이 걸립니다.
  • 제거 논리는 어떻게 됩니까?
    가장 오래된 SDM이 가장 먼저 삭제됩니다.
  • 수집기에서 새 데이터 처리는 언제 중단됩니까?
    서비스가 정상적으로 실행된다면 중단되지 않습니다.
  • 플랫폼과 수집기 간 연결이 끊겼고 제거 조건이 충족되지 않는다고 가정할 때 다시 연결되면 플랫폼에서 모든 데이터가 조정됩니까?
    디스크에 저장된 모든 데이터는 플랫폼으로 전송됩니다. 데이터는 플랫폼에 데이터 손실 조건이 있는 경우를 제외하고 완전하게 조정됩니다(아래에서 자세한 내용 참조).
  • 플랫폼에서 데이터 손실이 발생할 수 있는 조건이란 무엇입니까?
    플랫폼은 Kafka 대기열에 추가된 지 6시간이 넘은 SDM을 삭제하기 시작합니다(3-노드 클러스터의 경우 18시간). 다른 가능성은 대기열이 포화 상태가 되는 경우입니다. 시스템에 지연이 있고 수신 데이터 속도가 높은 경우에 이러한 문제가 발생할 수 있습니다.
  • 먼저 게시되는 SDM은 최신의 SDM입니까 아니면 가장 오래된 SDM입니까?
    가장 오래된 SDM이 먼저 전송됩니다. 버전 3.9까지는 일부 데이터가 손실되는 알려진 문제가 있습니다. 자세한 내용은 GSS에 문의하십시오.
  • 통신 문제가 없는 경우 데이터가 수집기의 디스크에 저장된 다음, 플랫폼으로 푸시됩니까?
    통신 문제가 없다면 SDM은 디스크에 저장되지 않습니다. 메모리 자체에서 플랫폼으로 전송됩니다. 수집기가 SDM 전송에 문제가 있음을 수신한 경우에만 SDM이 디스크에 저장됩니다.
  • 문제가 발생했을 때 수집기는 어떤 것이 마지막에 처리된 흐름 파일인지 어떻게 알 수 있습니까?
    흐름 프로세서는 어떤 것이 마지막으로 처리된 nfcapd 파일인지에 대한 책갈피를 DB에 유지합니다.
  • 문제 없이 처리할 수 있는 SDM의 최대 크기는 얼마나 됩니까? 사용자는 이 위반에 대해 어떻게 알 수 있습니까?
    SDM 크기 제한은 15MB입니다. 버전 3.9부터는 플랫폼에서 대용량의 SDM을 삭제할 때마다 이벤트가 발생합니다.