Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

mc-observability 멀티 클라우드 인사이트 제공 기능 정의(2종) #23

Open
kyuengmanKim opened this issue Aug 19, 2024 · 1 comment

Comments

@kyuengmanKim
Copy link
Contributor

kyuengmanKim commented Aug 19, 2024

M-CMP 컨소시움 온라인 회의에서 논의한 "2종 멀티 클라우드 인사이트 제공" 기능과 관련하여
'단일 VM에 대한 인사이트 기능이 아닌 멀티 클라우드 환경에 대한 인사이트 제공',
'멀티 클라우드 통합', '여러 CSP간 분석 또는 CB-Tumblebug의 MCI 그룹 단위 분석' 등을 고려하는 것이 필요하다는 의견이 나왔습니다.

이에 대해서 기존 정의한 인사이트 제공 기능
'1) 멀티 클라우드 인프라 활용 예측(을 위한) 인사이트 제공', '2) 멀티 클라우드 인프라 이상 탐지(를 위한) 인사이트 제공'
위 기능에 분석 대상을 단일 VM 또는 그룹 단위로 지정할 수 있는 옵션을 추가로 제공하고자 합니다.

그룹에 대한 개념은 Cloud-Barista의 CB-Tumblebug이 관리하는 MCI를 활용하고자 합니다.
CB-Tumblebug 내용을 살펴본 결과, Namespace > MCI > SubGroup > VM 순서로 그룹핑하여 관리하는 것으로 보여지므로 우선 MCI를 적용하고자 합니다.
분석 대상을 MCI로 지정하는 경우 해당 ID에 속하는 모든 VM을 평균으로 집계하여 분석하여 정보를 제공합니다.

예시로 'A' MCI에 대한 CPU 사용률 예측 데이터 요청 시, 'A' MCI에 속한 VM List 조회 후 시간, 공간 평균 집계하여 예측을 진행하고 최근(모니터링 데이터) 'A' MCI의 평균 CPU 부하률과 이후(예측 데이터)를 함께 제공합니다. 추가로 'A', 'B', 'C' MCI에 대해 개별 요청 시, 각각의 MCI별 CPU 사용률 현황과 이후 추세를 비교할 수 있습니다.

이에 대한 의견 공유해주시면 감사하겠습니다.
인사이트 제공 2종에 대한 정의가 완료되는 대로 기능 설계 및 API 도출을 진행할 계획입니다.

상세 기능에 대한 정의는 아래와 같습니다.

멀티 클라우드 인프라 활용 예측(을 위한) 인사이트 제공

기능 정의

  • 단일 VM 또는 MCI그룹 단위 분석 제공
  • 머신 러닝을 사용하여 미래의 메트릭을 예측
  • CPU 환경에서 활용 가능한 범용성 높은 예측 모델 또는 기법 적용

주요 지원 기능

  • 모니터링 데이터 예측 기능
    • 예측 요청 API
  • 예측 데이터 관리 기능
    • 예측 데이터 저장
    • 이전 예측 데이터 조회 API

지원 범위

  • 실수 타입의 모니터링 모니터링 데이터 - CPU, MEM, Disk, System Load
  • agent 설치 및 위 모니터링 항목에 대한 모니터링을 진행 중인 VM 또는 MCI에 속한 VM 그룹 대상
  • prediction data interval: 1 hour
  • prediction data range: 과도한 리소스 사용을 방지하는 선에서 제한

활용 방안

  • 멀티 클라우드 활용 계획 수립, 인프라 설계 및 운용 최적화를 위한 예측 데이터 제공
  • 인프라 자원 부족에 대한 사전 대비
  • VM 리사이징, 비용 최적화 등 관련 참고 지표로 활용

멀티 클라우드 인프라 이상 탐지(를 위한) 인사이트 제공

기능 정의

  • 단일 VM 또는 MCI 그룹 단위 분석 제공
  • 수집된 모니터링 데이터를 분석하여 통계 기반의 이상 탐지
  • 표준 또는 일반적인 분포에서 벗어난 데이터 포인트 식별 기능
  • 실시간으로 수집되는 시계열 모니터링 데이터 특성에 적합하고 연산이 빠른 모델 사용
  • 사용 모델은 RRCF로 데이터 분포를 효율적으로 모델링하는 트리 기반의 비정상 탐지 모델

주요 지원 기능

  • 이상 탐지 대상 등록 및 관리 기능
    • 대상 관리 CRUD API
  • 이상 탐지 결과 데이터 조회 기능
    • 데이터 조회 API
  • 지속적인 실시간 이상 탐지를 위한 스케줄링 기능
    • 사용자 등록 대상에 따른 이상탐지 반복 실행 스케줄러

지원 범위

  • CPU_usage_idle, MEM_used_percent 사용률(%) 모니터링 모니터링 데이터 2종
  • agent 설치 및 위 모니터링 항목에 대한 모니터링을 진행 중인 VM 또는 MCI에 속한 VM 그룹 대상
  • 최근 12시간 데이터 분석

활용 방안

  • 과거 데이터를 분석하여 실시간으로 비정상적인 현상에 대한 판별 기능
  • 단순 임계치 기반 장애 알람이 감지할 수 없는 비정상 현상 식별
  • 추가적인 장애 관련 인사이트 프로세스의 시작점으로 활용
@kyuengmanKim
Copy link
Contributor Author

인사이트 기능 타이틀과 일부 내용에 대한 업데이트 진행 했습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant