반복영역 건너뛰기
주메뉴 바로가기
본문 바로가기
제품/서비스
EMS Solution
Features
클라우드 관리
서버관리
데이터베이스 관리
네트워크 관리
트래픽 관리
설비 IoT 관리
무선 AP 관리
교환기 관리
운영자동화
실시간 관리
백업 관리
스토리지 관리
예방 점검
APM Solution
애플리케이션 관리
URL 관리
브라우저 관리
ITSM Solution
서비스데스크
IT 서비스 관리
Big Data Solution
SIEM
AI 인공지능
Dashboard
대시보드
Consulting Service
컨설팅 서비스
고객
레퍼런스
고객FAQ
문의하기
가격
자료실
카탈로그
사용자매뉴얼
회사소개
비전·미션
연혁
2016~현재
2000~2015
인증서·수상
투자정보
재무정보
전자공고
IR자료
새소식
공고
보도자료
오시는 길
채용
피플
컬처
공고
FAQ
블로그
열기
메인 페이지로 이동
블로그
최신이야기
블로그
최신이야기
사람이야기
회사이야기
기술이야기
다양한이야기
무선 AP를 WNMS를 통해 올바르게 관리하는 방법
Helm과 Argo의 개념과 통합 활용법?!
강예원
2024.03.08
페이스북 공유하기
트위터 공유하기
링크드인 공유하기
블로그 공유하기
지속적인 성과를 내기 위한 첫걸음, '이것'부터 관리 하라?!
애플리케이션을 클라우드 네이티브 환경에서 효율적으로 관리하고 운영할 수 있는 플랫폼인 쿠버네티스(kubernetes)를 활용하는 기업들이 점점 더 늘어나고 있습니다.
이에 따라 효율적인 애플리케이션 관리를 통해 패키징 배포, 관리를 자동화하고 일관된 상태를 유지하는 것이 중요해지고 있습니다. 이번 글을 통해서는 애플리케이션 개발 및 도구 중 최근 많이 사용되는
Helm과 Argo
에 대해서 자세히 알아보겠습니다.
ㅣHelm의 등장
쿠버네티스를 활용한 애플리케이션 배포에 가장 기본이 되는 단위는 yaml 파일로, 주로 쿠버네티스 object(리소스)들을 정의하고 다루는데 활용됩니다.
쿠버네티스를 통해 애플리케이션을 배포하다 보면 비슷한 틀과 내용을 공유하고, 내부 값(configuration)만 일부 변경하는 작업을 하게 되는데요, 이 과정에서 애플리케이션마다 모두 yaml 파일을 만들어야 하나 보니 매우 번거로웠습니다.
위 이미지를 보면, A 애플리케이션은 정적 파일인 yaml을 오브젝트별(Service, Pod, ConfigMap)로 만들어서 생성하고 배포합니다. 그러다가 프로젝트의 확장에 따른 기능 추가로 인해 B와 C 애플리케이션으로 쪼개어 각각의 yaml 파일을 복사해서 사용합니다.
하지만, 팀 단위로 인프라가 확장될 경우는 어떻게 할까요? 개별 오브젝트에 대한 yaml 개별적으로 관리할 수 있을까요? 만약, 개별적으로 관리한다면 파일의 갯수와 코드량의 증가로 인해 개발자들은 매우 혼잡하게 될 것입니다.
이러한 문제점을 해결하기 위해, 쿠버네티스에서 애플리케이션을 배포하기 위해 사용되는 대표적인 패키징 툴인 Helm이 등장하게 됐습니다.
Helm을 활용하면 컨테이너 배포뿐 아니라 애플리케이션을 배포하기 위해 필요한 쿠버네티스 리소스를Node의 npm, Ubuntu의 APT, Mac의 Homebrew처럼 모두 패키지 형태로 배포할 수 있습니다.
ㅣHelm의 역사
Helm은 v1부터 v3에 이르기까지 아래와 같은 변화의 과정을 거쳐왔습니다.
Helm v1
◾ [2015년 11월] DEIS의 내부 프로젝트로 시작되어 KubeCon에서 발표
◾
[
2017년 04월] MS에서 DEIS를 인수
Helm v2
◾ [2016년 01월] Google 프로젝트에 합류
◾ [2016년 ~ 2018년] Helm v2 고도화, 2.15.0 릴리스 발표에서 v2 향후 계획 세부사항 공유
Helm v3
◾
[
2018년 06월] CNCF 프로젝트에 합류, MS, 삼성 SDS, IBM 및 Blood Orange의 구성원 등이 참여
◾
[
2019년 11월] 릴리스 발표
v2에서 v3로 고도화되면서 가장 눈에 띄는 변화는 Tiller(클러스터 내에서 Helm 패키지 및 배포 상태를 관리하는 서버 구성요소)의 제거입니다.
Helm v2에서는 클러스터에 Tiller를 설치하여, API Server와 REST*1 통신을 하고, Client와 gRPC*2 통신을 진행했었는데요, Helm v3부터는 Tiller가 제거되면서 Client에서 바로 REST 통신을 통해 API Server로 요청하는 방식으로 변경되었습니다.
그 외에도 Helm v3으로 업그레이드되면서 보안 취약점이 줄어들었으며, 설치 및 관리 과정이 단순화되었습니다. 또한 사용자에게 보다 더 안전하고 효율적인 배포 및 관리 환경을 제공할 수 있게 되었습니다.
*1 REST (Representational State Transfer) : 웹 기반 애플리케이션에서 자원을 관리하기 위한 아키텍처 스타일, 데이터를 고유한 URL로 표현하고 HTTP 메서드(GET, POST, PUT, DELETE 등)를 사용하여 해당 자원에 대한 행위를 정의함
*2 gRPC (google Remote Procedure Call) : 구글에서 개발한 오픈소스 프레임워크, 원격지에 있는 다른 시스템 또는 서버에 있는 함수를 호출하는 방식
ㅣHelm의 주요 개념
Helm은 애플리케이션을 배포해 주는 툴이라고 앞서 살펴봤는데요, Helm과 같이 사용되는 주요 개념들을 살펴보겠습니다.
◾
Helm Chart:
쿠버네티스 리소스를 하나로 묶은 패키지입니다. 이는 yaml 파일의 묶음(패키지)으로, 이 묶음 public 혹은 private registry에 push 해두고, helm 명령어를 통해 Helm Chart를 설치하여 쿠버네티스 리소스를 배포하는 역할을 합니다.
◾
Repository:
Helm Chart 들의 저장소
◾
Release:
kubernetes Cluster에서 구동되는 차트 인스턴스이며, Chart는 여러 번 설치되고 새로운 인스턴스는 Release로 관리됩니다.
ㅣHelm의 주요 기능
Helm의 두 가지 주요 기능을 살펴보겠습니다.
[1] Helm Chart를 통한 손쉬운 배포
Helm을 사용하면 어떻게 되는지 그림으로 살펴보겠습니다.
개발 클러스터가 있고 앱 2개를 배포한다고 가정했을 때, Helm Chart Template을 만들면 변수 처리를 통해 yaml 파일을 하나하나 수정할 필요 없습니다. kubectl 명령어를 통해 yaml 파일의 동적 값을 치환하여 템플릿 형태로 편리하게 배포할 수 있다는 장점이 있습니다.
[2] Helm Package를 이용한 오픈소스 설치 및 배포
Helm을 통해서 쿠버네티스에서 가동할 수 있는 아래와 같은 다양한 오픈소스들의 제품들을 쉽게 설치/배포할 수 있습니다.
위제품들 외에도 Helm Chart는 총 14,376개의 패키지와 281,373개의 릴리스를 오픈소스로 제공합니다. 이를 통해 사용자들은 자신의 요구에 맞는 가장 적합한 솔루션을 선택하여 개발할 수 있습니다. 또한 많은 사용자들이 검증하고 사용함에 따라 안정성 있는 운영도 가능하죠.
다양한 Helm Chart 패키지는 커스터마이징이 가능한 경우가 많은데요, 사용자는 필요에 따라 구성을 조정하고 수정해서 사용할 수 있는 장점이 있습니다.
다음으로는 Helm 못지않게 많이 활용되는 ArgoCD에 대해서 살펴보겠습니다.
ㅣ ArgoCD란?!
기존의 kubernetes 애플리케이션을 배포하고 관리하는 방식은 수동적이었습니다. yaml 파일을 직접 편집하고, kubectl로 변경사항을 클러스터에 적용하는 수동 배포 방식은 실수를 많이 유발했죠.
또한 여러 개발자나 팀이 각자의 방식대로 배포 및 관리를 수행하는 경우, 클러스터 상태의 일관성이 저하되었는데요. 이로 인해 개발 및 운영팀 간의 협업이 어렵고 생산성이 감소되는 문제가 발생하기도 했습니다.
이러한 기존 접근 방식에 대한 대안으로 GitOps가 탄생했는데요, GitOps는 Git 저장소를 사용하는 소프트웨어 배포 접근 방식입니다. GitOps는 인프라와 소프트웨어를 함께 관리함으로써, Git 버전 관리 시스템과 운영환경 간의 일관성을 유지할 수 있도록 합니다.
ArgoCD는 GitOps를 구현하기 위한 도구 중 하나로 kubernetes 애플리케이션의 자동 배포를 위한 오픈소스 도구입니다. kubernetes 클러스터에 배포된 애플리케이션의 CI/CD 파이프라인에서 CD 부분을 담당하며, Git 저장소에서 변경사항을 감지하여 자동으로 kubernetes 클러스터에 애플리케이션을 배포할 수 있습니다.
kubernetes 애플리케이션 배포 과정을 살펴보겠습니다.
① 사용자가 개발한 내용을 Git 저장소에 Push(이때, kubernetes 배포 방식인 Helm 배포 방식의 구조로 Git 저장소에 Push 할 수 있습니다.)
② ArgoCD가 Git 저장소의 변경 상태를 감지
③ Git 저장소의 변경된 내용을 kubernetes에 배포하여 반영
ㅣ ArgoCD의 주요 기능
◾ 애플리케이션을 지정된 환경에 자동으로 배포
◾
멀티 클러스터 관리기능 제공
◾
OCI, OAuth2, LDAP 등 SSO 연동
◾
멀티 테넌시와 자체적인 RBAC 정책 제공
◾
애플리케이션 리소스 상태 분석
◾
애플리케이션 자동 및 수동 동기화 기능 제공
◾
Argo가 관리하고 있는 쿠버네티스 리소스 시각화 UI 제공
◾
자동화 및 CI 통합을 위한 CLI 제공
위 내용은 ArgoCD가 제공하는 주요 기능을 나열한 것인데요, 이 중에서도 대표적인 다섯 가지 기능에 대해서 자세히 살펴보겠습니다.
① 쿠버네티스 모니터링
ArgoCD는 쿠버네티스를 항상 추적하고 있다가 저장소의 변경사항이 감지되면, 자동으로 클러스터의 상태를 저장소의 상태와 동기화합니다. 또한 문제가 생기면 이전 상태로 롤백 할 수 있으며, 이를 통해 시스템 복구 및 문제 해결을 용이하게 합니다.
② 멀티 클러스터 관리
다중 클러스터 환경에서도 배포를 관리할 수 있어 복잡한 인프라 환경에서의 효율적인 작업을 가능하게 합니다.
③ ArgoCD 대시보드
Argo에서는 클러스터 상태를 효과적으로 관리하고 모니터링할 수 있는 대시보드를 제공합니다.
ArgoCD 대시보드를 통해 애플리케이션의 실시간 상태와 동기화 상태와 같은 전체적인 배포 파이프라인을 자동화하여 시각적으로 확인할 수 있고, 롤백 및 이력 추적 기능도 동시에 제공하고 있습니다.
④ 안전한 인증 및 권한 관리
역할 기반 액세스 제어(RBAC) 및 권한 제어기능을 통해 민감한 정보에 대한 접근을 제어할 수 있습니다.
⑤ GitOps 지원
ArgoCD는 GitOps 방법론을 따르므로 애플리케이션의 배포를 Git Repository와 동기화할 수 있습니다. 이를 통해 코드와 인프라의 일관성을 유지하고 변경사항을 추적할 수 있습니다.
ㅣ Helm과 ArgoCD의 통합 활용 프로세스
Helm과 Argo를 함께 사용하면 개발, 테스트, 배포 프로세스를 효과적으로 관리할 수 있습니다. Helm으로 애플리케이션을 패키징하고 버전을 관리하며, Argo를 활용하여 GitOps 워크플로우를 통해 지속적인 통합 및 배포를 자동화할 수 있습니다.
① develop:
Helm을 사용하여 애플리케이션을 Helm Chart로 패키징 합니다. 이후 개발된 Helm Chart를 저장하기 위한 Git 저장소를 설정합니다. ArgoCD에서 저장한 저장소를 특정 배포 대상 Kubernetes 클러스터와 연결하여, Git 저장소의 변경사항을 감지하고 새로운 배포를 시작하여 클러스터에 적용합니다.
② git push:
개발자가 로컬 저장소 내용을 원격 저장소에 배포합니다.
③ Observe(GitOps):
ArgoCD는 Git 저장소의 변경 사항을 감지하여, 변경사항이 발생하면 새로운 버전의 애플리케이션을 배포하여 자동화 및 일관성을 유지합니다.
④ 운영/테스트/개발
ㅣ마무리
오늘 함께 살펴본 Helm과 ArgoCD 두 가지 강력한 도구를 함께 이용한다면 CI/CD 통합, 버전 관리, 자동화 등의 이점을 활용해서 kubernetes 환경에서 애플리케이션을 더 효율적으로 관리할 수 있습니다.
한편 애플리케이션을 효과적으로 개발하는 것도 중요하지만, kubernetes 환경의 프로세스를 실시간 모니터링하고 추적하여 관리하는 것도 매우 중요합니다.
브레인즈컴퍼니의 kubernetes 모니터링 솔루션 Zenius-K8s는 다양한 CI/CD 도구를 이용하여 개발한 kubernetes 애플리케이션의 전체 클러스터 및 구성요소에 대한 상세 성능 정보를 모니터링하고, 리소스를 추적함으로써 시스템의 안정성과 성능을 높여주고 있습니다.
#쿠버네티스
#Helm
#Argo
#K8s
#kubernetes
#ArgoCD
#ZeniusK8s
강예원
프리세일즈팀
고객에게 특화된 Zenius를 제공하기 위해, 비즈니스 요구에 알맞은 전략적 컨설팅을 제안합니다.
필진 글 더보기
목록으로
추천 콘텐츠
이전 슬라이드 보기
[통합로그관리] Filebeat에서 안정적으로 하드웨어 자원 사용하기
[통합로그관리] Filebeat에서 안정적으로 하드웨어 자원 사용하기
Filebeat는 Elastic Stack에서 사용하는 경량(light-weight) 데이터 수집기로 logstash 대비 상대적으로 리소스(CPU와 RAM)를 상당히 적게 소모한다는 장점이 있습니다. 또, Filebeat는 간단한 필터 기능도 제공합니다. 하지만 말 그대로 간단한 필터 기능이라 한번에 대용량의 파일을 관리해야 하는 경우 호스트 서버에 부담이 갈 정도로 많은 리소스를 사용할 수 있습니다. 따라서 브레인즈컴퍼니가 운영하는 통합로그관리 에이전트는 호스트의 서버 환경에 따라 filebeat 에이전트의 설정 파일을 수정해서 안정성을 제공하고 있습니다. 본 내용은 Filebeat 리소스 점유율이 높을 때 트러블슈팅 관련 설정 수정사항입니다. 수정에 필요한 기본 파일 위치 linux : /etc/filebeat/filebeat.yml docker: /usr/share/filebeat/filebeat.yml filebeat 프로세스 메모리 확인하는 방법 top -d 1 | egrep "PID|filebeat" 수정에 앞서 filebeat의 메인 컴포넌트인 harvester의 개념을 간략하게 설명하겠습니다. 하나의 harvester는 하나의 파일을 읽어드립니다. harvester가 실행 중인 경우 파일을 한 줄씩 읽습니다. 각 파일 당 하나의 harvester가 실행됩니다. 상단의 이미지를 보면 filebeat의 컴포넌트인 input과 harvester가 보입니다. 또한 filebeat이 harvester를 관리하며 어느 파일을 읽을지 관리하는걸 알 수 있습니다. harvester가 실행 중인 경우 파일 설명자(File Descriptor) 열린 상태로 유지됩니다. 이는 파일이 삭제되거나 파일명이 변경된다 하더라도 파일을 계속 읽게 해줍니다. 하지만 파일 설명자는 harvester가 닫힐 때까지 디스크 공간을 예약합니다. 1. filebeat.inputs: 2. - type: filestream 3. id: my-filestream-id 4. paths: 5. - /var/log/system.log 6. - /var/log/wifi.log 7. - type: filestream 8. id: apache-filestream-id 9. paths: 10. - "/var/log/apache2/*" 11. fields: 12. apache: true 13. fields_under_root: true <filebeat에서 제공하는 input example> 1. scan_frequency 파일비트가 설정된 filebeat_inputs의 path에 있는 파일들의 갱신 여부를 체크하는 주기입니다. 너무 길게 설정하면 한번에 많은 파일들을 수집하게 됩니다. 반대로 너무 짧게 설정하면 스캔을 너무 잦게 해서 CPU점유율이 올라갑니다. 적당한 조절이 필요합니다. 기본값은 10초입니다. Scan_frequeny가 동작하는 방식은 아래와 같습니다. harvester 읽기 종료 또는 파일 삭제 → scan_frequency 만큼 대기 → 파일 갱신 확인 → 파일 갱신 시 새 harvester 시작 2. backoff Backoff 옵션은 파일비트가 얼마나 더 적극적으로 크롤링 하는지 지정합니다. 기본값은 1인데 1일 경우 새 줄이 추가될 경우 1초마다 확인한다는 의미입니다. Backoff가 동작하는 방식은 아래와 같습니다. harvester 읽기 종료 또는 파일 삭제 → scan_frequency만큼 대기 → 파일 갱신 확인 → 파일 갱신 시 새 harvester 시작 → 파일 갱신 시 Backoff 시간 마다 다시 확인 3. max_procs 파일비트에서 동시에 사용 가능한 최대의 cpu코어의 숫자를 설정합니다. 예를 들어32 CPU코어 시스템에서 max_procs를 1로 설정한다면 cpu사용률은 3.2%(1/32)를 넘지 않습니다. max_procs 설정돼 있으면 harvester가 아무리 많이 생성돼도 cpu의 코어 수만큼 CPU를 점유합니다. 4. harvester_limit harvester의 수가 OS가 감당할 수 있는 파일 핸들러 개수를 초과할 때 사용합니다. 한 input마다 설정되므로 inputs이 5개 선언돼 있으면 해당 input 컴퍼넌트의 harvester 개수 최대치는 5개입니다. 기본값은 0인데, 0일 경우 harvester가 무제한으로 생성 가능합니다. 리소스 관리 최적화에도 유용한데 예를 들어, input1이 input2보다 파일 개수가 3배 많고 중요성이 높을 때 3배 높은 값을 설정하는 것이 좋습니다. 5. close_eof harvester에 의해 파일이 수집되고 있을 때, EOF(End of File)에 도달하는 즉시 파일을 닫습니다. 파일이 계속 갱신된다면 데이터가 유실될 수 있는 여지가 있습니다. [참조] https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-input-log.html
2022.11.17
로그 검색 성능을 높이는 OpenSearch Query DSL 활용법
로그 검색 성능을 높이는 OpenSearch Query DSL 활용법
장애 원인을 추적하거나 특정 장비의 이벤트 흐름을 확인할 때, 운영자는 수많은 로그 데이터 중 필요한 조건에 맞는 결과를 빠르게 찾아야 합니다. 하지만 조회 범위가 넓어지고 시간 조건, 호스트, 이벤트 유형, 상태값 같은 필터가 함께 적용되면 Query DSL 작성 방식에 따라 OpenSearch의 응답 시간이 달라질 수 있습니다. 로그 검색은 일반적인 문서 검색처럼 “관련도 높은 순서”로 결과를 보여주는 것보다, 조건에 맞는 데이터를 정확하고 빠르게 필터링하는 것이 더 중요합니다. 따라서 불필요한 score 계산을 줄이고, Filter Context와 cache를 적절히 활용하는 방식으로 Query DSL을 구성해야 합니다. 이번 글에서는 Query Context와 Filter Context의 차이, Bool Query 구성 방식, Aggregation 사용 시 고려할 점을 중심으로 로그 검색 성능을 높이는 Query DSL 작성 기준을 살펴보겠습니다. 1. Query Context와 Filter Context의 차이 OpenSearch는 쿼리 조건을 Query Context와 Filter Context로 나누어 처리합니다. 두 방식의 가장 큰 차이는 관련도 점수(score) 계산 여부입니다. 로그 검색처럼 조건에 맞는 데이터를 빠르게 찾는 것이 목적이라면, 불필요한 score 계산을 줄일 수 있는 Filter Context가 더 적합합니다. 제니우스 SIEM은 이기종 장비에서 발생하는 대용량 로그를 수집·분석·저장·시각화하는 솔루션입니다. SIEM 환경에서의 로그 검색은 일반적인 문서 검색처럼 “관련도 높은 결과”를 찾는 과정이라기보다, 특정 시간 범위, 장비, 이벤트 유형, 상태값 등 조건에 맞는 데이터를 빠르게 찾아가는 과정에 가깝습니다. 따라서 대부분의 로그·이벤트 조회 조건은 Query Context보다 Filter Context로 처리하는 것이 적합합니다. Filter Context를 사용하면 불필요한 score 계산을 줄이고, 반복 조회 시 cache를 활용할 수 있어 대용량 인덱스에서도 더 안정적인 검색 성능을 기대할 수 있습니다. 흔한 실수 range 쿼리를 must 안에 넣으면 문서마다 score를 계산합니다. 같은 조건을 filter 안에 넣으면 계산을 건너뛰고 결과를 캐시합니다. 인덱스가 클수록 이 차이는 커집니다. → 실제 운영 인덱스(4.1M 문서) 기준 수치: opensearch-filter-context-benchmark.md 앞서 설명한 Query Context와 Filter Context의 차이는 실제 검색 응답에서도 확인할 수 있습니다. 동일한 조건을 조회하더라도 Query Context에서 실행하면 문서별 score가 계산되고, Filter Context에서 실행하면 score 계산 없이 조건 일치 여부만 판단합니다. 이 차이는 응답의 max_score 값과 took 시간에서도 드러납니다. Context 차이 응답 비교 먼저 Query Context에서 (must) 를 사용한 경우입니다. 이 방식은 조건에 맞는 문서를 찾는 동시에 relevance score를 계산하므로, 응답 결과의 max_score에 실제 score 값이 표시됩니다. 반면 Filter Context에서 filter 를 사용한 경우에는 score 계산이 수행되지 않아 max_score가 null로 표시됩니다. 또한 동일 조건을 반복 조회하면 cache hit가 발생해 두 번째 호출부터 took 시간이 크게 줄어듭니다. 2. Leaf Query: 검색 조건을 구성하는 기본 단위 Leaf Query는 OpenSearch Query DSL에서 단일 조건을 검사하는 기본 쿼리입니다. 특정 필드의 값 일치 여부, 필드 존재 여부, 날짜·숫자 범위 포함 여부처럼 하나의 조건을 판단합니다. 로그 검색에서는 여러 Leaf Query를 Bool Query 안에서 조합해 사용하는 경우가 많습니다. 쿼리 종류에 따라 처리 비용과 캐시 활용 여부가 달라지므로, 먼저 자주 사용하는 Leaf Query를 상대 속도 기준으로 비교해보겠습니다. 속도 기준 한눈에 보기 match_all — 전체 조회 match_all은 인덱스의 모든 문서를 조회 대상으로 삼는 가장 단순한 쿼리입니다. 별도의 조건 판단이나 문서 간 relevance 계산이 필요하지 않기 때문에 Leaf Query 중에서도 처리 비용이 낮은 편입니다. 로그 검색에서는 전체 데이터를 모두 가져오기보다, 정렬 조건과 함께 최신 또는 가장 오래된 단건을 확인할 때 유용합니다. 예를 들어 size: 1과 indextime 기준 정렬을 조합하면 특정 인덱스에서 가장 최근에 수집된 로그를 빠르게 확인할 수 있습니다. 다만 match_all은 조회 대상이 전체 문서이기 때문에 큰 size 값과 함께 사용하면 응답 데이터가 급격히 늘어날 수 있습니다. 전체 문서를 순차적으로 처리해야 한다면 한 번에 많은 데이터를 가져오기보다 search_after와 같은 페이지네이션 방식을 함께 사용하는 것이 적합합니다. match_all + size: 10000은 느립니다. 전체 문서가 필요하다면 search_after 페이지네이션과 함께 사용하세요. 응답 예시 term / terms — 정확한 값 매칭 inverted index를 직접 조회하므로 빠릅니다. filter 안에서는 bitset 캐시까지 활용합니다. .keyword 필드를 반드시 사용하세요. text 타입 필드는 analyzer가 토크나이징한 결과를 저장하므로 term 쿼리와 불일치합니다. 예: "AXGATE-300" → ["axgate", "300"]으로 분리 저장 → term: "AXGATE-300" 매칭 실패 응답예시 exists — 필드 존재 여부 null/not-null 판단 전용. must_not과 조합하면 “필드가 없는 문서만 조회”가 됩니다. 응답 예시 range — 날짜·숫자 범위 filter 안에서만 캐시됩니다. must 안에 넣으면 score 계산이 발생합니다. 날짜 math 표현식(now-1d/d, now/h)은 rounding을 포함하므로 캐시 재사용률이 높아집니다. now 단독 사용보다 now/m, now/h처럼 rounding을 붙이는 것이 캐시에 유리합니다. 응답 예시 💡 동일 쿼리 두 번째 호출에서는 took이 1~2ms로 떨어집니다. bitset 캐시 hit입니다. match_phrase — 구문 검색 단어 순서와 위치까지 검사하므로 analyzer를 통과합니다. query context에서 실행되므로 score 계산이 발생합니다. 💡 대안 검토 완전히 동일한 문자열을 매칭한다면 match_phrase 대신 keyword 필드 + term 쿼리로 교체하세요. scoring 없이 캐시가 적용되어 빠릅니다. 응답 예시 Lucene 쿼리 문자열 (?q=) — Spark 연동 전용 Spark-OpenSearch 커넥터에서 URL 파라미터로 전달하는 방식입니다. 내부적으로 query_string 쿼리로 파싱됩니다. wildcard(*) 사용을 주의하세요. ?q=zhost:* 같은 wildcard는 전체 term을 스캔합니다. Spark 연동에서 불가피하게 사용할 경우 인덱스 범위(dataSource)를 최대한 좁혀서 대상 문서 수를 줄이는 것이 중요합니다. 3. Bool Query- 여러 조건을 조합하는 방식 Bool Query는 여러 Leaf Query를 조합해 복합 검색 조건을 구성하는 쿼리입니다. 시간 범위, 장비명, 이벤트 유형, 상태값처럼 여러 조건을 함께 적용해야 하는 로그 검색에서 가장 자주 사용됩니다. 이때 중요한 것은 각 조건을 must, should, filter, must_not 중 어디에 배치하느냐입니다. 같은 조건이라도 Query Context에서 실행되면 score 계산이 발생하고, Filter Context에서 실행되면 조건 판단만 수행하므로 성능 차이가 생길 수 있습니다. must vs filter — 같은 조건, 다른 비용 📄 동일 조건 응답 비교 (운영 인덱스 4.1M 문서 기준) ❌ must 버전 ✅ filter 버전 (캐시 hit 후) Bool Query 조합 판단 기준 4. Aggregation- 로그 데이터를 그룹화하고 집계하는 방식 Query가 조건에 맞는 문서를 찾아내는 과정이라면, Aggregation은 조회된 로그 데이터를 그룹화하거나 집계해 통계 형태로 만드는 과정입니다. 장비별 이벤트 수, 시간대별 로그 발생량, 이벤트 유형별 분포처럼 운영자가 상태를 파악하는 화면에서 주로 활용됩니다. Aggregation은 Metric, Bucket, Pipeline Aggregation으로 나뉘며, 각 방식은 처리 목적과 비용이 다릅니다. 따라서 원하는 집계 결과뿐만 아니라 bucket 수, 응답 크기, 메모리 사용량까지 함께 고려해 설계해야 합니다. 집계만 할 때는 반드시 "size": 0 size: 0을 설정하지 않으면 hits(문서 본문)도 함께 반환됩니다. 집계 결과만 필요한 경우 hits 반환은 네트워크와 메모리 낭비입니다. 4-1. Metric Aggregation Metric Aggregation은 조회된 문서를 기준으로 합계, 평균, 최댓값, 최솟값, 개수와 같은 숫자 값을 계산하는 집계 방식입니다. 버킷 없이 단독으로 사용할 수도 있고, 장비별·시간대별 그룹 안에서 세부 통계를 계산하는 용도로 중첩해 사용할 수도 있습니다 value_count — 가장 빠른 집계 doc_values(컬럼 스토리지)에서 필드 값을 읽어 카운트합니다. _source(문서 본문)를 읽지 않고 score 계산도 없어 집계 중 가장 빠릅니다. 응답 예시 sum — 합계 응답 예시 avg / max / min — 평균·최대·최소 응답 예시 cardinality — 유니크 값 수 (근사값) HyperLogLog++ 알고리즘으로 근사값을 반환합니다. 기본 오차율 약 5%입니다. 응답 예시 4-2. Bucket Aggregation-문서를 그룹으로 나누는 집계 Bucket Aggregation은 조회된 문서를 특정 기준에 따라 그룹으로 나누는 집계 방식입니다. 장비별 이벤트 수, 이벤트 유형별 분포, 시간대별 로그 발생량처럼 데이터를 구간이나 항목 단위로 나누어 확인할 때 사용합니다. 다만 생성되는 bucket 수가 많아질수록 메모리 사용량과 집계 비용이 증가하므로, 필요한 기준과 범위를 적절히 제한해 사용하는 것이 중요합니다. terms — 필드 값 기준 그룹화 terms 버킷의 메모리 함정 size: 1000은 각 shard에서 상위 1000개씩 수집한 뒤 coordinator 노드에서 병합합니다. shard가 5개라면 최대 5,000개 버킷이 메모리에 올라옵니다. 필요한 수만큼만 지정하세요. _id, longid처럼 cardinality가 매우 높은 필드에는 terms agg를 사용하지 마세요. 버킷 수가 폭발적으로 증가합니다. 응답 예시 multi_terms — 복합 필드 그룹화 두 개 이상의 필드 조합으로 그룹화합니다. 단일 terms보다 비용이 높습니다. 예: (zhost, zapptype) 조합별 이벤트 수를 한 번에 구할 때 사용합니다. 응답 예시 date_histogram — 시간 기준 그룹화 시계열 차트 데이터를 만드는 가장 기본적인 방법입니다. fixed_interval vs calendar_interval 선택 기준: interval이 좁을수록 버킷 수가 급증합니다. 1주 데이터를 1m interval로 조회하면 버킷이 10,080개입니다. aggregationTypes.js의 DATE_INTERVAL_OPTIONS에는 1h~1y가 정의되어 있습니다. 단, 1M·1y는 calendar_interval 전용 값이므로 fixed_interval로 전달하면 400 오류가 발생합니다. 월·연 단위 집계 시에는 반드시 calendar_interval을 사용하세요. 응답 예시 4-3. Pipeline Aggregation- 집계 결과를 다시 처리하는 방식 Pipeline Aggregation은 Bucket Aggregation으로 생성된 결과를 다시 처리하는 집계 방식입니다. 특정 bucket을 필터링하거나, 정렬·제한하거나, metric 값을 조합해 계산 값을 만들 때 사용하며, SQL의 HAVING, ORDER BY, 계산 컬럼과 유사한 역할을 합니다. 제니우스 SIEM에서는 화면에서 설정한 집계 조건을 OpenSearch Query DSL로 변환해 처리합니다. 이때 Pipeline Aggregation의 타입은 render/js/aggregation/aggregationTypes.js에서 정의하고, Query DSL 생성 로직은 render/js/aggregation/buildAggQuery.js에서 담당합니다 타입 정의: render/js/aggregation/aggregationTypes.js 변환 로직: render/js/aggregation/buildAggQuery.js bucket_selector — HAVING 필터 bucket_selector는 집계를 모두 수행한 뒤 결과를 걸러냅니다. 집계 연산 자체는 줄어들지 않습니다. 응답 크기만 줄어듭니다. 📄 응답 예시 (count < 10인 버킷 제거됨) bucket_sort — 정렬·페이지 제한 응답 예시 bucket_script — 계산 컬럼 생성 📄 응답 예시 (avg_bytes가 서버 계산 결과로 추가됨) 앞서 살펴본 Metric, Bucket, Pipeline Aggregation은 실제 서비스에서는 단독으로 사용되기보다 여러 단계로 중첩되어 하나의 집계 쿼리를 구성하는 경우가 많습니다. 다음은 제니우스 SIEM에서 활용할 수 있는 대표적인 중첩 패턴입니다. 4-4. 실전 중첩 패턴 패턴 A: 프로세스별 시계열 메트릭 (system-metric.service.js) terms → date_histogram → avg/max/min 3단 중첩에, 프로세스 전체 통계를 병렬로 추가합니다. 응답 예시 패턴 B: buildAggQuery 빌더가 생성하는 구조 AggregationConfig → buildAggQuery() → OpenSearch aggs JSON 변환 흐름입니다. text 타입 필드는 resolveAggField()가 .keyword를 자동으로 붙여줍니다. 📄 응답 예시 OpenSearch Query DSL은 같은 조건을 표현하더라도 어떤 Context와 clause에 배치하느냐에 따라 검색 비용이 달라질 수 있습니다. 로그·이벤트 검색처럼 관련도 순위보다 조건 일치 여부가 중요한 경우에는 불필요한 score 계산을 줄이고, Filter Context를 적극적으로 활용하는 것이 중요합니다. Aggregation 역시 집계 결과뿐만 아니라 size: 0 설정, bucket 수, date_histogram의 interval, Pipeline Aggregation의 실행 특성을 함께 고려해야 합니다. 이러한 기준을 반영하면 대용량 로그 환경에서도 검색 응답 시간과 리소스 사용량을 더 안정적으로 관리할 수 있습니다. 제니우스 SIEM처럼 대용량 로그를 수집·분석·저장·시각화하는 환경에서는 이러한 작은 Query DSL 설계 차이가 실제 검색 성능과 사용성에 직접적인 영향을 줄 수 있습니다. 앞으로도 실제 운영 과정에서 확인한 개선 포인트를 기반으로 검색 성능을 지속적으로 고도화해 나갈 예정입니다.
2026.06.18
다음 슬라이드 보기