반복영역 건너뛰기
주메뉴 바로가기
본문 바로가기
제품/서비스
EMS Solution
Features
클라우드 관리
서버관리
데이터베이스 관리
네트워크 관리
트래픽 관리
설비 IoT 관리
무선 AP 관리
교환기 관리
운영자동화
실시간 관리
백업 관리
스토리지 관리
예방 점검
APM Solution
애플리케이션 관리
URL 관리
브라우저 관리
ITSM Solution
서비스데스크
IT 서비스 관리
Big Data Solution
SIEM
AI 인공지능
Dashboard
대시보드
Consulting Service
컨설팅 서비스
고객
레퍼런스
고객FAQ
문의하기
가격
자료실
카탈로그
사용자매뉴얼
회사소개
비전·미션
연혁
2016~현재
2000~2015
인증서·수상
투자정보
재무정보
전자공고
IR자료
새소식
공고
보도자료
오시는 길
채용
피플
컬처
공고
FAQ
블로그
열기
메인 페이지로 이동
블로그
기술이야기
블로그
최신이야기
사람이야기
회사이야기
기술이야기
다양한이야기
카프카를 통한 로그 관리 방법
메모리 누수 위험있는 FinalReference 참조 분석하기
김진광
2023.10.12
페이스북 공유하기
트위터 공유하기
링크드인 공유하기
블로그 공유하기
[행사] 브레인즈컴퍼니 ‘가을문화행사 2023’
Java에서 가장 많이 접하는 문제는 무엇이라 생각하시나요? 바로 리소스 부족 특히 ‘JVM(Java Virtual Machine) 메모리 부족 오류’가 아닐까 생각해요.
메모리 부족 원인에는 우리가 일반적으로 자주 접하는 누수, 긴 생명주기, 다량의 데이터 처리 등 몇 가지 패턴들이 있는데요. 오늘은 좀 일반적이지 않은(?) 유형에 대해 이야기해 볼게요!
Java 객체 참조 시스템은 강력한 참조 외에도 4가지 참조를 구현해요. 바로 성능과 확장성 기타 고려사항에 대한 SoftReference, WeakReference, PhantomReference, FinalReference이죠. 이번 포스팅은
FinalReference를 대표적인 사례
로 다루어 볼게요.
PART1. 분석툴을 활용해 메모리 누수 발생 원인 파악하기
메모리 분석 도구를 통해 힙 덤프(Heap Dump)를 분석할 때, java.lang.ref.Finalizer 객체가 많은 메모리를 점유하는 경우가 있어요. 이 클래스는 FinalReference와 불가분의 관계에요. 나눌 수 없는 관계라는 의미죠.
아래 그림 사례는 힙 메모리(Heap Memory)의 지속적인 증가 후 최대 Heap에 근접 도달 시, 서비스 무응답 현상에 빠지는 분석 사례인데요. 이를 통해 FinalReference 참조가 메모리 누수를 발생시킬 수 있는 조건을 살펴볼게요!
Heap Analyzer 분석툴을 활용하여, 힙 덤프 전체 메모리 요약 현황을 볼게요. java.lang.ref.Finalizer의 점유율이 메모리의 대부분을 점유하고 있죠. 여기서 Finalizer는, 앞에서 언급된 FinalReference를 확장하여 구현한 클래스에요.
JVM은 GC(Garbage Collection) 실행 시 해제 대상 객체(Object)를 수집하기 전, Finalize를 처리해야 해요.
Java Object 클래스에는 아래 그림과 같이 Finalize 메서드(Method)가 존재하는데요. 모든 객체가 Finalize 대상은 아니에요.
JVM은 클래스 로드 시, Finalize 메서드가 재정의(Override)된 객체를 식별해요. 객체 생성 시에는 Finalizer.register() 메서드를 통해, 해당 객체를 참조하는 Finalizer 객체를 생성하죠.
그다음은 Unfinalized 체인(Chain)에 등록해요. 이러한 객체는 GC 발생 시 즉시 Heap에서 수집되진 않아요. Finalizer의 대기 큐(Queue)에 들어가 객체에 재정의된 Finalize 처리를 위해 대기(Pending) 상태에 놓여있죠.
위 그림과 같이 참조 트리(Tree)를 확인해 보면, 많은 Finalizer 객체가 체인처럼 연결되어 있어요. 그럼 Finalizer 객체가 실제 참조하고 있는 객체는 무엇인지 바로 살펴볼까요?
그림에 나온 바와 같이 PostgreSql JDBC Driver의 org.postgresql.jdbc3g.Jdbc3gPreparedStatement인 점을 확인할 수 있어요. 해당 시스템은 PostgreSql DB를 사용하고 있었네요.
이처럼 Finalizer 참조 객체 대부분은 Jdbc3gPreparedStatement 객체임을 알 수 있어요. 여기서 Statement 객체는, DB에 SQL Query를 실행하기 위한 객체에요.
그렇다면, 아직 Finalize 처리되지 않은 Statement 객체가 증가하는 이유는 무엇일까요?
먼저 해당 Statement 객체는 실제로 어디서 참조하는지 살펴볼게요. 해당 객체는 TimerThread가 참조하는 TaskQueue에 들어가 있어요. 해당 Timer는 Postgresql Driver의 CancelTimer이죠.
해당 Timer의 작업 큐를 확인해 보면 PostgreSql Statement 객체와 관련된 Task 객체도 알 수도 있어요.
그럼 org.postgresql.jdbc3g.Jdbc3gPreparedStatement 클래스가 어떻게 동작하는지 자세히 알아볼까요?
org.postgresql.jdbc3g.Jdbc3gPreparedStatement는 org.postgresql.jdbc2.AbstractJdbc2Statement의 상속 클래스이며 finalize() 메서드를 재정의한 클래스에요. Finalize 처리를 위해 객체 생성 시, JVM에 의해 Finalizer 체인으로 등록되죠.
위와 같은 코드로 보아 CancelTimer는, Query 실행 후 일정 시간이 지나면 자동으로 TimeOut 취소 처리를 위한 Timer에요.
정해진 시간 내에 정상적으로 Query가 수행되고 객체를 종료(Close) 시, Timer를 취소하도록 되어 있어요. 이때 취소된 Task는 상태 값만 변경되고, 실제로는 Timer의 큐에서 아직 사라지진 않아요.
Timer에 등록된 작업은, TimerThread에 의해 순차적으로 처리돼요. Task는 TimerThread에서 처리를 해야 비로소 큐에서 제거되거든요.
이때 가져온 Task는 취소 상태가 아니며, 처리 시간에 아직 도달하지 않은 경우 해당 Task의 실행 예정 시간까지 대기해야 돼요.
여기서 문제점이 발생해요.
이 대기 시간이 길어지면 TimerThread의 처리가 지연되기 때문이죠. 이후 대기 Task들은 상태 여부에 상관없이, 큐에 지속적으로 남아있게 돼요.
만약 오랜 시간 동안 처리가 진행되지 않는다면, 여러 번의 Minor GC 발생 후 참조 객체들은 영구 영역(Old Gen)으로 이동될 수 있어요.
영구 영역으로 이동된 객체는, 메모리에 즉시 제거되지 못하고 오랜 기간 남게 되죠. 이는 Old(Full) GC를 발생시켜 시스템 부하를 유발하게 해요. 실제로 시스템에 설정된 TimeOut 값은 3,000초(50분)에요.
Finalizer 참조 객체는 GC 발생 시, 즉시 메모리에서 수집되지 않고 Finalize 처리를 위한 대기 큐에 들어가요. 그다음 FinalizerThread에 의해 Finalize 처리 후 GC 발생 시 비로소 제거되죠. 때문에 리소스의 수집 처리가 지연될 수 있어요.
또한 FinalizerThread 스레드는 우선순위가 낮아요. Finalize 처리 객체가 많은 경우, CPU 리소스가 상대적으로 부족해지면 개체의 Finalize 메서드 실행을 지연하게 만들어요. 처리되지 못한 객체는 누적되게 만들죠.
요약한다면 FinalReference 참조 객체의 잘못된 관리는
1) 객체의 재 참조를 유발 2) 불필요한 객체의 누적을 유발 3) Finalize 처리 지연으로 인한 리소스 누적을 유발
하게 해요.
PART2.
제니우스 APM을 통해 Finalize 객체를 모니터링하는 방법
Zenius APM에서는 JVM 메모리를 모니터링하고 분석하기 위한, 다양한 데이터를 수집하고 있어요. 상단에서 보았던
FinalReference 참조 객체의 현황에 대한 항목도 확인
할 수 있죠.
APM 모니터링을 통해 Finalize 처리에 대한 문제 발생 가능성도
‘사전’
에 확인
할 수 있답니다!
위에 있는 그림은 Finalize 처리 대기(Pending)중인 객체의 개수를 확인 가능한 컴포넌트에요.
이외에도 영역별 메모리 현황 정보와 GC 처리 현황에 대해서도 다양한 정보를 확인 할 수 있어요!
이상으로 Finalize 처리 객체에 의한 리소스 문제 발생 가능성을, 사례를 통해 살펴봤어요. 서비스에 리소스 문제가 발생하고 있다면, 꼭 도움이 되었길 바라요!
------------------------------------------------------------
©참고 자료
◾ uxys, http://www.uxys.com/html/JavaKfjs/20200117/101590.html
◾ Peter Lawrey, 「is memory leak? why java.lang.ref.Finalizer eat so much memory」, stackoverflow, https://stackoverflow.com/questions/8355064/is-memory-leak-why-java-lang-ref-finalizer-eat-so-much-memory
◾ Florian Weimer, 「Performance issues with Java finalizersenyo」, enyo,
https://www.enyo.de/fw/notes/java-gc-finalizers.html
------------------------------------------------------------
#APM
#Finalize
#제니우스
#메모리 누수
#Zenius
#FinalReference
#제니우스 APM
김진광
APM팀(개발3그룹)
개발3그룹 APM팀에서 제품 개발과 기술 지원을 담당하고 있습니다.
필진 글 더보기
목록으로
추천 콘텐츠
이전 슬라이드 보기
Zenius를 통한 NVIDIA MIG 모니터링과 GPU 자원 최적화 방안
Zenius를 통한 NVIDIA MIG 모니터링과 GPU 자원 최적화 방안
최근 데이터 센터 운영자에게 GPU는 가장 가치 있는 자산이지만, 역설적으로 가장 관리하기 까다로운 숙제이기도 합니다. 특히 NVIDIA MIG 기술은 자원 효율성을 극대화했지만, 운영자에게는 GPU라는 전체 숲을 넘어 그 안의 나무 한 그루(인스턴스)까지 낱낱이 살펴봐야 하는 새로운 과제를 안겨주었습니다. 지금부터 MIG 환경에 최적화된 모니터링 체계가 필요한 이유를 살펴보고, Zenius가 어떻게 관리의 사각지대를 없애고 효과적인 통합 모니터링 체계를 구현하는지 자세히 살펴보겠습니다. 1. MIG(Multi-Instance GPU)란 무엇인가? 기존에는 하나의 GPU를 여러 명이 공유하기 위해 소프트웨어 방식의 가상화(vGPU)나 시분할(Time-sharing) 방식을 주로 사용했습니다. 하지만 이 방식은 자원을 나눠 쓰는 과정에서 서로 간섭(Interference)을 일으키거나, 보안상의 허점이 발생할 수 있다는 불안 요소가 있었죠. 이러한 한계를 극복하기 위해 NVIDIA Ampere 아키텍처(A100)부터 도입된 기술이 바로 MIG(Multi-Instance GPU)입니다. MIG는 소프트웨어가 아닌 하드웨어 수준에서 하나의 GPU를 최대 7개의 독립된 인스턴스로 분할하여, 마치 7개의 작은 GPU가 각자 작동하는 것과 같은 환경을 제공합니다. MIG의 장점을 자세히 살펴보면 독립된 하드웨어 자원 할당: 각 인스턴스는 전용 고대역폭 메모리(HBM), 캐시, 컴퓨팅 코어를 가집니다. 완벽한 격리(Isolation) 구현: 한 인스턴스에서 장애가 발생하거나 과부하가 걸려도 다른 인스턴스의 성능에 전혀 영향을 주지 않습니다. 예측 가능한 성능 보장: 공유 자원 경쟁이 없으므로 일관된 응답 속도(Latency)를 보장합니다. 2. 왜 MIG 환경에서는 새로운 모니터링이 필요할까? MIG 기술은 자원 운영 효율을 높여주지만, 관리자에게는 '단일 물리 장치'를 넘어 '수많은 독립 인스턴스'를 개별적으로 관리해야 하는 새로운 숙제를 안겨줍니다. 기존의 물리 GPU 단위 모니터링 방식만 고수할 경우 다음과 같은 실질적인 한계에 직면하게 됩니다. 가시성의 공백: 전체 GPU 사용률은 낮아 보여도, 특정 인스턴스는 이미 연산 한계(Full)에 도달해 병목 현상을 겪고 있을 수 있습니다. 인스턴스 단위의 세밀한 데이터 없이는 정확한 성능 분석과 의사결정이 어렵습니다. 복합 환경의 관리: 온프레미스 서버(SMS)와 쿠버네티스(K8s) 환경이 혼재된 경우, 각 환경에서 구동되는 GPU 인스턴스 현황을 통합해서 보기가 매우 어렵습니다. 3.기존 물리 GPU 모니터링 vs MIG 모니터링의 차이점 기존의 방식대로 GPU를 바라본다면 MIG 환경에서는 많은 정보를 놓치게 됩니다. 주요 차이점은 다음과 같습니다. ① 데이터의 입도(Granularity) - 기존: GPU 온도, 전체 사용률, 총 메모리 사용량 등 '물리 장치' 단위의 지표를 수집합니다. - MIG: 각 GPU Instance ID별로 할당된 프로필(예: 1g.5gb, 3g.20gb)과 해당 인스턴스의 실시간 연산량, 메모리 점유율을 개별적으로 추적해야 합니다. ② 자원 매핑의 복잡성 - 기존: 1 Host = N GPUs 구조로, 호스트와 장치 간의 연결 관계가 매우 단순합니다. - MIG: 물리 GPU 상단에 가상화된 계층이 존재하므로, "Physical GPU → GPU Instance → Compute Instance"로 이어지는 복잡한 계층 구조를 명확히 매핑하여 시각화해야 합니다. ③ 성능 병목 지점의 식별 - 기존: GPU 전체 사용률이 높으면 그래픽 카드 자체의 성능 한계로 판단합니다. - MIG: 전체 GPU 사용률은 낮아 보이더라도, 특정 인스턴스(MIG)에 할당된 자원이 풀(Full) 상태라면 해당 워크로드에서만 병목이 발생합니다. 이를 정확히 구분해내지 못하면 원인을 엉뚱한 곳에서 찾거나, 불필요한 인프라 증설 결정을 내리는 등 자원 낭비로 이어질 수 있습니다. 이처럼 MIG의 정확한 모니터링을 위해서는 물리적 장치와 개별 인스턴스를 아우르는 다차원적인 시각화와, 인스턴스 단위의 정밀한 데이터 추적 체계가 필요합니다. 4. Zenius를 통한 효과적인 GPU/MIG 모니터링 Zenius는 앞서 살펴본 모니터링 사각지대로 인한 가시성의 공백과 복합 환경의 관리 복잡성을 해결하기 위해, 온프레미스(SMS)와 쿠버네티스(K8s) 환경을 아우르는 통합 GPU 모니터링 대시보드 등을 통해 인프라 관리자의 운영 부담을 낮춰줍니다. 구체적인 Zenius의 강점은 세 가지로 정리할 수 있습니다. ① 물리 GPU와 MIG의 계층적 통합 관제 Zenius는 물리적 장치(Physical)와 하위 인스턴스(MIG)의 관계를 계층적으로 시각화하여 복잡한 자원 현황을 한눈에 파악할 수 있게 합니다. - 토탈 대시보드: 물리 GPU의 수량과 생성된 MIG 인스턴스 현황을 대시보드 상단에서 실시간으로 즉각 확인할 수 있습니다. - 유연한 그룹핑: 모델별, 서비스별 그룹핑은 물론 심각도 순 정렬 기능을 제공하여, 관리 대상이 수백 대에 달하더라도 우선순위에 따른 전략적 대응이 가능합니다. ② 정밀한 성능 추적과 Top-N 분석 단순한 장비의 '생존 여부' 확인을 넘어, GPU가 최적의 성능을 내고 있는지 '체력 상태'를 면밀히 체크합니다. - 핵심 지표 시각화: GPU 사용률(Utilization), 전력 소모량(Power Draw), SM Active 등 엔지니어에게 꼭 필요한 핵심 데이터를 직관적인 차트로 구성하여 제공합니다. - 인스턴스별 상태 파악: 개별 MIG 인스턴스의 점유율을 독립적으로 추적함으로써, 특정 워크로드에서 발생하는 성능 병목 지점을 즉시 식별하고 조치할 수 있습니다. ③ 지능형 감시 및 장애 대응 Zenius의 강력한 이벤트 엔진은 물리 GPU와 MIG 인스턴스에서 발생하는 미세한 이상 징후까지 놓치지 않고 감지합니다. - 성능 항목 감시 기능: 온도 임계치 초과나 인스턴스 수집 불량(미수집) 등 주요 성능 지표에 대해 세밀한 개별 감시 규칙을 설정할 수 있습니다. - 이벤트 내역 관리: 발생한 이벤트의 심각도와 인프라 정보를 유기적으로 연결하여, 장애 발생 시 원인 분석에 소요되는 시간을 획기적으로 단축합니다. Zenius는 복잡한 GPU 인프라의 가시성을 확보함으로써, 관리자가 실질적인 데이터에 기반해 자원을 효율적으로 배분하고 안정적으로 운영할 수 있도록 돕습니다. 5. 실전 활용 예시: Zenius로 실현하는 자원 최적화 1) 쿠버네티스(K8s) AI 워크로드 관리: K8s 클러스터 내에서 구동되는 각 파드(Pod)가 할당된 MIG 자원을 적절히 쓰고 있는지 확인할 수 있습니다. Zenius의 사용 현황 그래프를 보면 할당된 자원(Allocated)과 유휴 자원(Not Allocated)의 비율을 한눈에 알 수 있어, 효율적인 자원 재배치가 가능합니다. 2) 장애 선제 대응 및 가용성 확보: 대시보드 우측의 '이벤트 현황'과 '사용 현황' 차트를 결합하면, 특정 인스턴스가 비활성(Not Active) 상태로 변하거나 온도가 급증하는 신호를 감지하여 서비스 중단 전 선제적으로 대응할 수 있습니다. 아무리 뛰어난 자원이라도 운영자의 눈에 보이지 않으면 효율을 높이기 어렵습니다. Zenius는 복잡하게 얽힌 GPU 인프라를 누구나 이해하기 쉬운 직관적인 정보로 바꾸어, 관리자가 실무 현장에서 데이터에 기반한 최선의 판단을 내릴 수 있도록 지원하겠습니다.
2026.04.28
다음 슬라이드 보기