반복영역 건너뛰기
주메뉴 바로가기
본문 바로가기
제품/서비스
EMS Solution
Features
클라우드 관리
AI 인공지능
서버관리
데이터베이스 관리
네트워크 관리
트래픽 관리
설비 IoT 관리
무선 AP 관리
교환기 관리
운영자동화
실시간 관리
백업 관리
APM Solution
애플리케이션 관리
URL 관리
ITSM Solution
서비스데스크
IT 서비스 관리
Big Data Solution
SIEM
Dashboard
대시보드
Consulting Service
컨설팅 서비스
고객
레퍼런스
고객FAQ
문의하기
가격
자료실
카탈로그
사용자매뉴얼
회사소개
비전·미션
연혁
2016~현재
2000~2015
인증서·수상
투자정보
재무정보
전자공고
IR자료
새소식
공고
보도자료
오시는 길
채용
피플
컬처
공고
FAQ
블로그
열기
메인 페이지로 이동
블로그
기술이야기
블로그
최신이야기
사람이야기
회사이야기
기술이야기
다양한이야기
SMS를 통한 서버관리는 꼭 이렇게 해야만 한다?!
네트워크 정보 수집 프로토콜의 모든 것 (SNMP, RMON, ICMP, Syslog)
임형섭
2024.03.04
페이스북 공유하기
트위터 공유하기
링크드인 공유하기
블로그 공유하기
무선 AP를 WNMS를 통해 올바르게 관리하는 방법
지난 포스팅을 통해
NMS의 기본 개념
과
NMS의 구성요소와 역할
에 대해서 살펴보았는데요. 오늘은
네트워크 정보 수집을 위한 다양한 프로토콜
에 대해서 자세히 알아보겠습니다.
네트워크 프로토콜(Network Protocol)은 네트워크에 연결된 장비 간의 메시지 흐름을 통제하고 관리하는 기본적인 절차와 규칙을 정한 규약입니다.
웹 브라우저, 파일 전송, 이메일 송수신, 미디어 스트리밍 등과 같은 모든 온라인 활동을 가능하게 하기 때문에 네트워크 정보 전달의 핵심요소라고 할 수 있죠.
이번 시간에는 주요
네트워크 프로토콜인 ICMP, SNMP
를 중점적으로 알아보겠습니다.
ㅣICMP는 무엇이고 어떻게 동작하는가?
ICMP(Internet Control Message Protocol)는 주로 네트워크의 경로상의 문제나, 호스트(단말)의 문제 등을 파악할 때 사용하는 프로토콜인데요. 대표적인 서비스가 ping입니다. 구체적인 동작원리를 살펴보면 다음과 같습니다.
오류 보고
◾ 네트워크에서 데이터를 보낼 때 오류가 발생하면, 오류를 발생시킨 장비(예: 라우터, 스위치)는 오류 정보를 담아 ICMP 메시지를 처음 보낸 사람에게 전송합니다. 이를 통해 무엇이 잘못됐는지 정확히 파악하고 문제를 해결할 수 있습니다.
◾ 예를 들어 한 컴퓨터에서 인터넷을 통해 데이터를 보내는데, 그 데이터가 목적지에 도달하지 못하면 ICMP가 '이 주소로는 데이터를 배달할 수 없어!'라고 알려주는 역할을 하죠. 이렇게 사용자나 네트워크 관리자가 문제를 알리고 대응할 수 있게 도와주는 게 ICMP의 주요 역할입니다.
[그림] ICMP 동작 방식
진단 및 테스트
◾ 네트워크의 연결 상태나 성능을 테스트하기 위해 ICMP 에코 요청과 에코 응답 메시지를 사용합니다. 이를 통해 네트워크의 지연시간(latency)이나 패킷 손실(packet loss) 등을 측정할 수 있습니다. '핑(ping, Packet INternet Groper)'을 대표적인 예로 들 수 있습니다.
◾ 쉽게 표현하면 '너 지금 연결 잘 되어 있니?'라고 물었을 경우 대상 장비가 '응, 잘 되어 있어!'라고 대답하면 연결이 잘 되어 있는 것이고, 대답이 없거나 늦는 것과 같은 문제를 식별하는 것이죠.
ICMP도 좋은 도구이지만, 네트워크의 복잡성이 빠르게 증가하고 호스트 수가 증가하면서 ICMP만으로는 네트워크 관리가 어려워지는 문제가 발생했는데요. 이를 개선하기 위해서 탄생한 것이 바로 SNMP입니다.
우선 SNMP의 히스토리부터 살펴보겠습니다.
ㅣSNMP 히스토리: 각 버전별 개념과 차이점은?
SNMP(Simple Network Management Protocol)는 1988년에 아래의 세 가지 니즈에 부합하기 위해 등장했습니다.
◾ ICMP보다 많은 기능의 탑재
◾ 네트워크 문제를 직관적이고 쉽게 해결할 수 있어야 함
◾ 표준화된 프로토콜의 사용
이후 몇 가지 버전을 거쳐서 현재는 네트워크 장비를 모니터링하기 위한 프로토콜로 자리를 잡아서 대부분의 NMS 상에서 이용되고 있습니다.
잠깐 SNMP의 처리단계를 살펴보면, SNMP는 Get/Set/Trap의 단순 명령 구조로 구성되는데요, 메시지 타입별 역할은 아래와 같이 정리할 수 있습니다.
위와 같은 처리단계를 가지고 있는 SNMP는 보안 기능 강화 및 기능 개선을 위해서 초기 v1 버전에서 v3 버전까지 업그레이드됐습니다.
각 버전은 보안, 성능, 유연성 등의 측면에서 발전되었으며 현재는 SNMPv2가 가장 많이 사용되고 있죠. SNMP 버전 별 특징에 대해서 자세히 알아보겠습니다.
SNMP v1
가장 초기에 만들어진 프로토콜로 기본적인 정보만을 주고받아서 네트워크 장비들의 상태를 확인하고, 간단한 명령 정도만 내릴 수 있습니다. 보안에 많이 약한 편이고, 정보를 주고받을 때 특별한 암호화나 보호 방법을 사용하지 않기에 정보가 노출될 위험이 있습니다.
SNMP v2
SNMPv1의 단점을 해결하기 위해 개발된 버전입니다. 보안 기능과 네트워크 과부하, 관리 효율성 등에 대한 기능이 향상되었습니다.
MIB(Management Information Base) 구조를 개선하여, 새로운 데이터 타입과 객체 식별자(프로그래밍에서 특정 객체를 식별하는 데 사용되는 값이나 이름)을 도입했습니다. 이로써 더 많은 종류의 데이터를 효과적으로 다룰 수 있게 되었지만, v1과 호환이 안되는 문제가 있어 상용화에는 실패했습니다.
SNMP v2c (Community-Based Security)
SNMPv2c는 '커뮤니티 기반' 방식을 사용하며 'Community String' (공동체 문자열)을 이용합니다. Community String은 정보를 주고받기 위해 인증 과정에서 비밀번호를 사용하는 것으로, 학교에서 특정 비밀번호를 알고 있는 사람들만 특정 정보를 볼 수 있게 하는 것과 비슷합니다.
하지만 비밀번호가 복잡하지 않은 편이라, 조금 더 높은 보안을 필요로 하는 경우에는 적합하지 않을 수 있습니다. 현재 가장 많이 사용되고 있는 버전입니다.
SNMP v3
보안과 관리 기능을 대폭 강화한 버전입니다. SNMPv3는 정보를 주고받을 때 강력한 인증과 암호화를 사용하여, 네트워크 상의 중요한 정보를 안전하게 지킬 수 있습니다.
또한 복잡한 네트워크 환경에서 사용자가 많을 경우에도, 각 사용자의 접근 권한을 관리할 수 있는 기능이 있습니다. 하지만 이전 버전들보다 더 복잡한 보안 모델과 설정 등의 이유로 널리 사용되고 있지는 않습니다.
[그림] SNMP 버전과 수를 한눈에 볼 수 있는 제니우스 EMS 화면
참고로 SNMP에는 위와 같이 다양한 버전이 있기 때문에 모든 NMS는 제니우스처럼 어떤 버전으로 수집했는지와 수를 파악할 수 있어야 합니다.
이제 SNMP에 대해서 조금 더 자세하게 살펴보겠습니다.
ㅣSNMP 자세히 보기: MIB의 개념과 구조
MIB(Management Information Base)는 관리 정보 기반이라고 불립니다. SNMP를 통해 관리되어야 할 정보나 자원들을 모아둔 것으로, Manager와 Agent 간 정보를 주고받는 정보의 집합체입니다.
MIB에는 SNMP를 통해 주고받는 정보가 어떤 의미를 가지고 어떻게 사용될 수 있는지에 대한 정의가 포함되어 있습니다. 또한 각각의 정보는 '객체'라고 불리며, 이 객체들은 계층적으로 구성되어 있기에 관리하고자 하는 정보를 쉽게 찾을 수 있게 도와주죠.
대표적으로 CPU 사용량, 메모리 사용량, 포트의 up/down 같은 상태 정보 등이 MIB에 포함됩니다. 마치 항해사가 바다를 항해하기 위해 지도를 사용하는 것처럼, MIB를 통해 네트워크의 상태를 정확히 파악하고 필요한 조치를 취할 수 있습니다.
MIB의 구조를 자세히 살펴보면 우선 큰 나무를 뒤집어 놓았다고 생각한다면 이해하기 쉽습니다. 큰 나무의 밑동(Root) → 각각의 가지(Branches) → 잎사귀(Leavers)로 나누어져 내려오는 형태인데요, 부분별로 자세히 살펴보겠습니다.
◾
밑동(Root):
모든 MIB 트리의 시작점으로, 'iso(1)', 'org(3)', 'dod(6)', 'internet(1)' 등으로 구성되어 있습니다. 여기서 'internet'은 네트워크 장비와 관련된 표준 MIB를 나타냅니다.
◾
가지(Branches):
밑동에서 나온 큰 가지들은 네트워크 장비의 다양한 부분을 나타냅니다. 예를 들어 'mgmt(2)' 가지는 일반적인 관리 정보, 'private(4)' 가지는 각 제조업체의 고유 정보 등을 의미합니다.
◾
잎사귀(Leaves):
가장 작은 단위의 정보를 나타내는 부분으로 특정 장비의 상태, 성능 지표, 설정값 등 구체적인 데이터가 저장됩니다.
MIB에서는 네트워크 장비의 정보가 여러 '분류'로 나누어져 있는데, '네트워크 인터페이스'라는 분류 아래에는 네트워크 카드의 상태, 속도, 전송된 데이터의 양과 같은 정보들이 담겨 있습니다.
MIB는 복잡해 보일 수 있지만, 네트워크 장비와 관련된 정보를 체계적으로 관리하고 접근할 수 있도록 설계되어 있습니다. 이 구조 덕분에 네트워크 관리자는 네트워크의 건강 상태를 쉽게 체크하고 필요한 조정을 할 수 있습니다.
다음으로는 MIB 내의 각 객체를 고유하게 식별하는 OID에 대해서 알아보겠습니다.
ㅣSNMP 자세히 보기: OID 확인 방법과 수집항목
OID(Object Identifier)는 MIB 내에 포함되어 있는 각 개별 정도에 대한 ID 값입니다. 아래 그림에서 볼 수 있듯이, 트리의 하단 값이 OID인데 MIB의 각 개별 정보에 대한 ID를 의미합니다.
[그림] OID Tree 구조
대형 도서관에서 원하는 책을 찾을 때 책의 번호를 확인하여 빠르고 정확하게 찾는 것처럼, 특정 오브젝트의 ID(Num)을 부여한 게 OID입니다. OID는 포함하고 있는 각 정보를 숫자로 표현합니다.
◾
Enterprise OID:
네트워크 업계에서 공통으로 사용하는 OID
◾
Private OID:
각 네트워크 벤더사에서 사용하는 독자적인 OID
예를 들어 Juniper Networks라는 네트워크 스위치 벤더에서 사용하고 있는 OID 값을 [1.3.5.6.1.9 ]라는 전용 OID 값을 사용한다고 가정하면, Juniper Networks 라우터의 경우 뒤에 라우터 제품별 OID '11'이 더 붙은 [1.3.5.6.1.9.11 ] 형태의 OID로 구성됩니다.
[그림] 제니우스 예시 화면
지금까지 네트워크 모니터링에 필요한 ICMP, SNMP 그리고 MIB, OID에 대해 살펴봤습니다. 참고로 제니우스(Zenius)-NMS에서는 OID 사전을 제공하고 있으며, 이를 통하여 관리하고 싶은 항목의 MIB 항목 및 OID 정보를 쉽게 찾을 수 있습니다.
이제 SNMP의 주요 개념 중 하나인 SNMP Trap에 대해서 알아보겠습니다.
ㅣSNMP Trap의 개념 그리고 특징은?
Manager(관리자)는 Server(Agent)로 메시지 요청(Polling)을 하게 되고, Server(Agent)는 응답(Notifying)을 하는 방식으로 진행됩니다.
그런데 Server가 비정상적인 이벤트를 감지하면 Manager의 Polling을 기다리지 않고 바로 Manager에게 메시지를 보내는데요, 이 긴급 메시지를 Trap(트랩)이라고 합니다. 우리가 날씨에 대해서 찾아보지 않아도 폭설이 예상될 때 폭설을 경고하는 자동 알림 시스템과 비슷한 개념입니다.
[그림] SNMP 프로토콜 동작 방식
SNMP Trap은 일반적으로 높은 CPU 사용량이나 디스크 공간 부족과 같이 해결해야 할 문제를 나타냅니다. 중앙 모니터링 시스템으로 전송되어 분석 및 조치를 취할 수 있죠. 이를 통해 Manager는 큰 문제가 발생하기 전에 잠재적인 문제를 신속하게 식별하고 해결할 수 있습니다.
SNMP Trap의 방식과 기능을 네 가지로 나누어 살펴보겠습니다.
(1) 비동기적 알림
SNMP Trap는 주기적인 폴링이 아닌, 이벤트 기반의 알림을 통해 즉각적으로 대응할 수 있도록 비동기적인 방법을 제공합니다.
(2) 실시간 알림
SNMP Trap은 이벤트가 발생하는 즉시 알림을 제공하여, 실시간으로 네트워크 상태 및 장치 상태를 모니터링해서 문제 발생 시 즉각적인 대응과 조치를 가능하게 합니다.
(3) 이벤트 기반 모니터링
SNMP Trap은 장치나 응용 프로그램에서 특정 이벤트가 발생했을 때만 알림을 보내기 때문에, 불필요한 트래픽을 발생시키지 않습니다. 따라서 자원을 효율적으로 사용하면서 중요한 상태 변경을 식별합니다.
(4) 자동화된 대응
SNMP Trap을 사용하면 이벤트 발생 시, 자동으로 대응 조치를 취할 수 있는 자동화 시스템을 구축할 수 있습니다. 이를 통해 관리자의 개입 없이 특정 이벤트에 대한 대응을 효과적으로 수행할 수 있습니다.
[그림] Zenius Syslog 감시 설정 등록 페이지(위), Zenius Syslog 이벤트 페이지(아래)
이와 같은 SNMP Trap을 통해 빠르게 이상을 탐지하는 것이 중요한데요. 제니우스(Zenius)-Syslog와 Trap에서는 Syslog, Trap에 각각 특정 이벤트 조건을 설정하여 이벤트를 감지하고, 장애를 통보할 수 있는 기능을 제공하고 있습니다.
이제 마지막으로 SNMP 못지않게 네트워크 관리에 중요한 역할을 하는 Syslog, RMON에 대해서 알아보겠습니다.
ㅣ Syslog, RMON의 개념과 동작원리는?
Syslog
Syslog는 컴퓨터 시스템, 네트워크 장비, 보안 장비 등에서 일어나는 모든 상황과 변화를 서버에 기록하는 프로토콜입니다. 관리 대상인 장비에서 일어나는 모든 상황을 메모리에 기록하죠. 로그/오류 관리가 주 목적이고 Unix와 Linux에서 많이 사용됩니다.
대부분의 라우터와 스위치들은 Syslog 프로토콜을 이용하여 Log들을 Syslog 서버로 보내고, 수백수천 대의 장비에 일일이 접속하여 로그를 볼 수 없기 때문에 '중앙 집중식'으로 관리합니다.
작업 방식은 주로 Client-Push 모델로 이러우지고 있고, 장비에서 일어나는 모든 상황 변화를 Layer4 프로토콜이 메모리에 기록하며, Syslog 서버는 UDP 포트 514에서 메세지를 수신합니다.
Syslog 수집항목은 시스템 운영/네트워크/보안/애플리케이션 등과 관련된 로그를 수집 및 분석하고, 각 항목별로 오류와 트랜잭션 등에 대한 내용을 확인합니다.
출처ⓒ viettelco.net
RMON
RMON(Remote Network Monitoring)은 네트워크 장비나 서버에서 발생하는 트래픽과 문제들을 원격에서 감시하기 위해 만들어진 프로토콜로, SNMP보다 확장된 개념이라고 할 수 있습니다.
네트워크 관리자는 RMON을 통해, 네트워크의 성능을 측정하고 문제가 발생했을 때 신속하게 해결할 수 있습니다. 회사에서 인터넷이 느려지거나 연결이 되지 않을 때 RMON을 사용하면 원인을 빠르게 찾아내어 문제를 해결할 수 있죠.
RMON과 SNMP의 연관성을 우선 아래 이미지를 통해 살펴보겠습니다.
출처ⓒ dpstele.com/blog/what-is-rmon.php
좀 더 자세히 살펴보면
◾ RMON은 SNMP 위에서 작동하며, SNMP 보다 더 광범위한 데이터를 수집/분석할 수 있는 기능을 제공합니다.
◾ SNMP가 네트워크의 '기본적인 통신'을 담당한다면, RMON은 그 위에서 보다 '세밀한 관찰과 분석'을 가능하게 합니다.
◾ RMON은 SNMP의 특정 데이터를 사용하여 네트워크 트래픽 패턴이나, 성능 문제, 네트워크 내의 비정상적인 활동 등을 실시간으로 감시하고 기록할 수 있게 해줍니다.
◾ RMON에서 Probe라는 수행 장비를 사용하며, 네트워크 트래픽 및 통계 수집 그리고 성능 모니터링을 위해 활용합니다.
결과적으로 RMON의 기능을 통해 네트워크의 문제를 더 빨리 발견하고, 효율적으로 대응할 수 있죠.
마지막으로 SNMP, RMON, ICMP, Syslog의 주요 내용들을 아래 표를 통해 한눈에 살펴보겠습니다.
。。。。。。。。。。。。
지금까지 네트워크 정보 수집을 위한 다양한 프로토콜의 종류와 특징에 대해서 알아보았습니다. 효과적인 네트워크 관리를 위해서 혁신적인 기술들이 많이 개발되고 있는데요, 이를 활용해서 성공적으로 네트워크를 운영하시기를 바라겠습니다!
#네트워크 프로토콜
#SNMP
#RMON
#ICMP
#Syslog
임형섭
프리세일즈팀
안정적이고 효과적인 비즈니스 운영을 위한 고객 맞춤형 IT 인프라 모니터링 시스템을 제안합니다.
필진 글 더보기
목록으로
추천 콘텐츠
이전 슬라이드 보기
[ZNG 개발기] #1. ZNG와 Vue.js
[ZNG 개발기] #1. ZNG와 Vue.js
안녕하세요. 브레인즈컴퍼니 개발 3그룹에서 ZNG의 프론트엔드를 개발하고 있는 1년차 신입 개발자 김현수입니다. ZNG란 Zenius New Generation의 약자로, 브레인즈컴퍼니의 핵심 서비스인 제니우스의 차세대 버전을 말합니다. ZNG는 데이터베이스를 제외한 프론트엔드와 백엔드는 완전히 제로베이스에서 시작하는 장기 프로젝트이기에, 프로젝트를 진행하는 과정에서 새롭게 배운 것, 개발자로서 성장, 팀 개발 경험 등을 기록하고자 ZNG 개발기를 작성하게 됐습니다. ZNG 개발기는 달마다 개발과정에서 있었던 이슈들, 경험, 공부한 내용 등을 기술적인 내용과 함께 작성할 예정입니다. 다 함께! <사진 설명: 펭수, "렛츠고!"> 1. ZNG가 무엇인가요? ZNG는 기존 제니우스에서 발생하는 불편함을 해소하고자 탄생한 프로젝트입니다. 기존 제니우스에는 어떤 불편함이 있었고, 이를 해소하고자 ZNG는 어떤 컨셉을 목표로 개발할 것인가에 대해 알아보겠습니다. 같은 부서 선배 동료들을 쫄래쫄래 따라다니며 물어보고 배워가며 정리한 내용을 바탕으로 작성하는 글입니다. 혹시라도 틀린 부분이 있다면 알려주시면 감사하겠습니다! <사진 설명: 자환님은 아니라고 하셨다...> 제니우스는 B2B 솔루션 서비스 상품으로 사용자의 요구사항에 맞게 유연한 변경이 가능해야 합니다. 새로운 컴포넌트를 추가 한다거나, 여러 기능을 합치는 등 다양한 요구사항에 대응해야 합니다. 당연히도 현재 제니우스는 사용자의 요구사항에 맞춰 조금씩 커스텀해 서비스되고 있습니다. 그러나 효율적이지 못한 상황이 생기기도 합니다. 대체로 같은 내용의 코드를 반복해서 작성하는 상황이 그러합니다. 같은 형태를 가진 컴포넌트여도 출력하고자 하는 데이터의 종류가 다르다면 컴포넌트를 통째로 다시 만들어야 했습니다. 반복적인 작업은 개발자에게 피로감을 주게 되고 단순히 피로감을 넘어, 개발자에게 목표 의식을 저하시킬 우려가 있습니다. <사진 설명: 다양한 종류의 컴포넌트가 있다. 사용자마다 원하는 컴포넌트, 데이터가 다를 수 있다.> 이런 불편함을 해소하는 방법으로, ZNG는 코드의 재사용성을 높이기 위해 노력합니다. 각 기능끼리의 의존도는 낮추고, 독립성을 높여서 반복적인 작업을 최소화합니다. 같은 형태를 가진 컴포넌트에 대해서 데이터만 다르다면 데이터만 바꿔주면 됩니다. 사용자마다 다른 종류의 데이터를 출력하기를 원할 경우 더 빠르고 효율적인 대처가 가능합니다. 이러한 컨셉과 Vue.js의 Component를 관리하는 방법이 일치해 ZNG는 Vue.js로 개발하게 됐습니다. 2. ZNG와 Vue.js Vue.js에는 여러가지 특징이 있습니다. 그 중에서도 Vue Component에 대해서 자세히 알아보겠습니다. Vue Component Vue Component란 화면을 구성하는 하나의 블록입니다. Component는 하나의 전체 화면일수도 있고 전체 화면 중 일부분을 차지하는 또 하나의 작은 화면일수도 있습니다. 따라서 화면을 구현할 때 화면 전체를 한 번에 구현하지 않고, 부분적으로 구현해 관리하는 것이 가능합니다. Component를 활용하면 화면을 구조화해 직관적으로 개발할 수 있으며 코드의 재사용성이 올라갑니다. <사진 설명: 화면의 영역을 블록으로 쪼개 재활용 가능항 형태로 관리하는 것이 Vue Component> ZNG 기능 중 모니터링은 추출한 데이터를 그래프, 표 등을 통해 다양한 형태의 컴포넌트로 보여줍니다. 각각의 컴포넌트는 서로 다른 모양을 통해, 서로 다른 데이터를 보여줍니다. 반대로 말하면 하나의 컴포넌트에 대해서 모양, 데이터만 다르게 준다면 여러 종류의 컴포넌트를 만들 수 있습니다. 다음은 ZNG 코드 일부입니다. PCContainer는 컴포넌트를 감싸는 블록입니다. component 태그 안에 있는 ‘is’옵션에 ‘컴포넌트의 이름’을 넣어 그리고자 하는 컴포넌트를 선택할 수 있습니다. PCLineChart는 그래프를 그리는 컴포넌트입니다. highchartsOptions에 어떤 데이터를 넣느냐에 따라 원하는 그래프를 그릴 수 있습니다. <사진 설명: PCContainer> 하나의 PCContainer로 여러 모양의 컴포넌트를 그리고, 하나의 컴포넌트(PCLineChart)로 다양한 데이터를 표현할 수 있습니다. 컴포넌트를 만들기 위해 새로운 코드를 작성하지 않고, Vue Component를 통해 코드를 재사용함으로써 효율적이고 직관적인 코드를 개발할 수 있습니다. 부모와 자식 컴포넌트 관계 각 Vue Component는 데이터를 주고받을 때 부모-자식 관계를 갖는 것이 일반적입니다. <사진 설명: 부모-자식 컴포넌트> 부모는 자식에게 데이터를 전달할 수 있어야 하며, 자식은 부모에게 일어난 일을 알려야 합니다. 부모는 props를 통해 자식에게 데이터를 전달하며, 자식은 emit로 이벤트를 호출해 부모에게 데이터를 알립니다. 부모 컴포넌트와 자식 컴포넌트는 분명히 구분된 컴포넌트지만 props와 emit을 통해 의사소통이 가능합니다. ZNG는 최상단 레이아웃에서 서버로부터 데이터를 받아와 props를 통해 각 컴포넌트로 데이터를 보내줍니다. 하위 컴포넌트에서 발생한 이벤트를 통해 다시 상위 컴포넌트로 데이터를 전달해 데이터를 관리합니다. 다음은 ZNG 코드 중 일부입니다. 자식 컴포넌트는 props를 통해 부모 컴포넌트로부터 데이터를 받고, emit을 통해 부모 컴포넌트로 이벤트를 통해 알립니다. props와 emit을 통해 컴포넌트 간 의사소통을 수행하지만, 각 컴포넌트마다 코드를 분리하기 때문에 관리가 편하고 쉽게 재사용할 수 있습니다. 3. 마치며 ZNG의 개발 방향성과 이와 관련해 Vue.js의 Component 특징을 정리해봤습니다. Vue Component는 이전부터 알고 있던 개념이지만 직접 개발한 코드와 비교해보니 머릿속에 명확하게 정리되는 느낌이었습니다. 특히 코드를 다시 보면서 개념을 리마인드하는 과정이 좋았습니다. ZNG 개발기는 이제 시작입니다! 앞으로도 계속될 ZNG 개발기에 많은 관심 부탁드리며 ZNG 프로젝트를 성공적으로 수행할 때까지 응원해주세요! <사진 설명: 개발의 신이시여... 지켜봐 주세요!> [출처] https://kr.vuejs.org/ https://ko.wikipedia.org/wiki/Vue.js https://www.instagram.com/waterglasstoon/
2022.08.03
머신러닝 기반 메트릭 데이터 이상탐지
머신러닝 기반 메트릭 데이터 이상탐지
개요 이상탐지(Anomaly Detection)는 시계열 데이터에서 과거 또는 비슷한 시점의 다른 데이터의 보편적인 패턴에서 벗어나거나, 벗어나려는 징후가 있는 드문 패턴이나 사실, 대상 개체를 찾아내는 데이터 분석의 한 분야입니다. 시계열이 아닌 것 중에 이상한 것을 찾는 것은 대부분 아웃라이어 탐지에서 다루고 있으나, 아웃라이어 탐지와 이상탐지를 구분하지 않고 넓은 의미에서 이상탐지로 취급합니다. 기존에는 이상탐지를 위해 통계학 기술을 많이 사용해 왔으나, 최근에는 머신러닝 기술을 이상탐지에 적용하는 사례가 늘어가고 있습니다. 당사의 ITIM 제품인 Zenius EMS는 과거 성능 패턴에 대해서 통계 기반의 상∙하한 동적임계치를 구한 뒤, 임계치를 벗어날 가능성이 있는 성능치에 대한 장애 발생가능성을 선제적으로 통보해주는 Proactive(사전장애예측-이상탐지) 기능이 이미 구현돼 있습니다. 필자는 최근에 주목받고 있는 AI 기술을 접목해 단일 성능치가 아닌 메트릭 데이터 셋에 대한 이상탐지 기능을 구현하기 위한 연구를 진행했고 그 결과에 대해 기술하고자 합니다. 이상탐지와 머신러닝 머신러닝으로 이상탐지를 구현하는 학습법은 ▲지도학습 ▲비지도학습 ▲반지도학습으로 구분할 수 있습니다. 지도학습 기반으로 머신러닝을 구현하기 위해서는 기존에 수집된 데이터 중 정상적인 데이터 셋과 이상한 것으로 판별된 데이터 셋을 적절히 섞어서 학습데이터 셋을 만들어야 합니다. 그러나 실제 수집되는 데이터에서 이상 사례로 판별된 학습 데이터를 확보화는 것은 상당히 어렵습니다. 소량의 정답데이터를 이용해서 비슷한 것을 찾아 내거나 학습데이터를 확장시키는 반지도학습을 고려할 수도 있지만, 이 경우도 고객사에 제품을 납품한 이후 일정 시간동안 이상사례에 대한 학습 데이터를 수집해야 하고, 좋은 모델을 만드는데 시간이 너무 오래 소요됩니다. 따라서, 고객사에 제품 납품 후 머신러닝을 빠르게 적용할 수 있도록 비지도학습을 통해 이상탐지를 구현할 수 있는 방법을 중점적으로 고려하게 됐습니다. 비지도학습 이상탐지 ITIM 제품인 Zenius EMS가 수집하는 메트릭 데이터는 대부분 정상 데이터이므로 수집된 데이터 중 일부 비정상 데이터(감시설정에 의해 이벤트가 발생된 데이터)를 자동으로 제거해서 비지도학습을 수행했습니다. 학습에 사용되는 데이터는 모두 정상 데이터이므로 PCA(Principal Component Analysis)를 이용해 차원을 축소하고 복원하는 과정을 통해 비정상 데이터를 검출할 수도 있으나 이번 연구에서는 Neural Network의 Autoencoder 기반의 머신러닝 기법을 사용했습니다. Autoencoder는 입력을 Latent Variable로 압축하는 Encoding과, 이를 다시 원본에 가깝게 복원해내는 Decoding 과정으로 진행되며 이를 통해 데이터의 중요한 정보들만 압축적으로 학습할 수 있습니다. <그림 설명: Autoencoder 개요> 위 그림은 Autoencoder의 기본적인 원리를 나타내고 있습니다. 정상 데이터셋을 통해 학습된 Autoencoder에 정상 샘플을 입력하게 되면 Decoder를 통해 나온 출력이 정상 샘플과 유사하게 잘 복원되지만 비정상적인 샘플을 입력하게 되면, 입력과 출력 값의 차이가 도드라지게 발생하게 되므로 비정상 샘플을 검출할 수 있습니다. 다만, Autoencoder의 Code Size(Latent Variable의 Dimension) 같은 Hyper-Parameter에 따라 전반적인 복원 성능이 좌우되기 때문에 판정 정확도가 지도학습에 비해 다소 불안정하다는 단점이 존재합니다. 또, Autoencoder의 입력과 출력의 차이를 어떻게 정의할 것인지, 어떤 Loss Function을 사용해서 Autoencoder를 학습시킬지 등 여러가지 요인에 따라 성능이 크게 달라질 수 있습니다. 이를 보완하기 위해 ICLE 2018 Conference에서 발표된 Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection을 이용했습니다. (https://iclr.cc/Conferences/2018/Schedule?showEvent=126) DAGMM DAGMM은 축소된 차원과 복원 오차에 대한 특성을 유지하여 입력 값의 중요 정보를 저차원상에서도 보존합니다. DAGMM에서는 차원 축소를 위한 Compression Network에 Autoencoder를 사용해 저차원상의 자료와 축소된 저차원상에서 original data 공간으로의 복원 에러에 대한 특성 정보를 계산할 수 있습니다. DAGMM은 학습된 저차원 공간에서 GMM(Gaussian Mixture Model)을 활용해 복잡한 구조를 가진 입력 자료에 대한 밀도 함수 추정을 수행합니다. 차원 축소와 밀도 함수 추정을 동시에 최적화하기 위해, DAGMM은 저차원 입력을 계산한 뒤, 혼합 밀도 함수를 추정하는 Estimation Network를 사용하고, 입력 자료를 저차원으로 축소시킨 뒤 에너지/가능도 평가 가능하게 해 GMM의 모수를 직접 추정합니다. <그림 설명: DAGMM 개요> DAGMM은 위 그림과 같이 두개의 주요 요소인 Compression Network와 Estimation Network로 구성돼 있습니다. Compression Network는 Deep Autoencoder를 사용해 입력 자료의 차원을 축소하고, Estimation Network는 차원이 축소된 자료를 입력 값으로 해, GMM의 가능도/에너지를 예측합니다. DAGMM에 대한 자세한 내용을 원하시는 경우, ICLR 2018 Conference 홈페이지의 논문 및 자료를 참조해 주십시오. DAGMM 기반 이상탐지 ITIM 제품인 Zenius EMS의 이상탐지를 위해 입력 데이터 셋은 메트릭 데이터로 구성합니다. 연관관계가 있다고 판단되는 메트릭 데이터 중 CPU Usage, Memory Usage, Disk Busy Rate, Network In bps 값을 4차원 데이터셋으로 구성한 후, DAGMM의 Compression Network를 통해 차원 축소를 진행하고 Estimation Network를 통해 가능도 및 에너지 예측을 진행했습니다. 입력 데이터셋은 실제 장비의 메트릭 데이터 중 최근 1000개의 데이터를 사용해 구성했으며, 모델의 정확성을 확인하기 위해 2개의 이상치 데이터를 혼합했습니다. 입력 데이터셋으로 사용된 4차원 데이터를 도식화하기 위해 3차원 Scatter 차트를 사용해서 데이터를 출력하면 아래와 같습니다. <그림 설명: 입력 데이터셋(1)> 위의 그림으로 CPU Usage, Memory Usage, Disk Busy Rate의 관계를 확인할 수 있으며, 이상치 데이터는 붉은 점으로 표시됐습니다. <그림 설명: 입력 데이터셋(2)> 위의 그림으로 CPU Usage, Memory Usage, Network Input bps의 관계를 확인할 수 있으며, 이상치 데이터는 역시 붉은 점으로 표시됐습니다. 입력 데이터셋에 대해 DAGMM epoch 횟수를 1000번으로 학습하여 모델을 생성할 경우 아래와 같은 Energy 밀도와 값을 얻을 수 있습니다. <그림 설명: DAGMM Energy 밀도(1)> <그림 설명: DAGMM Energy 밀도(2)> 생성될 모델에 대해 Energy 값의 99%를 초과할 경우를 이상치 데이터 셋으로 정의할 경우 아래와 같이 입력 데이터셋에서 이상치 데이터로 입력한 값들에 대해 정확하게 이상 징후를 탐지합니다. 이상과 같이 ITIM 제품인 Zenius EMS의 메트릭 데이터에 대한 이상 징후 탐지를 수행하는 방법에 대한 개괄적인 내용을 설명했으며, 이 모델은 당사의 Zenius EMS 시스템의 실시간 이상징후 탐지에 적용할 예정입니다.
2022.08.04
IT 인프라 모니터링 트렌드
IT 인프라 모니터링 트렌드
EMS란? EMS는 Enterprise Management System의 약자로, 여러 기업과 기관의 IT서비스를 이루는 다양한 IT Infrastructure를 통합적으로 모니터링하는 시스템을 의미합니다. 해외에서는 일반적으로 ITIM(IT Infra Management)이라는 용어로 많이 사용되고 있지만, 국내에서는 EMS라는 용어로 통용되고 있습니다. EMS는 IT인프라의 데이터를 실시간으로 수집 및 분석할 뿐만 아니라, 수집된 데이터를 활용해 비즈니스의 가치를 창출할 수 있습니다. 글로벌 IT분야 연구자문 기업인 “가트너(Gartner)”에서는 ITIM, 즉 EMS를 데이터센터, Edge, IaaS(Infrastructure as a Service), PaaS(Platform as a Service) 등에 존재하는 IT인프라 구성요소의 상태와 리소스 사용률을 수집하는 도구로 정의하며, 컨테이너, 가상화시스템, 서버, 스토리지, 데이터베이스, 라우터, 네트워크 스위치 등에 대한 실시간 모니터링이 가능해야 한다고 서술합니다. <사진 설명: 가트너의 ITIM 정의를 도식화한 그림> 이러한 EMS는 초기에는 기업 전산실에 물리적인 형태로 존재하는 서버, 네트워크의 리소스관리를 중심으로 모니터링해 왔습니다. 서버의 CPU, Memory 등의 리소스 정보를 수집하거나, 네트워크 장비의 트래픽 정보를 모니터링하고 임계치를 기반으로 이벤트 감지하는 역할이 대부분이었으며, 이 정도 수준에서도 충분한 IT 인프라 관리가 이뤄질 수 있었습니다. 그러나 가상화(Virtualization)라는 개념이 생겨나고 다양한 IT 인프라들이 기업 전산실에서 클라우드(Cloud) 환경으로 전환됨에 따라, EMS의 모니터링 분야도 조금씩 바뀌어 가고 있습니다. 많은 기업들이 효율적인 리소스 사용과 비용 절감을 목표로 VMware와 같은 가상화 시스템을 도입해 운영하게 됐으며, 모니터링 부문도 이에 대응하기 위해 가상화 리소스에 대한 관리 영역으로 확장됐습니다. 가상화 환경을 이루는 하이퍼바이저(Hypervisor)와 가상머신(Virtual Machine)의 연관성을 추적하고, 각 가상머신들이 사용하고 있는 리소스를 실시간으로 분석해 효율적인 자원 배분, 즉 프로비저닝(Provisioning)을 위한 근거 데이터를 제공할 수 있도록 하고 있습니다. 더 나아가 VMware, Hyper-V 등의 다양한 가상화 플랫폼에서 가상머신을 생성하고 삭제하고, 실제로 가상머신에 CPU, Memory 등과 같은 리소스를 할당해 줄 수 있는 컨트롤 영역까지 제공하는 제품을 개발하는 벤더사들이 많아지고 있습니다. 이러한 가상화 기술을 기반으로 현대에는 IT 인프라들이 대부분 클라우드 환경으로 전환하고 있는 추세입니다. 클라우드 환경으로의 전환 클라우드(Cloud)란, 언제 어디서나 필요한 컴퓨팅 자원을 필요한 시간만큼 인터넷을 통해 활용할 수 있는 컴퓨팅 방식으로, 최근 기업들은 각자의 목적과 상황에 맞게 AWS, MS Azure와 같은 Public Cloud 및 OpenStack, Nutanix 등을 활용한 Private Cloud 등의 환경으로 기업의 전산설비들을 마이그레이션 하고 있습니다. 클라우드로의 전환과 기술의 발전에 따라, EMS의 IT 인프라 모니터링은 더 이상 *On-Premise 환경에서의 접근이 아닌, Cloud 환경, 특히 MSA(Micro Service Architecture)를 기반으로 하는 클라우드 네이티브(Cloud Native) 관점에서의 IT 운영 관리라는 새로운 접근이 필요하게 됐습니다. (*On-Premise : 기업이 서버를 클라우드 환경이 아닌 자체 설비로 보유하고 운영하는 형태) 클라우드 네이티브란, 클라우드 기반 구성요소를 클라우드 환경에 최적화된 방식으로 조립하기 위한 아키텍처로서, 마이크로서비스 기반의 개발환경, 그리고 컨테이너 중심의 애플리케이션 구동환경 위주의 클라우드를 의미합니다. 클라우드 네이티브는 IT비즈니스의 신속성을 위해 도커(Docker)와 같은 컨테이너를 기반으로 애플리케이션이 운영되므로, EMS는 컨테이너의 성능, 로그, 프로세스 및 파일시스템 등 세부적인 관찰과 이상징후를 판단할 수 있는 기능들이 요구되고 있습니다. 자사 제품인 Zenius SMS에서는 이러한 변화에 따라 Docker에 대한 모니터링 기능을 기본적으로 제공하고 있습니다. Docker 컨테이너가 생성되면 자동으로 관리대상으로 등록되며, Up/Down 뿐만 아니라, CPU, Memory, Network 및 Process의 정보를 실시간으로 모니터링하고 발생되는 로그들을 통합관리 할 수 있도록 합니다. <사진 설명: Zenius-SMS에서 제공하고 있는 Docker 컨테이너 모니터링 기능> 또, 복원력과 탄력성을 위해 쿠버네티스와 같은 오케스트레이션 도구를 활용해 컨테이너를 스핀업하고, 예상되는 성능에 맞게 효율적으로 리소스를 맵핑하고 있으며, 이러한 기술에 대응하기 위해 EMS는 쿠버네티스(Kubernetes), 도커스웜(Docker Swarm) 등의 오케스트레이터들의 동작여부를 직관적으로 관찰하는 제품들이 지속적으로 출시되고 있는 상황입니다. 이와 더불어 컨테이너, 오케스트레이터의 동적 연결관계를 실시간으로 모니터링하고, 파드(POD), 클러스터, 호스트 및 애플리케이션의 관계를 표현하는 역할의 중요성이 점차 커져가고 있습니다. 통합 모니터링(Monitoring) EMS 모니터링의 또 다른 변화로는 통합(Integration)의 역할이 더더욱 강해지고 있다는 것입니다. IT 서비스가 복잡해지고 다양해짐에 따라 IT 인프라의 관리 범위도 점차 증가하면서, 다양한 IT 인프라들을 융합하고 관리하기 위한 노력들이 관찰되고 있습니다. 데이터독(Datadog), 스플렁크(SPLUNK)와 같은 장비 관점의 모니터링 벤더들은 APM과 같은 애플리케이션 모니터링 시장으로, 앱다이나믹스(AppDynamics), 다이나트레이스(Dynatrace), 뉴렐릭(NewRelic)과 같은 애플리케이션 모니터링 시장의 강자들은 인프라 장비 관점의 모니터링 시장으로의 융합이 확인되고 있습니다. 자사 제품인 Zenius 역시 서버, 네트워크 중심의 관리에서 애플리케이션, 데이터베이스 등의 시장으로 관리 범위를 확장해 나가고 있는 추세입니다. IT 서비스의 영속성을 유지하기 위해서는 IT 서비스를 구성하는 다양한 요소들을 실시간으로 모니터링하고 연관관계를 추적해 문제 원인을 찾아내는 것이 중요하기 때문에 다양한 IT 요소들을 통합적으로 모니터링하는 것 뿐만 아니라, 상호 연관관계를 표현하고 추적할 수 있는 기능들이 지속적으로 요구되고 있습니다. 모니터링의 트렌드는 서버, 네트워크 등의 독립적인 개체에 대한 모니터링 아닌 IT 서비스를 중심으로 기반 요소들을 모두 통합적으로 모니터링하고, 각 상호간의 의존성과 영향도를 파악해 RCA(Root Cause Analysis) 분석을 가능하게 하고 이를 통해 IT 서비스의 연속성을 보장할 수 있는 통찰력을 확보하게끔 하는 방향으로 흘러가고 있습니다. Zenius는 서버, 네트워크, 애플리케이션, 데이터베이스 및 각종 로그들의 정보를 시각적으로 통합 모니터링할 수 있는 오버뷰(Overview) 도구와 IT 서비스 레벨에서 인프라들의 연관관계를 정의하고 다양한 조건(Rule)에 따라 서비스 이상유무와 원인분석이 가능한 서비스 맵(Service Map) 도구를 기본적으로 제공하고 있습니다. <사진 설명: Zenius 오버뷰 화면> <사진 설명: Zenius 서비스맵 화면> 앞서 언급했듯이, 클라우드 환경으로 전환함에 따라 통합적 관리 요구는 더욱 높아지고 있습니다. IT 인프라에 대한 통합 뿐만 아니라, AD(Active Directory), SAP 및 AWS, Azure, GCP 등의 다양한 서비스의 주요 지표까지 연계하고 하나의 시스템으로 통합 모니터링하기 위한 노력들이 관찰되고 있습니다. 데이터독(Datadog)의 경우, 500개 이상의 시스템, 애플리케이션 및 서비스들의 지표들을 손쉽게 통합 관리할 수 있다고 돼있습니다. <사진 설명: 데이터독 홈페이지 캡처> 이처럼 IT 서비스의 복잡성과 다양화에 따라 관리해야 될 서비스와 지표들은 점점 늘어나고 있으며, 기업의 현황에 맞게 컴포넌트 기반으로 손쉽게 지표들을 통합할 수 있는 기능과 도구들이 요구되고 있습니다. AI 기반의 예측&자동화 모니터링의 세번째 변화로는 ’AI 기반의 예측과 자동화’입니다. IT 인프라 및 서비스의 주요 지표를 모니터링하는 것도 중요하지만, 축적된 데이터를 기반으로 미래의 상황을 예측 및 이상탐지해 사전에 대비할 수 있는 체계를 갖추는 일은 모니터링 시장에서 중요한 이슈로 자리잡고 있습니다. 현재의 AIOps(AI for IT Operations)를 표방하는 모니터링 기술들은 서버, 네트워크, 애플리케이션, 데이터베이스 등의 주요 지표들을 실시간으로 수집하고, 저장된 데이터를 기반으로 AI 알고리즘 또는 통계기법을 통해 미래데이터를 예측하며 장애 발생가능성을 제공하고 있습니다. 이와 같은 기술을 통해 미래 성능 값을 예측해 IT 인프라의 증설 필요성 등을 판단하고, 장애 예측으로 크리티컬한 문제가 발생되기 전에 미리 조치를 취할 수 있도록 해 효율적인 의사결정을 할 수 있도록 합니다. Zenius도 4차 산업혁명 및 디지털 뉴딜시대가 도래함에 따라 미래예측 기능을 최신 버전에 탑재했으며, 이를 통해 IT운영자가 미래 상황에 유연하고 선제적으로 대응할 수 있도록 합니다. Zenius에서는 서버, 네트워크, 애플리케이션 등 다양한 IT 인프라의 미래 성능 값, 패턴 범위, 이상 범위 등을 예측해 IT 운영자에게 제시합니다. <사진 설명: 인공지능(AI) 기반 미래데이터 예측 화면> 다만, 인공지능 기술을 통해 장애 발생 가능성을 탐지하는 기능 외에, 어디에 문제가 발생됐는지 알려주는 기능은 모니터링 시장에 과제로 남아있고, 이를 제공하기 위한 여러 업체들의 노력이 보이고 있습니다. 이제는 EMS에서 보편적인 것이 됐지만, 모바일 기기를 통해 시∙공간적 제약 없는 모니터링이 이뤄지고 있습니다. 다양한 기종의 스마트폰, 태블릿PC 등을 이용해 운영콘솔(Console) 뿐만 아니라, 회의 등 시간을 잠시 비우더라도 IT 인프라에 대한 연속적인 모니터링이 모바일기기를 통해 가능해졌습니다. <사진 설명: 다양한 기기를 통한 모니터링>
2022.09.05
일잘러가 바라보는 브레인즈컴퍼니
일잘러가 바라보는 브레인즈컴퍼니
다음 인터뷰를 고민하던 차에 브레인즈컴퍼니에서는 누가 일을 잘할까?라는 궁금증이 생겼습니다. 여러 브레인저들에게 물어본 결과, 개발3그룹의 진광님을 많이 추천해줬는데요. 개발3그룹은 AI 기술을 적용한 차세대 제니우스와 애플리케이션 성능관리 솔루션인 제니우스 APM을 개발하고 있는 핵심 부서인데요. 이 부서는 올해 신입 개발자를 7명이나 채용해 제품 개발에 힘을 쏟고 있습니다. 브레인즈의 일잘러, 진광님이 말하는 브레인즈의 제품, 동료, 일하는 방식에 대해 들어보겠습니다. ----------------------------------------------------------------- Q1. 안녕하세요, 진광님. 자기 소개 부탁드립니다. 안녕하세요, 개발3그룹에서 근무 중인 김진광입니다. 저는 SI 개발자로 시작해 외산 미들웨어(WAS) 솔루션 회사에서 엔지니어로 제품 관련 서비스 및 컨설팅 업무를 담당했었어요. 이때 미들웨어와 서비스에 대한 모니터링 필요성을 생각하게 됐고, 기회가 돼 직전 회사에 합류 후 APM 제품들을 개발했습니다. 브레인즈컴퍼니는 당시 제가 근무 중이던 회사에서 APM제품을 OEM 하면서 연이 닿았어요. 다니던 회사의 방향성이 바뀌면서 이직을 결심했고, 브레인즈컴퍼니의 영업 및 TC팀 분들 추천으로 2017년에 입사하게 됐습니다. 당시 브레인즈컴퍼니는 자사 솔루션을 갖고 있었고, 제품 내재화 단계일 때라 매력을 느꼈습니다. Q2. 맡고 있는 업무에 대해 구체적으로 설명해주세요. 브레인즈컴퍼니의 Zenius APM 전반을 맡고 있습니다. APM은 특수성이 있는 제품이에요. 서비스 문제점을 찾는 솔루션이다 보니, 설치 및 기술 지원 뿐만 아니라 이슈 분석 등 전반적인 사이트 지원이 필요합니다. 그래서 처음에는 제품개발 외 설치, 데모, 성능 컨설팅 등 APM에 관련된 전반적인 부분을 지원했습니다. 이제는 TC팀에서 설치나 사이트 구축, 교육 및 고객 응대 등 전반적인 부분을 잘 지원해 주시고 있어 감사하게 생각하고 있습니다. Q3. 그렇다면, APM의 특장점은 무엇인가요? Zenius APM은 고객의 서비스에서 발생된 이벤트를 처리하고 분석하는 방식이 점점 좋아지고 있습니다. APM은 어플리케이션 서비스가 잘 되고 있는지, 사용자들이 어느 정도 쓰고 있고 응답 속도가 어느 정도 되는지를 항상 모니터링 하는게 기본적인 기능이고요. 문제 발생 시, 그 문제를 인지하고 조치하는 것이 2단계, 다음으로 장애 복구가 완료된 다음에 어떤 것이 문제의 원인이었는지를 찾아내는 것을 3단계로 볼 수 있어요. 문제의 원인은 고객이 쉽게 파악할 수 있도록 데이터들을 차트와 같이 시각화해서 제공하고 있고요. 브레인즈 대표 제품인 Zenius EMS는 전반적인 인프라(H/W)를 모니터링하는 것이고 APM은 그 위에서 서비스되는 어플리케이션(S/W)을 모니터링하는 것으로 보면 돼요. 서비스와 인프라를 같이 모니터링 해야 어떤 문제가 발생했을 때 어플리케이션 자체 문제인 건지, 기반한 서버나 네트워크와 같은 인프라 요소들이 영향을 미치는 것인지를 판단할 수 있어요. 그래서 APM과 기존의 자사 제품들이 더욱 잘 통합될 수 있도록 지속적으로 제품을 발전시켜 나가고 있습니다. Q4. 브레인즈에서 근무한 지 6년차에 접어드셨네요. 그 동안 근속할 수 있었던 브레인즈의 매력은 무엇인가요? 브레인즈컴퍼니는 제가 생각하고 있는 솔루션 회사의 조건에 가장 가까운 회사라고 생각합니다. 자사 솔루션을 보유하고 있고, 해당 분야를 리딩하고 있는 회사에서 일하고 싶었어요. 그런 회사가 국내에서는 많지 않다고 생각합니다. 또, 브레인즈는 동료들이 좋아요. 가장 개발자적 마인드를 많이 갖고 있는 분들이라고 생각합니다. 관제 분야에서 오랜 시간 깊은 전문성을 갖추고 계신 분들이고, 개발자로서도 자부심을 갖고 계신다고 생각해요. 마지막으로, 가족 친화적인 회사라는 점이요. 다양한 행사와 해외 연수, 복지 혜택 등도 부족함이 없는 회사입니다. 전 직원 연봉이 1000만원 상승하면서 처우도 좋아졌고요. Q5. 가장 힘들었던/보람을 느꼈던 순간은? 처음 APM을 설치했을 때. 첫 납품처가 의약품안전관리위원회였는데요. 아무래도 처음이라 우리 제품이 고객사의 서비스에 문제가 되는 것이 아닐까 하는 걱정이 많았어요. 문제가 발생했을 때, TC팀과 함께 어렵게 원인을 찾아내고 집중해서 해결했던 순간이 가장 기억에 남고 보람 있었습니다. Q6. 일을 잘해서 좋은 인사고과를 받으신다고 들었어요. 본인만의 일 잘하는 꿀팁은? 재밌게 일하는 편인 것 같아요. 가급적 일하는 것 자체를 즐기고, 성능 관리와 이슈를 발견하고 처리하는 일들에 관심이 많고 적성에도 잘 맞는 것 같습니다. 완벽주의자 성향이 있기도 하고요. 일이 잘못됐다고 판단되면 다시 처음부터 해야 하다 보니, 최대한 정보를 수집한 후 가장 좋은 방법에 대해 여러 번 생각하고 실행하는 스타일입니다. APM이 원하는 기능으로 나오도록 개발하는 것뿐만 아니라, APM을 사용하는 사용자의 편의성이나 설치 및 지원 팀, 그리고 제품을 소개하고 어필할 때 어떤 모습으로 보여질지에 대한 것 등 여러 가지 측면에서 생각하고 고민 후 실행에 옮기려고 노력하고 있습니다. 전체 작업 시간 중 50% 이상은 다양한 관점에서 고민하는 시간을 갖고 작업을 진행하고 있는 것 같아요. 또, 앞에서 말씀 드렸던 프로젝트 개발 경험과 미들웨어에 엔지니어로서의 경험이나 제품 개발 경력 등의 다양한 경력이 타 부서와의 협업이나 제품 개발, 사이트 지원 등에서 일할 때 많은 도움이 되는 것 같아요. 조금은 다양한 시각을 갖게 해주는 부분이 여러 면에서 도움되더라고요. 그래서 TC팀, 영업팀 등 타 부서 분들이 긍정적으로 봐주시는 것 같아요. (웃음) Q7. 진광님이 생각하는 브레인즈에서 일을 잘하는 사람은? TC팀에 APM 지원파트가 있는데요. 제 입장에서 가장 고마운 분들이기도 하고 대부분 일을 잘 하신다고 생각하고 있어요. 부서장인 영수님, APM에 열정적이신 종관님, APM 지원 파트리더 기현님, 정대님뿐만 아니라 일잘러 기열님까지 모두 잘 하시는 분들이라 생각해요. Q8. 이제 부서 이야기를 해볼게요. 개발3그룹 소개해주세요. 저희 부서는 차세대 제니우스와 APM 제품을 맡고 있어요. 부서장님은 구성원들과 대화하고 코딩하는 것을 좋아하세요. 관리자이지만, 여전히 계속 현업에서 개발하고자 하시는 열정 넘치는 분이십니다. (웃음) 교육도 직접 하시면서 신입 분들 일일이 다 봐주시고 있어요. 비슷한 시기에 들어온 신입 개발자들은 동기애가 느껴지고, 밝은 성격들이라 화기애애한 분위기가 형성돼 있습니다. Q9. 부서만의 일하는 방식은 무엇인가요? 그룹장님이 추구하는 방식이 “각자 알아서 잘 하자”예요. 서로 상의해서 어떤 일을 할 지 분배하고요. 그 이후는 개인의 계획과 독립적 부분을 인정해주는 등 최대한 자율성을 부여하고 있어요. 결과는 서로 공유하면서 평가해주고 있습니다. 신입이더라도 스스로 일을 처리하고 결과물을 갖고 그룹장님과 이야기하며 피드백을 받고 보완해나가는 형식으로 일하고 있어요. Q10. 새로운 동료가 합류한다면, 어떤 스타일의 동료와 함께 일하고 싶은가요? 개발직을 천직이라고 생각하는 사람. 이쪽 일을 한 번 해볼까하는 단순 호기심이 아니라, 전공자를 떠나서 앞으로 쭉 개발 일을 하고 싶은 사람이면 좋겠어요. 또, 일을 많이 하거나 빨리하기 보다는 개발자에 대한 자부심을 바탕으로 어떤 일이 발생하면 최선의 방법을 생각하는 스타일이면 좋겠습니다. 시간이 좀 걸리더라도 충분히 고민하고 행동으로 옮기는 사람을 선호해요. Q11. 5년 후 본인의 모습과 앞으로의 목표는? APM도 유기적으로 발전하는 방향으로 개발해 나가겠지만, APM 말고 새로운 제품도 만들어 보고 싶어요. 데이터 시각화에도 관심이 많은데, 기회가 된다면 새로운 분야와 관련된 솔루션에 도전해보고 싶습니다. 향후에도 관리자보다는 개발자로서 계속 일을 해 나갈 수 있었으면 좋겠습니다.
2022.11.07
다음 슬라이드 보기