머신러닝이 본격적으로 많은 기업에서 활용되기 시작하면서 최근 몇 년 간 MLOps의 수요도 덩달아 높아지고 있다. 머신러닝쪽은 현재 업무와 큰 연관성이 없어 MLOps를 배워야 할 절실한 이유가 있는 것은 아니지만, 올 해 초 쿠버네티스 페이스북 그룹에 조훈님이 올려주신 “2022년 쿠버네티스 표준 아키텍처(아키텍처에 대한 설명은 여기)” 에 한 꼭지로 MLOps도구인 Kubeflow가 올라와 있어 관심을 갖고 있던 분야라 신청해보았다.

MLOps란?

MLOps란 머신러닝과 운영(Machine Learning Operations)의 합성어로, ModelOps와 혼용되는 개념이기도 하다(ModelOps는 머신러닝 뿐만 아니라 다른 종류의 모델도 포함하는 MLOps보다 포괄적 개념이다). MLOps의 핵심은 머신러닝 모델의 생애주기 관리를 표준화하고 간소화하는 것이다. 이 MLOps는 AIOPs와 혼동될 수 있으나 AIOps는 인공지능을 이용하여 운영상의 과제들을 해결하는 데에 초점을 맞추고 있다. 즉, AIOps는 머신러닝을 포함한 인공지능을 ‘수단’으로서 활용하며, MLOps는 ‘머신러닝의 운영 효율화' 자체가 그 목적으로, MLOps 도입 가이드 책에서는 다루지 않는다.

‘MLOps 도입 가이드’ 리뷰

MLOps 도입 가이드는 총 세 개 파트로 나뉘어있다. 가장 먼저 MLOps의 개념과 필요성을 다룬 다음, MLOps를 어떻게 적용하는지에 대해 다루게 된다. 그리고 마지막으로는 마케팅 추천 엔진이나 소비 예측 들 MLOps가 활용되는 실제 사례를 다루고있다.

MLOps 도입 가이드를 읽으며 느낀 점은 MLOps가 단어 뿐만 아니라 업무 내용도 DevOps와 꽤나 유사하다는 점이다. 책의 도입 부분에서 머신러닝의 생애 주기를 다루고 있는데, “비즈니스 목표 정의 → 데이터에 대한 접근, 이해, 정리 → 머신러닝 모델 생성 → 머신러닝 모델 배포 (반복)”이라고 적혀있는 다이어그램을 보고 데이터를 다루고 있다는 점은 상이하지만 머신러닝 모델을 애플리케이션으로 치환하면 목표 정의와 배포, 평가를 반복하는 것이 DevOps와 꽤나 유사하다고 느꼈는데, 바로 다음페이지에서 MLOps 개념의 많은 부분은 DevOps에서 차용한 것이라고 해서 바로 납득했다 ㅎㅎ 다만, 책에 의하면 머신러닝 모델은 일반적인 애플리케이션보다 동적이기 때문에 DevOps 엔지니어를 바로 MLOps에 투입할 수 없다고 설명하고 있다.

이러한 동적이고 복잡도가 높은 MLOps의 업무를 어떻게 적용하는지에 대한 부분은 파트2에서 주로 나오게 되는데, 아직 주니어 데브옵스 엔지니어로서 DevOps업무와 가장 큰 차이가 있는 부분을 고르자면 데이터 거버넌스 파트이다. GDPR이나 GxP 등 개인정보 보호를 포함해 데이터를 다룰 때 각국의 규칙을 파악해 적용해야 한다는 부분이 인상 깊었다.

마지막 파트에서는 MLOps의 실제 사례를 다루고 있는데, 각 사례별로 전체적인 흐름을 제시하고 있다. 이 책의 제목이 “MLOps 도입 가이드"인 만큼, 특정 MLOps 툴이나 스텝별 프로세스를 상세히 알려주는 튜토리얼을 원하는 사람보다는, MLOps 업무의 전체적인 흐름과 MLOps 업무에서 중요한 부분을 파악하고싶은 머신러닝(혹은 MLOps) 엔지니어 직무를 희망하는 사람이나, 사내에서 MLOps 도입 검토를 맡게 된 사람에게 권하고 싶은 책이다.

“한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

wizm***l2022-05-30

곱씹어볼 만한 MLOps 도입 가이드

MLOps는 DevOps와 함께 개념이 회자가 되기 시작한 시기부터 꾸준하게 구현하려고 애써왔다. 어느새 몇백만 원짜리 강의가 나오기도 해서 인공지능의 시대라는 반증 중 하나인가 같은 생각을 하기도 했다. 이 책은 독특하게도 '다타이쿠(데이터이쿠가 아니었다니.)'라는 AI 플랫폼 솔루션 업체가 지었다. 그럼에도 솔루션 언급은 단 한 줄도 없다. 대단하다. 어쨌든 플랫폼을 다루는 기업이 지은 만큼 MLOps의 처음부터 끝까지 모두 꼼꼼이 언급하는 기염을 토했다. 네카라쿠배라면 모를까, 이러기가 쉽지 않다.

Part 1 MLOps 개념과 필요성

이 책은 '선진국'에서 만들었구나 싶었다. AI 윤리에 대해 생각한 적이 있기는 하지만, 이렇게 본격적으로 리스크 관리에 대해 고심했던 적은 없었다. 단순히 MLOps가 이런 거니 만들어 보자며 시작하는 게 아니라 AI가 이런 영향을 끼치니 리스크를 평가하고 경감하며 책임주체를 따져 보자는 이야기로 시작하는 게 신기했다. 그리고 MLOps를 둘러싼 이해관계자를 나열하고 설명한 후에나 머신러닝의 기능 요소를 언급하기 시작한다. 이 책은 데이터이쿠 사의 여러 사람이 글을 나눠 썼는데, Part 1의 3장은 이 책 전체를 요약한 듯한 내용이다. 머신러닝 입문부터 거버넌스까지 주욱 언급했다.

Part 2 MLOps 적용 방법

드디어 상세한 이야기가 나온다. 터미널에서 명령어 입력하는 수준의 이야기는 아니다. 그건 MLOps를 구성하는 각종 솔루션 매뉴얼에서 찾아야 할 테고, 이 책은 무슨 일을 어떻게 하기 위해 어떤 기능을 구현해야 한다는 이야기를 한다. Kubeflow나 MLflow를 언급하는 일은 없다. 물론 Dataiku도 언급하지 않는다. 그래도 MLOps 씩이나 하겠다는 엔지니어라면 각 기능을 구현하기 위해 어떤 솔루션을 도입해야 할지 어렵지 않게 유추할 수 있다. 모델 개발, 상용 서비스 배포, 모니터링과 피드백 루프에 거버넌스까지의 개념은 독학으로 파악하기가 힘드므로 이 책의 미덕은 이들 생명주기를 낱낱이 언급하는 데에 있다. 이 책의 독자는 이 책을 출발점으로 삼아 계속 정진할 수 있다. 달리 말해서는 갈 길이 멀다.

Part 3 MLOps 실제 사례

특정 조직만의 사례는 아니지만 여러 사례를 조합하여 여러 가지 도움말을 엮어 주었다. 금융, 유통, 제조 분야 실제 현장에서는 대략 이러한 어려움이 있을 것이고 이런 방향으로 헤쳐 나가보라는 이야기해 준다. 이렇게 간접적으로만 접해도 커뮤니케이션 관련한 수고가 많았겠구나 싶다. 그래도 헤쳐 나가는 데에 재미와 보람이 있었기를 앞으로도 있기를 바란다.

ML 엔지니어와 관리자에게 도움이 많이 되는 책이다. 분석가라면 입문 단계에 있는 사람에게는 저게 다 뭔가 싶은 얘기가 많을 텐데 시니어나 데이터 과학자 지망자라면 직접 할 일은 없겠지만 이해하는 게 좋은 내용이 많다. 어디까지나 도입 가이드로서 출발할 수 있게 한다는 취지이기에 책은 얇은 편이라 두려워하지 않아도 된다.

dhan***l2022-05-30

MLOps를 도입하기전 필독서

이 책은 MLOps를 고민하는 대규모 프로젝트팀이나 데이터 분석팀에게 가장 유용할 것이다.

그럼에도 머신러닝을 공부하거나 도입 예정인 담당자에게도 꼭 추천을 드린다.

우리의 최종 목적은 안정적인 ML 기반 서비스 구축이 아니던가?

이 책은 크게 MLOps 개념과 필요성, MLOps 적용 방법, MLOps 실제 사례 순으로 크게 3개 파트로 구성되어 있다.

책의 제목처럼 단계별로 MLOps를 도입하기 위한 가이드를 충분히 제공하고 있다. (이 책 하나면 충분할 정도다)

기존 DevOps의 내용뿐만 아니라, 전통적인 프로젝트와는 달리 ML 프로젝트가 가지고 있는

다양성, 특징을 아주 잘 설명하고 있다.

안정적인 ML 프로젝트를 위해 필수적인 입력값 데이터 모니터링, 특징값의 저장 관리,

기존 DevOps와 다른 모델 버전 관리, 추가적인 테스트 요소 및 모니터링, 피드백, 성능 감지, 효과적인 배포 방안등등

예를 들면, 추천 엔진의 경우 입력값과 학습의 결과에 따라 추천값이 우리가 기대한 것과

반대 방향으로 나올 때 모델의 라이프사이클은 종료될 것이다.

이 부분은 미리 감지할 수 있어야 할 것이며, 이럴 경우 사용자에게 추천을 제외하거나

이전 모델로 추천하도록 선택권을 줘야 한다. 그래서 우리는 리스크를 줄여야 하니까...

특히 8장 거버넌스 부분이 상당히 인상적이다. AI 데이터에 대한 공정성, 법적 문제,

윤리적인 문제에 대해서 국제적인 동향을 설명하고 있다.

이 부분은 고려하지 않으면 최악에는 우리가 만든 제품이 세상에 나올 수도 없다면 얼마나 상심이 크겠는가?

이 책은 MLOps를 도입과는 상관없이 ML 프로젝트에서도 필수적으로 알아야 할 내용이 아주 많다.

그래서 서두에 공부 예정인 학생들이나 직장인들에게도 추천했던 것이다.

MLOps가 초기 단계인 만큼, 이 책에서는 구축에 대한 속 시원한 해답을 제공하고 있지는 않다.

하지만 안정적인 MLOps를 구축하기 위한 가이드는 충실히 설명하고 있다.

마지막으로 이 책을 가장 잘 설명하는 문구를 인용하면서 끝을 맺고자 한다.

현재 대규모 MLOps는 초기 단계다.

이를 실행하는 기업이 흔치 않고, 잘하고 있는 기업도 거의 없다.

거버넌스가 MLOps 효율성 개선의 핵심이지만, 이러한 과제를 직접적으로 해결해주는 도구는 거의 없고,

단지 단편적인 조언만 있을 뿐이다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

daehy***l2022-05-29

[리뷰] - Introducing MLOps, MLOps 도입 가이드

별점 4/5

(서두가 깁니다. 책에 대한 리뷰는 바로 3번 문단으로 가시면 됩니다.)

MLOps의 배경

최근 몇년간 인공지능에 대한 관심이 분야와 관계없이 폭발적으로 증가하며, 많은 사람들의 관심은 그 개념과 방법을 빠르게 익혀서 가지고있는 데이터에 적용하는 것이었다. 일반인들은 주로 본인이 가진 데이터가 없기 때문에 Kaggle 등과 같은 경진대회를 통해 이론으로 공부한 머신러닝 모델을 적용하기 위한 현상금 사냥꾼이 된다. 대학 및 연구소 등의 학계에서는 자체적으로 보유한 자료에 최신 딥러닝 기법을 적용하기 위한 경향이 최근 몇년간 주류가 되어왔다. 마지막으로 기업의 경우 현업에 투입할 수 있는 인공지능 프레임워크를 디자인하며, 이를 통해 어떻게 수익을 증대시키고 공정의 자동화를 할 수 있을지를 고민한다. 앞서 말한 세 가지 경우 중 일반인->학계->기업으로 갈수록 인공지능을 바라보는 시각이 다를 것이다. 일반인의 경우 주로 미션을 받기 때문에 전체적인 계획 수립 및 목적 설정에 대한 과정이 생략된다. 그래서 데이터 생성 및 정제에 대한 과정을 생략한 채 온전히 데이터 분석 및 모델 자체에만 집중하게 되며, Kaggle을 비롯한 많은 경진대회에서는 소위 ‘수단과 방법을 가리지 않고’ 성능을 높이는 것이 곧 목표이자 능력이다. 학계에서는 주로 연구 계획 수립 및 자료 수집 과정을 통해 독자적인 프로젝트를 수행하며, 논문 출판이 최종 목표이다. 연구 디자인 및 자료 수집을 직접 하게 되므로 경진대회에 비해 처음부터 끝까지 독자적인 단계가 이뤄진다. 하지만 여전히 전체 파이프라인의 효율성 및 피드백 등에 대해서는 거의 고려하지 않은 채, 현업용 프로젝트가 아니라면 대개는 논문이 출판되면 연구도 종료된다. 따라서 위 둘의 경우에는 머신러닝 모델 개발 자체에 초점이 맞춰져있는 반면, 기업의 경우는 완전히 접근이 다르다. 기업의 목적은 이윤 추구이며, 이를 위해서 모델 자체보다는 전체적인 파이프라인을 더욱 중요시하게 된다. 즉 일반인과 학계처럼 ‘모델링 자체를 위한 모델링’이 아닌, 효율적인 개발 및 유지 비용을 중시하게 된다. 자료 수집, 모델 학습, 결과 예측, 분석 및 개선으로 이루어진 머신러닝 프레임워크 전체에 대한 고민이 필요하며, 이를 나타내는 것이 바로 MLOps (operation)이다.

박사과정생이 MLOps에 관심을 가지게 된 이유

위에서 서술했듯이 MLOps는 주로 현업 서비스를 하는 기업 및 기관에서 관심을 가질 주제이다. 기관도 아니고 나처럼 대학원에서 공부하는 사람들은 전체 프레임워크에 대한 효율성 등을 고려할 필요성이 적으며, 현실적으로 그 시간에 논문 출판에 집중하는 것이 더욱 좋은 선택일 것이다. 하지만 내가 MLOps에 관심을 가지게 된 이유는, 학계에서 연구 차원에서 수행하는 프로젝트들이 매번 단발성으로 끝나는데에 아쉬움이 남기 때문이었다. 졸업 후에는 연구 차원이 아닌 실제 쓸모 있게 사용될 제품 및 서비스를 만들고 싶다는 생각이 강하게 들곤 했는데, 이를 위해서 MLOps에 대한 고민을 자연스레 하게 되었다. 대학원에서 연구를 할때마다 “내가 만약 독자적으로 활동할 수 있다면, 이 결과를 어떻게 배포하여 많은 사람들이 사용하게 할 수 있을까?”라는 생각이 들었다. 이 질문에는 사람마다 여러가지 세부 질문을 포함할 수 있으며, 나의 경우는 아래와 같은 질문을 던졌다.

1) 이 결과가 사람들에게 왜 필요한지, 기대 효과는 무엇인지 (제품 계획)

2) 개발된 모델은 적정 수준 이상의 성능을 가지는지 (머신러닝 모델 개발)

3) 사용자의 요청에 따라 원하는 정보만을 빠르게 처리하여 제공할 수 있는지 (데이터 쿼리)

4) 시간이 지남에 따라 자동 또는 수동으로 최신 자료를 반영할 수 있는지 (자료 수집)

5) 자동화된 서비스에 장애가 될만한 요소가 있는지 (장애 처리)

6) 자체적인 피드백을 통해 성능 개선을 할 수 있는지 (모델 개선)

7) 사용자의 피드백을 어떻게 효과적으로 수집할 것인지 (사용자 경험 개선)
8) 서비스를 지속함에 따라 전체적인 유지 비용, 컴퓨팅 파워, 처리 시간 등은 어떤 형태로 증가할 것인지 (효율화)

9) 추후 다른 모델을 개발한다면 이 모델과 연계하여 시너지를 낼 수 있는지 (확장성)

10) 마지막으로 이를 통해 어떻게 수익을 낼 수 있으며 그것은 선형적인지 비선형적인지 (수익성)

졸업 후에 학계에 남을 수도 있지만 다른 분야에서 일하는 것도 흥미로워 보이기 때문에 위와 같이 학계에서 필요한 범위를 벗어난 고민을 하는 것을 즐겨왔다. 그리고 최근 들어서 이에 대한 분야가 MLOps라는 것을 알게 되었고, 마침 한빛미디어를 통해 감사하게도 이 책을 접하게 되었다.

책에 대한 후기

이 책은 제목 그대로 MLOps에 대한 전체적인 소개를 다루고있다. 대학 과목으로 치면 MLOps 개론정도라 하는 것이 적당해보인다. 나는 머신러닝 모델 개발에는 어느정도 경험이 있지만, MLOps에 대한 사전 지식은 전혀 없었다. 책의 1부는 MLOps의 개념과 필요성, 2부는 적용 방법, 3부에서는 실제 사례를 간단히 소개한다. MLOps의 필요성, 이해관계자, 보안, 거버넌스, 책임, 배포, 모니터링 등 MLOps에 관련된 내용들을 포괄적으로 다룬다. 개인적으로 특별히 흥미롭게 읽었던 챕터들은 다음과 같다.

챕터 2) MLOps 이해관계자들 - 이는 MLOps를 위해 투입되는 여러 분야의 인력들이 각자의 관점에서 어떻게 전체적인 틀을 바라보는지를 서술한다. 조직원들 모두가 다른 사람들의 입장을 이해한다면 보다 완성도 있는 프레임워크를 구축하는데 큰 도움이 될 것이다.

챕터 5-6) 상용화 준비, 상용 배포: 여기서는 연구 단계에서 수행한 모델을 어떻게 상용화할지에 대한 고민을 다룬다. 연구 차원에서는 고려하지 않았던 보안, 오작동에 대한 리스크 고려, 배포 전략 등에 대한 고민을 독자 스스로가 하게 돕는다.

챕터 8) 모델 거버넌스

이미 여러 기업에서는 MLOps에 대한 지식이나 경험이 있는 사람들을 매우 공격적으로 채용하고 있다. 아직은 MLOps라는 개념이 점차 자리를 잡아가는 시기로 보이며, 따라서 이에 대한 지식을 습득하고 많은 고찰을 해본 사람은 단순히 모델 개발 경험만 한 사람에 비해 큰 우위를 가질 것으로 보인다. 따라서 구직자들에게는 현재 머신러닝의 트렌드를 따라가기 위한 필수 항목으로 보인다. 전체적인 설계를 하는 책임급 사람들은 말할 것도 없이 이에 대한 심도있는 개념 탑재 및 경험이 훨씬 중요하다고 생각한다. 따라서 머신러닝 관련 기업에서 일하고자 하는, 그리고 지금 일하고 있는 모든 이들에게 이 책을 추천한다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

ces951***l2022-05-29

담백한 책, MLOps 도입 가이드

1. 서론

인공지능 구인 관련 글을 볼 때, MLOps 포지션이 있는 것을 자주 보아왔다. MLOps는 2019년 부터 부각되어온 용어로, 기업의 성공적인 데이터 사이언스 프로젝트에서 필수 요소이며, 조직과 비즈니스 리더들이 장기적 가치를 창출하고 데이터 사이언스, 머신러닝 및 AI를 주도할 때 리스크를 제거하는데 도움이 되는 프로세스이다.

책에서 제시하는 머신러닝 모델 생애주기로는 첫 번째, 비즈니스 목표 정의. 두 번째, 데이터에 대한 접근, 이해, 정리. 세 번째 머신러닝 모델 생성. 네 번째 머신러닝 모델 배포 그리고 반복으로 구성되어있다.

어떻게 보면 쉬워 보이는 프로세스 관리에 왜 애를 먹을까? 어느 정도 규모가 있는 머신러닝 모델 생애주기를 관리하기 어렵게 만드는 세 가지 요소로 다음과 같다.

1. 많은 의존성

비즈니스 요구사항과 데이터는 꾸준히 변화하고 있으며, 모델의 결과를 비즈니스의 목적과 부합하여 일정이상의 성능과 목표를 꾸준히 달성하도록 해야함.

2. 동일한 언어를 사용하지 않는 이해관계자들

머신러닝 모델 생애주기에는 PM, 데이터 사이언티스트, IT 개발 및 운영 팀 등 전반적인 팀들이 관련되어 있지만, 대부분의 경우 상호 소통의 어려움과 기반 기술 공유가 이루어지지 않음.

3. 소프트웨어 개발을 모르는 데이터 과학자

책에서 제시하는 데이터 과학자는 모델 구축 혹은 평가에 특화된 전문적 지식과 경력을 가지고 있으며, 애플리케이션 개발에 능숙하지 않음. 과연 위와 같은 문제점을 해소하기 위해서는 책에서 어떤 방법들을 제시했을까? 간단하게 추려보면 다음과 같다.

1. MLOps의 이해관계자들

2. MLOps의 핵심기능

3. ML 모델 개발

4. 상용화 준비

5. 상용 배포

6. 모니터링과 피드백 루프

7. 실제 사례

본 서에서는 구현에 관한 내용은 크게 없으나, MLOps 관련 전체적인 흐름을 파악하기에 탁월한 책이라고 생각이 든다. MLOps의 전체적인 맥락 파악과 동시에, 그 맥락에서 관심있는 파트를 선정하여 좀 더 디테일하게 공부해 낙나다면 충분히 실무에서 활용이 가능할 것으로 판단된다. 본 서를 읽으면서 추천해주고 싶은 대상은 다음과 같다.

- MLOps 관련 개발자

=> 현재 맡고 있는 포지션을 제하고, 전체적인 MLOps의 배경과 맥락을 파악하여 업무 지식 확장 및 소통에 도움이 될 것으로 보임.

- ML 관련 서비스 및 SI PM

=> ML 모델 개발과 배포 그리고 유지관리까지의 프로세스를 파악하기에 맞춤인 책이라고 판단함. 요구사항 분석 및 관리 시, ML 업무 프로세스 상 현재 진행 중인 과업의 위치를 파악 할 수 있게 도움을 줄 것으로 보임.

- ML 연구자 및 데이터 사이언티스트

=> 데이터 분석과 ML모델 개발 및 튜닝에 앞서, 어떠한 과정을 통해 현재 업무를 진행하게 되었는지에 대한 히스토리 파악과 더불어 배포와 유지관리를 고려하며 연구를 수행 할 수 있는 능력을 얻을 수 있을 것으로 보임.

- ML 분야 기획자 및 창업을 고민하는 자

=> ML 실사례와 함께 본 서에서 같이 제공되는 기법을 활용하여 다양한 바리에이션이 가능할 것으로 판단됨. 개인적으로 현재 뿐만 아니라 먼 미래에도 MLOps 산업의 먹거리가 풍부할 것으로 판단됨.

2. MLOps 도입 가이드

본 서 MLOps 도입 가이드는 'MLOps 개념과 필요성', 'MLOps 적용 방법', 'MLOps 실제 사례' 총 3개의 파트로 구성되어있다. MLOps 적용 방법 파트를 집중하여 읽었으며, 그 중 본인에게 제일 중요하다고 생각하는 '모델 개발' 부분을 정리함으로써 글을 마무리 짓겠다.

- 머신러닝 모델 구축의 필수 구성 요소

기초적인 내용으로 머신러닝 모델 구축과 검증에 관한 요소들을 정리하였다. 구체적인 설명이 군더더기 없이 깔끔해서 심플하지만 강력한 책이구나 라는 생각이 들었다. 개인적인 경험과 덧 붙여 정리한 것은 다음과 같다.

표 1.png

- 데이터 탐색

아무리 적합한 알고리즘을 사용하더라도 모델의 Output(성능)은 Input인 Data에 달려 있다. 따라서, 모델을 학습시키기 위해선 사전적으로 데이터 형태를 확인해야 한다. 아울러, 데이터의 불완전성, 부정확성, 불일치 등으로 인하여 데이터의 일부만을 사용 할 수도 있다. 다음은 데이터 탐색 과정의 예시이다.

- 수집된 데이터의 현황(누락, Outlier 등) 파악

- 데이터 분포(정규 분포, 의도를 담아 학습시키기 위한 분포 등) 파악

- 데이터 전처리(정리, 채움, 변경, 필터링, 자르기, 표본 추출 등)

- 서로 다른 열 간 상관관계 확인 및 분포 곡선 보간

- 타 연구결과의 데이터 및 모델 비교

개인적으로 ML 모델을 생성하기에 사전적으로 확실히 해야하는 부분이라고 생각한다. 데이터 탐색 과정에서 결정된 의사결정은 되도록이면 바뀌지 않고, 확실히 정의해야한다.

- 특성 엔지니어링 및 특성 선택

특성(Feautre)은 데이터가 모델에 표현되는 방식으로, 모델 자체로는 추론할 수 없는 것들에 대한 정보를 전달한다. 특성 엔지니어링 방법의 예시는 다음과 같다.

표2.png

대게는 ML 프로젝트를 수행할 때 Feautre가 정의되어있는 경우가 잦다. 하지만, 그 값을 그대로 사용하기 애매하거나 보조지표가 필요한 경우 특성 엔지니어링을 수행하여 데이터 셋을 보강하게 된다.

3. 결론

본 서 'MLOps 도입 가이드'를 읽으면서 ML 프로젝트를 수행하기 위한 전반적인 프로세스에 대해 공부하는 시간을 가졌다. 측량, 의료, 공개 데이터 등 다양한 데이터를 접하면서 언제나 느낀 것은 훈련 대상 데이터의 정의이다. 다행히도 다양한 분야의 전문가들과 소통을 통해 Feature를 정의하고 모델을 구현하였으나, 언제나 이 부분에는 갈증이 있다. 본 서를 통해 MLOps의 전반적인 지식과 함께 실제 사례를 통해 어떤 식으로 접근하는 것이 효율적인지에 대해 생각하는 시간을 가졌다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다

pacien***l2022-05-29

[리뷰] MLOps 도입 가이드

# MLOps 도입 가이드

- 실무에서 머신러닝, 딥러닝 모델을 어플리케이션에 적용하기 위해서는 모델 개발뿐만 아니라 다양한 프로세스와 시스템이 필요합니다. 때로는 이러한 프로세스와 시스템을 구축하는 난이도가, 모델 개발에 비해 더 어려운 경우도 있습니다.

- 하지만 비즈니스, 실무에서 머신러닝과 딥러닝을 효과적으로 활용하기 위해서는 MLOps의 도입이 필요합니다. 모델이 적용되는 환경과 상황, 조건이 매번 변화하기 때문입니다.

## 코드가 존재하지 않는 가이드

- [MLOps 도입 가이드]는 일반적인 다른 개발 서적과는 다르게 코드가 존재하지 않습니다.

- DevOps에서 유래한 MLOps는 비즈니스 환경에서 조직 간 협력과 시스템을 운영하는 방법이 중요하기 때문입니다. 그리고 또한 풀고자 하는 문제에 MLOps를 효과적으로 도입하기 위해 MLOps에 대한 개념과 전반적인 이해가 필요하기 때문입니다.

- 따라서 MLOps를 실제 비즈니스에 도입한다고 하면, MLFlow를 적용하는 것이 아니라 다양한 직군의 역할과 책임을 명확히 파악하고 많은 사람들과의 협업 관계를 긴밀하게 구축하는 것이 중요합니다.

- MLOPs 도입 가이드 도서는 이러한 관점으로부터 출발하였습니다. 개발자 위주로 작성된 도커와 쿠버네티스로 시작하는 MLOps 시스템 구축 가이드가 아니라, 전 부문에서 필요한 협업을 이끌어내는 책입니다.

## 실제 사례로 살펴보는 MLOps 구축 전략

- 책의 **PART 3 MLOps 실제 사례** 에서는 실제 기업에서 적용한 MLOps 시스템의 사례를 살펴볼 수 있습니다.

- 실제 사례로부터 상황에 맞는 MLOps 전략을 선택하는 방법과 선택했던 기준 등을 살펴볼 수 있으며, 선택 가능한 다양한 옵션을 소개합니다.

## 책이 조금 더 두꺼웠으면 하는 아쉬움

- 그럼에도 불구하고 개발자 입장에서 MLOps를 실제로 도입하기 위해 어떠한 스킬과 백엔드 개발 가이드가 있었으면 하는 아쉬움이 있습니다.

- 하지만 MLOps는 이제 선택이 아닌 필수가 되어가는 상황에서 개발자 뿐만 아니라 기획, 사업 등 다양한 분야에 종사하는 전문가들이 MLOps를 이해하는데 탁월한 도서라고 생각합니다.

> 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

beholde***l2022-05-29

[북 리뷰] MLOps 도입 가이드

내가 이 책을 받은 시점에 내가 개인적으로 아는 어떤 MLOps 조직의 리더도 이 책을 구입하고 이미 읽은 상태였다.

어쩌다 이 책에 대한 얘기가 나와서 이 책에 대한 평을 듣게 되었는데 그의 한 줄 소감은,

“책이 가벼워서 쭉 쉽게 읽어보기 좋은데 MLOps 플랫폼 관련해서 애매모호 했던 부분에 대해 전체적으로 개념을 잡아주는 책이다.”

였다.

모르는 사람이 들으면 간단하면서도 사정을 아는 사람이 들으면 더 깊게 들리는 말인 것 같다.

그건 아직은 MLOps 플랫폼 구성에 있어 정립하기 애매모호한 측면이 많기 때문인데..

그 이유는 책에 나온 아래 도식을 보면 알 수 있을 것 같다.

일반적인 조직 내 머신러닝 모델 생애주기에 대한 사실적 도식화라고 표현한 그림이다.

조직 관점에서 바라보는 머신러닝 모델의 생애주기라는건 보다 큰 범위를 생각해야 하고 엮여있는 이해관계자가 많다는 사실을 알 수 있다.

이 책의 대상 독자는

상용 환경에서 머신러닝 적용 실무를 담당하는 데이터 분석 팀 혹은 IT 운영 팀의 관리자.. 라고 되어 있는데
MLOps 가 왜 필요하고 전체적으로 어떻게 돌아가는지를 배우고 싶은 사람이면 누구나 읽고 싶을 것이라고 생각한다.

책의 내용

이 책은 정말 가볍다. 책의 페이지 수는 200페이지에 불과해 접근하기가 더 좋다.

각 이해관계자를 위해 쓰였기에 공통적인 이해를 돕기 위한 목적이 있는 듯한데, 그래서 읽기 쉽다.

머신러닝 모델의 생애주기와 엮여 있는 이해관계자라면 가벼운 마음으로 책을 들어도 좋을 것 같다.

책의 구성은

MLOps 가 왜 필요하고 왜 중요하며 왜 어려운지를 먼저 설명한다. 위에 첨부한 도식에서 볼 수 있듯이 프로젝트의 전체를 볼 수 있게 하는 데 목적이 있는 것 같다.
여기서 다루는 MLOps는 "엔터프라이즈" 수준의 MLOps이며 그에 관련한 고려사항들이 안내되어 있다.
그 다음 챕터는 아주 좋다고 생각하는데, MLOps와 관련된 이해관계자들과 그들의 역할 및 MLOps에 대한 요구사항을 표로 보여준다.
그리고 각 이해관계자들에 대해 상세히 설명한다. 이 부분이 아주 재미있다. 여기서 나열하는 이해관계자들은 아래와 같다.
직무 전문가, 데이터 과학자, 데이터 엔지니어, 소프트웨어 엔지니어, DevOps, 모델 리스크 관리자, 머신러닝 아키텍트
이들의 요구 사항이 무엇이고 역할이 무엇이고 이들에게 필요한게 무엇인지를 상세히 작성해서 그들의 입장을 이해하게 만들어준다.
MLOps의 생애주기와 각 단계에 대한 설명이 이어진다. 죽 읽어나가면서 MLOps의 생애주기를 다시 한번 이해하고 점검할 수 있다.
전체적인 생애주기를 위에서 조망하는 느낌이라 이 책에서 명시한 독자가 관리자인 이유를 이해할 수 있다.
다만, 실무를 접하지 못한 상태에서는 다소 추상적으로 느껴질 수도 있다.
이후로는 실제 MLOps를 적용하는 방법으로 모델 개발, 상용화 준비, 상용 배포 모니터링 루프 등을 각각 독립적인 챕터로 다룬다.
실제로 어떤 솔루션이나 오픈소스를 적용해야 한다는 내용이 아니다. 어떤 단계들에 어떤 도전과제들이 있고 어떤 식으로 수행해야 한다는 가이드라인이다.
아마 진행중인 프로젝트가 있다면 이 책들을 보면서 아 이런 것들을 고려해야 하는구나, 아 이 부분이 빠졌구나 하는 깨달음을 얻을 수 있지 않을까 하는 생각이 든다.

MLOps 도입을 고려 중인 조직이라면 관련자들에게 이 책을 배포해서 다 읽힌 다음 MLOps에 대한 이해도를 같이 올린 다음에 일을 시작해도 좋을 것 같다.

— “한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다 —

출처: https://mokpolar.tistory.com/22 [TOUCHING ELEPHANT:티스토리]

wltk***l2022-05-29

[서평] MLOps 도입 가이드

PART 1 MLOps 개념과 필요성

CHAPTER 1 왜 지금이고 도전 과제는 무엇인가

CHAPTER 2 MLOps 이해관계자들

CHAPTER 3 MLOps의 핵심 기능

PART 2 MLOps 적용 방법

CHAPTER 4 모델 개발

CHAPTER 5 상용화 준비

CHAPTER 6 상용 배포

CHAPTER 7 모니터링과 피드백 루프

CHAPTER 8 모델 거버넌스

PART 3 MLOps 실제 사례

CHAPTER 9 소비자 신용 리스크 관리

CHAPTER 10 마케팅 추천 엔진

CHAPTER 11 소비 예측

본문

▶ MLOps 핵심 개념 및 이해관계자들의 역할과 책임 등을 설명

▶ MLOps 실제 사례를 통해 기업의 MLOps 적용 방향을 경험해볼 수 있다.

책의 특징

· MLOps를 성공적으로 실행하려면 어떤 사람들이 MLOps에 참여해야 하는지, 그리고 어떤 구성 요소가 있는지 알 수 있습니다.

· 머신러닝 모델 생애주기에 맞춰 MLOps 관련 고려 사항을 다루어 볼 수 있습니다.

· MLOps 역량을 개발하기 위한 실질적인 통찰과 해결책을 얻을 수 있습니다.

추천독자

· 머신러닝 적용 실무를 담당하는 데이터 분석 팀

· MLOps 역량을 개발하기 위한 실질적인 통찰과 해결책이 필요한 IT 운영 팀

· MLOps에 관심을 갖고 있거나 MLOps가 적용된 실제사례를 알고 싶은 분들

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

jay0***l2022-05-28

MLOps 입문서

MLOps는 요즘 핫한 Machine Learning에서의 ML과 DevOps라는 단어를 합친 말이다. 여기서 DevOps는 조금 학교보다는 기업에서 주로 사용하는 단어라 모르는 사람이 꽤 많을 것 같다. 사실 나도 워낙 기업과 멀다 보니 어렴풋이 알고 있었는데, 이 책을 보면서 제대로 알게 되었다. 데브옵스는 이제 기업에서 효율적으로 소프트웨어를 개발(DEVelopment) 하고 운영 (OPerationS) 하는 방법에 대한 전략이다. 소프트웨어 기업은 특성상 아주 완벽한 소프트웨어를 만들고 나서 출시하기보다는 어느 정도 완성된 후에는 출시하고 기능을 개선한다. 여기서 기능을 개선하는 것이 아주 쉬운 것은 아닌 것이 기존에 쓰던 사람들이 불편함을 겪지 않으면서 정말 기능이 개선되어야 하기 때문이다. 어떤 것까지 개발하고 배포할지, 어느 주기로 배포할지, 기존 케이스들에 대해서는 여전히 잘 작동하는지, 사람들이 바뀐 기능을 만족하고 있는지 등 여러 가지를 고민해야 한다. 이러한 것을 개발자가 개발만 하고 운영하는 사람이 배포만 하는, 이런 분할된 방식이 비효율적이라고 느껴 이 둘을 함께 고민하는 데브옵스라는 개념이 나왔다.

MLOps는 이제 특히나 어떻게 머신 러닝 모델을 개발하고 (+ 어떻게 학습할지) 이를 배포할지에 대한 내용이다. 그런데 머신 러닝 자체가 현업에 사용된지 사실 그렇게 오래된 것은 아니라서 고민할 것이 다양하게 많다. 최근에는 크고 작은 기업들에서 머신 러닝을 활용한 상품?을 많이 만들고 있고 이를 위한 환경이 많이 구축되고 있는 것 같다. 당장 생각나는 것만 하더라도

데이터가 새로 들어오는 상황에서 새로 학습하는 것이 아니라 기존 모델을 개선시킬 수 있는지
어떤 모델을 활용할지; 아키텍처, 파라미터의 수, 등등
다양한 파라미터로 모델을 학습할텐데, 어떻게 효율적으로 컴퓨팅 자원을 사용할 수 있을지
학습된 모델이 편향되어있지는 않은지

등등 학습, 배포, 모니터링 등 다양한 분야를 모두 고려해야 한다.

Introducing MLOps (MLOps 도입 가이드) 책은 다음과 같이 생겼다.

목차를 보면 다음과 같다. 크게 3개의 챕터로 나누어져 있다.

MLOps 개념과 필요성
MLOps 적용 방법
MLOps 실제 사례

흐름이 따라가기 어렵지 않았다. MLOps라는 개념은 나름 핫하고 이 분야에 취업을 하려고 하면 충분히 물어볼 수 있는 개념인 것 같아서 한 번 읽어보는 것이 좋을 것 같다. 특히, MLOps를 가장 잘 활용하고 이 분야를 키우고 있는 곳은 구글이고 이외에도 아마존, 페이스북 등 다양한 대기업들이 있는데 이곳에 들어가려면 MLOps를 모르면 안 될 것 같다. 나도 지금은 급하지 않지만 나중에 머신 러닝 쪽으로 해서 회사에 들어가 보고 싶은 생각은 있는데, 이런 실무적인 부분도 공부해야 될 것 같다.

내용을 보면 머신 러닝을 활용하지 않는 기존의 방법론도 다루면서 최근 딥러닝에 대한 내용도 다룬다. 또한, 최근 이슈인 딥러닝에서의 윤리도 다룬다. 이전에 마이크로소프트에서 만든 채팅 봇이 비윤리적인 얘기들을 하다가 논란이 된 적도 있고 우리나라에서 이루다와 같은 것도 AI를 잘 사용하지 못해서 크게 논란이 되었다. 이런 사례들을 보면 기업에서 AI를 활용할 때 어느 정도 잘 확인하고 배포해야 할 것인데, 당연히 문제가 없는지 확인하기가 어렵기 때문에 유수의 기업들에서 문제가 생겼을 것이다. 최근 많은 과학자들이 이에 대해 분석을 하고 있고 이 책에서는 어느 정도 그 부분을 다루고 있는 것 같다.

"MLOps 활용 가이드"라는 책은 최근 현업에서 꽤 핫한 주제인 MLOps라는 것을 자세하게 설명한다. 아마 이 분야로 현업에서 일하고자 한다면 꼭 읽어봐야 할 것 같다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

lucaseo1***l2022-05-28

MLOps 도입을 앞둔 이들에게 필요한 책

추천하는 대상:

MLOps를 도입하기 위한 고민을 하는 분

한줄평: 머신러닝 모델을 배포하는 것은, 잘 돌아가는 걸 확인하는 하나의 단계일 뿐, 그 외 해야할 일은 많다.

더 이상 선택요소가 아니게 된 MLOps

머신러닝이라는 기술에 대한 고도화가 이루어져 다양한 분야에서 활용되고 있는 현 시점에서, MLOps 라는 방법론 한번 슬쩍 접하는 것이 아닌 필수 사항이 되어가고 있다. MLOps는 현재 명확하게 정립되지 않아 논문이 아닌 수많은 블로그 포스트들로 다루어지고 있고, 또 수많은 도구들이 나타나 서로가 편리하다고 주장을 하고 있는 상황이다. 요즘 들어 나오고 있는 MLOps 관련 강의들 또한 이러한 도구들의 사용법에 대해 다루는 경우를 많이 볼 수가 있다.

하지만 누구나 현재 가지고 있는 자원과 또는 지원 받을 수 있는 자원이 다르고, 다룰 수 있는 능력의 정도가 다르기에, 더더욱 개념부터 더 확실하게 숙지하고 현재 나의 일에 어떻게 적용시킬 수 있을지 고민해보는 과정이 필요하다고 느끼고 있다.

한빛미디어의 “나는 리뷰어다” 활동을 통해 제공받은 “MLOps 도입가이드”의 원제는 “Introducing MLOps”으로, 제목 그대로 MLOps에 대한 전반적인 내용을 다루고 있다. 이 책에서는 MLOps에 대한 전반적인 내용을 폭 넓게 다루며, 실제 구현보다는 각 개념과 필요성에 대한 설명에 초점을 맞추고 있다.

MLOps의 개념 및 이해관계자들
MLOps의 핵심 기능과 필요성
MLOps 적용 방법
- 모델 개발
- 상용화 준비
- 상용 배포
- 모니터링
- 반복
- 거버넌스
적용 사례

한가지 눈에 띄는 점이라면, 책의 저자가 미국과 프랑스에 오피스를 두고 있는 AI/ML 전문 기업인 데이터이쿠(Dataiku) 라는 점이다. 데이터이쿠에서 일하고 있는 9명의 임원과 스태프들이 이 책의 각 부분을 맡아 집필했는데, 1~3명의 소수가 책을 쓰는 것과는 확연히 차이점을 보이고 있다. 그만큼 이 책은 한 기업에 속한 여러 전문가가 각자의 전문성을 발휘할 수 있는 주제를 맡았다는 점에서, 인상적이다.

MLOps는 리스크 관리

이 포스트에서 이 책이 다루는 MLOps에 대한 내용을 전부 다 다룰 수는 없고, 또한 시중의 다른 자료들과 겹치는 부분도 많다. 하지만 가장 인상적인 부분을 하나 꼽아보자면, 리스크를 줄이고자 하는 차원에서의 MLOps의 필요성에 대해서 서술한 부분이다.

“결국, 모델을 상용 환경에 배포하는 작업은 머신러닝 모델 생애주기의 최종 단게는 아니다. 단지 성능과 정상 작동 여부를 확인하는 시작점이 될 뿐이다. (중략) 더 많은 머신러닝 모델을 상용 환경에 배포할수록, MLOps는 비즈니스에 치명적일 수 있는 잠재적 리스크를 줄이는데 더 필수적인 요소가 된다."

머신러닝 모델은 운용하는 과정에서 다양한 리스크를 맞이할 수 있다. 앞서 언급했듯이, 어느 조직이나 활용 가능한 리소스가, 리소스를 갖추기 위한 지원의 정도가 다르다. 따라서 이 책에서 제시한 리스크 매트릭스를 활용하여, 머신러닝 모델의 리스크를 정량적으로 판단하고, 이에 따라 MLOps의 적용 범위와 정도를 정할 수 있을 것이라 기대된다. 만일 리스크가 크지 않다면 MLOps 시스템을 구축하는 과정에서 우선순위가 높지 않을 수 있고, 만일 리스크가 크지만, 이에 대비할 수 있는 리소스가 갖춰지지 않았다면 이에 대비하는 작업을 우선적으로 시행할 수 있을 것이다.

마무리하며

아무 것도 갖춰지지 않은 상태에서 MLOps 도입 가이드 는 꽤 괜찮은 길잡이가 될 수 있다. 책의 두께도 두껍지 않아 빠르게 읽고, 필요한 부분을 참고할 수도 있을 것으로 보인다. 다만, 앞서 말한 바와 같이 MLOps에는 많은 이해관계자가 필요하고, 각자 가지고 있는 환경과 리소스가 다르다. 따라서 한번에 모든 것을 갖추기보다, 핵심적으로 필요한 부분과 급한 부분을 취사 선택하는 것은 독자의 몫(= 나의 몫)이다.

eehoesk***l2022-05-26

MLOps를 도입하고 싶어지는 책!

한빛미디어에서 출간된 “MLOps 도입 가이드”라는 책은 기업이 MLOps를 도입하기 위한 머신러닝 모델 배포 프로세스, 시스템 구축, 확장, 효율화 및 관리에 대한 방법들을 소개한다. 참고로 MLOps는 Mahchine Learning Operations(머신러닝 운영)을 뜻한다. 이러한 내용들은 데이터 사이언티스트, 머신러닝 엔지니어 등 AI 엔지니어링 업무를 다루는 여러 사람들에 의해 작성되었기 때문에 MLOps를 도입하는데 있어서 발생하는 “조직적 이슈”와 “기술적 이슈”를 모두 다룰 수 있다. 책은 크게 3부로 구성되며, MLOps 개념과 필요성 / MLOps 적용 방법 / MLOps 실제 사례로 구성되어있다.

이 책은 MLOps를 도입하기 위한 기술적 내용과, 조직적 이슈 내용들을 모두 담고 있으며, 머신러닝 모델을 개발하고자 하는 엔지니어들도 전체적인 프로세스에 대한 감을 잡기 위해 완독하면 좋을 책이다. 아마 이 책을 읽고나면 머신러닝 모델을 개발하는 사람들은 분명 MLOps를 도입하고 싶어질 것이며, MLOps를 도입하려는 기업 및 관리자에게 길잡이가 될 수 있는 책이다.

“한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”

esn***l2022-05-26

MLOps 전반에 대한 이해도가 높아졌습니다

머신러닝 알고리즘을 운영하는 데, 문제가 있다고 생각하면 이 책이 도움이 될 것입니다. 이 책은 하나의 문제에 대해서 깊게 다루지는 않습니다. ML Ops를 다양한 시각에 어떤 문제를 고려해야 되는지 폭넓게 다루고 있습니다.

그래서 기존에는 고려하지 못햇던 문제를 이 책을 통해서 발견할 수 있고, 방향성에 대한 힌트를 얻을 수 있습니다.

이 책은 ML Ops의 방향을 세우는 데 필요한 지식을 빠르게 습득할 수 있게 해 줍니다. 한 마디로 판을 읽는데 도움이 됩니다.

MLOps 이해관계자, 모델개발, 사용화준비, 배포, 모니터링과 피드백, 거버넌스까지 모든 영역을 다루고 있습니다. 책의 마지막에는 실제 사례를 몇 개 다루고 있어, 관련된 주제가 있다면 더 도움이 될 것입니다.

sihyeo***l2022-05-22

머신 러닝을 체계적으로 도입하기 위한 책

머신러닝 기술을 학문의 영역에서 현실 세계에 배포하기 위한 체계화된 방법을 알려 준다. 책은 관리자의 시점에서 머신러닝을 상용황 경에 적용하기 위한 기술적 방법과 그에 따른 여러 이슈들을 다룬다.

tnsgh9***l2022-05-11

머신러닝 모델을 상용화시키는 방법에 대해 공부하려는 사람들에게 추천합니다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.