Microsoft IT를 통해 빅데이터로 이동하는 방법

얼마 전 참여한 라이브 웹캐스트의 주제는 “오늘날 새로운 세상이 요구하는 데이터”였습니다. 요약하자면 빅데이터 처리 방식이 기업에 미치는 중요성에 대한 내용입니다. 여기에서 90분 길이의 영상을 볼 수 있습니다.(영문) 이 웹캐스트에는 마이크로소프트 리테일 스토어의 IT 책임자이자 저의 동료인 Terri Jordan, 그리고 제가 좋아하는 작가이자 이코노미스트(The Economist)지의 데이터 에디터로 활약 중인 Kenn Cukier[개인 블로그, 트위터: @kncukier]도 함께 했습니다.
Microsoft IT 내의 빅데이터 처리 방식에 대한 당사의 전략과 전망에 대한 몇 가지 의견을 나누고 싶습니다. 웹캐스트에서는 이러한 모든 생각을 나눌 기회가 없었기 때문에, 이 커뮤니티를 통해 당사의 출발 과정을 말씀 드리고자 합니다.
대형 검색 엔진과 소셜 네트워킹 사이트를 통해 소비자가 빅데이터에서 일정 수준의 가치를 얻을 수 있음이 입증된 것은 분명합니다. 기업 내에서는 누구에게나 동등하게 큰 기회가 주어집니다. 특히 기업 경영진이 빅데이터, 궁극적으로 소위 “빅 매스(big math)”를 통해 통찰력을 얻을 수 있는 기회는 놀라울 정도입니다.
오늘날 당사는 Excel, SharePoint, SQL 서비스 등의 도구를 이용해 39,000여 명의 직원들에게 매니지드 셀프 서비스 비즈니스 인텔리전스(BI)를 제공합니다. 빅데이터 처리에 관련된 비즈니스 사용자들에게 이와 같은 자율성을 최대한 보장하는 한편, 대용량 데이터의 분석 및 보고 시간을 단축하기 위함입니다.
최근 Microsoft IT는 코드명 “Isotope”로 불리는 Hadoop과 Windows Server의 연결 포트, 마이크로소프트의 빅데이터 플랫폼을 이용하여 개발 및 적용 프로세스 속도를 가속화할 수 있음을 입증하기 위해 내부 공유 클러스터를 활용하여 일련의 프로젝트를 완수했습니다. 이 데모는 향후 빅데이터에 대한 투자를 지지하는 기반이 되었습니다. 이 데모에 대해 간략하게 설명하겠습니다.
첫 번째 예제는 온라인과 오프라인에서 다양한 형태의 소비자 행동을 모델링한 마케팅 팀에 관한 것입니다. 이 데이터 세트의 범위는 수억 건에서 수십만 건에 달하며, 온라인과 오프라인에서의 행동을 모델링하는 것은 기존 모델 예측 도구의 한계 때문에 어렵습니다. 당사의 빅데이터 데모를 기반으로 향후에는 더 강력하고 다양한 예측 변수를 제공하고, 모델 개발을 효율적으로 통제하며, 모델 검증에 필요한 민첩성을 극대화하고, 결과 확인에 필요한 시간을 단축하며, 개발 및 유지보수 비용을 최소화할 수 있을 것입니다.
또 하나의 예제는 원격 분석에 대한 것입니다. 일부 선택된 소비자들과 고객들이 자신들의 컴퓨터 업무 관련 데이터 수집 권한을 당사에 부여하여 많은 양의 클릭스트림과 키스트로크 데이터를 수집할 수 있었습니다. 이러한 데이터를 수집, 분석한 결과 고객들이 Windows와 Office 제품을 사용하는 방식과 타 프로그램과 상호 작용하는 방식에 대한 통찰력을 얻을 수 있었습니다. 당사는 빅데이터 처리를 통해 다양한 집단으로부터 얻은 상당한 양의 데이터를 분석하여 제품의 품질과 고객 경험을 개선할 수 있습니다.
정확히 말해, 빅데이터와 빅 매스(Big math)는 동전의 양면과도 같습니다. 실제로 여러 소스로부터 각각 다른 속도로 다양한 형태의 데이터를 수집하는 데에는 기술적 과제가 따릅니다. 그러나 장기적 관점에서 더 큰 과제는 데이터로부터 통찰력을 이끌어낼 수 있는 기술 세트를 찾아 개발하는 것입니다. 기술을 개발하고 인접 시장에서 인재를 채용하는 것이 가장 중요합니다. 예를 들어 저희 엔터프라이즈 아키텍처 조직에도 이런 분석을 담당하는 통계 전문가 팀이 있으며, 이러한 전문가들에 대한 수요는 점점 더 증가할 것입니다.
기술적 과제에 직면한 Microsoft IT는 초기 데모를 수행하기 위해 실제로 당사의 제품 담당 팀으로부터 서버와 처리 시간을 빌려왔습니다. 우리 팀은 실제로 빅데이터 처리를 통해 속도와 통찰력이라는 측면에서 가치를 극대화할 수 있음을 입증했습니다. 또한 Windows Azure에서 서버와 스토리지 용량을 빅데이터 작업에 활용하는 실험에서도 긍정적인 결론을 얻었습니다. 빅데이터와 빅 매스(Big math)는 일시적 확장의 필요성, 외부 데이터 액세스 등으로 인해 클라우드에 유용한 응용 도구입니다.
물론, 빅데이터 솔루션에 대한 개인 정보와 보안 통제의 범위도 확대해야 합니다. IT 조직은 위험 관리팀과 협력하여 데이터 사용 권한을 부여 혹은 통제할 수 있는 엔터프라이즈 보안 프레임워크를 개발하는 것이 좋습니다.
마지막으로, IT 부서는 엔터프라이즈 아키텍처에 대해 전반적으로 일관된 접근 방식을 필요로 합니다. 엔터프라이즈 아키텍처는 “점들을 연결하는” 요소로, 위치와 상관 없이 여러 시스템의 연동을 지원하는 매체입니다. 이 단계 중에 엔터프라이즈 데이터 모델을 최대한 많이 적용해야 합니다. 다시 말해 회사가 처리하는 핵심 항목들을 정의하는 것입니다. 이러한 모델을 갖추면 빅데이터를 통해 일관성 있고 풍부한 통찰력을 얻을 수 있습니다.
빅데이터를 실행 가능한 정보로 전환하는 데 성공한 IT 부서는 자사의 비즈니스에 확실한 경쟁력을 제공할 것입니다. 이 주제에 대한 여러분의 생각을 듣고 싶습니다. 의견 및 질문을 남겨 주시면 감사하겠습니다.