제공 :
한빛 네트워크
저자 : Edd Dumbill
역자 : 김인범,
http://revolutionist-inbum.tistory.com/
원문 :
Five big data predictions for 2013
앞으로 12개월 동안의 빅 데이터의 표어는 "다양성과 처리능력"이다.
2013년을 지배할 것으로 예상하는 중요 빅 데이터 테마들을 소개한다.
빅 데이터 아키텍처의 출현
실제 제품들이 만들어지면서 올해에는 많은 빅 데이터 파일럿 프로젝트들이 나타날 것이다. 그와 함께 정상적으로 동작하는 실질적인 아키텍처들에 대해 이해하기 시작했다.
이러한 아키텍처들은 다음과 같다.
- 스트리밍 데이터 취득을 위한 Storm 같은 서로 다른 목적을 위한 최고의 툴들.
- 관계형 데이터베이스, Hadoop, NoSQL 저장소 그리고 인 메모리 데이터베이스를 위한 적절한 역할
- 기존에 존재하는 Data warehouse와 Hadoop을 이용한 분석용 데이터베이스를 결합하는 방법
물론, 이런 아키텍처들은 빅 데이터를 다루는 기술이 성숙해지고, 경험들을 얻으면서 지속적으로 진화할 것이다.
동시에, 빅 데이터에 대한 책임이 회사 조직도 내의 어느 곳에 있는지 이해할 필요가 있다.
빅 데이터는 기본적으로 비즈니스 문제이며, 그것을 활용하는 데 있어 최대의 과제 중 일부는 조직의 사일로와 개혁의 결정을 횡단하는 데 필요한 변화에 달려있다.
One to watch : 데이터를 이동하기에는 어려우므로, 가까운 미래에 HDFS를 위한 주목받는 아키텍처적인 역할을 찾아라.
Hadoop은 단지 달콤한 열매만은 아니다
빅 데이터 소프트웨어의 당연한 산물이지만, Hadoop이 빅 데이터를 처리하기 위한 유일한 방법은 아니다. (성공할 것이라 보고) 받아들일 만한 경쟁자들은 특히, 특성화된 애플리케이션들이 관련된 곳에서 생겨나고 있다. 예를 들어,
Berkeley Data Analytics Stack은 데이터 마이닝과 기계학습에 초점을 맞춘 일부 응용 프로그램에서 Hadoop MapReduce 보다 훨씬 빠른 대체 플랫폼을 제공하고 있다.
동시에, Hadoop은 그 자신을 재창조한다. Hadoop 배포판에서, 특히
YARN은, 올해 다른 종류의 작업이 실행되는 것을 허용하는 Hadoop의 배치 지향 MapReduce 부분에 대한 대체로
Hadoop 2.0을 채택할 것이다.
관심을 끌기 위한 어떤 빅 데이터 경쟁자들에게도, 오픈 소스와 SQL에 대한 완전한 지원 - 데이터에 대한 접근 같은 - 두 가지 모두 필요하며, 이는 2012년에 걸쳐 기본적인 요구사항이 되었다. Hadoop은 곧 사라지지 않지만, 도구들의 즐거운 다양성이 부상하고 있다.
One to watch : Berkeley Data Analytics Stack을 상용화하기 위한 하나 또는 그 이상의 스타트업 기업들의 창업을 기대해 본다.
일괄 공급 체계의 빅데이터 플랫폼
Hadoop은 유동적인 부분들을 매우 많이 가지고 있다. 심지어 Cloudera와 Hortonworks 같은 업체의 관리 도구로도, Hadoop 클러스터를 실행하는 데 필요한 중요한
작업들이 남아 있다. 클라우드 서비스 시대에 Amazon의 Elastic MapReduce 서비스에 의해 나타나는 것과 같이, 꼭 그렇게 되어야 할 이유는 없다.
Hadoop 업체들이 올해의 과정을 통해 시스템 관리 부하를 줄이고, 통합된 빅 데이터 스택을 제공하는 다른 회사에 대해 집중하기를 기대한다.
InfoChimps는 전용 데이터 센터 내에서 서비스로서 관리하는 빅 데이터 스택을 제공한다. 공공 클라우드에서 실행하는 콘텐츠의 경우,
Qubole은 turnkey Hadoop과 아마존 EC2에서 실행하는 Hive 분석 플랫폼에서, 한 단계 더 깊은 개념을 잡고 있다.
One to watch : Enterprise Hadoop 인프라에 들어가는 새로운 항목들은
AltoStor의 인수에 따라
WANdisco가 포함된다.
데이터 관리가 뚜렷해지다
빅 데이터가 제품으로 제작됨에 따라,이것을 기업의 나머지 부분과 통합해야 할 필요성이 있다. 데이터 관리와 관련된 대부분의 문제들이 다음 사항들을 포함하여 전면에 부상할 것이다.
- 데이터 보안
- 데이터 일관성
- 데이터 중복의 감소
- 규정 준수
One to Watch : 데이터 보안은 securing hadoop과
Apache Accumulo와 같은 세밀한 보안이 된 데이터베이스 등을 포함하여 올해 가장 핫 토픽이 될 것입니다,
End-to-end 분석 솔루션의 출현
Hadoop 클러스터들과 코드를 설정하는 IT자원들을 소유하는 것보다, 분석 기능들에 접근하는 것을 원하는 사람이 훨씬 많다. 많은 빅 데이터 애플리케이션의 경우, twitter나 GIS
데이터 같은 외부 자원들로부터 빅 데이터가 나오지만, 고객 또는 판매 데이터와 같은 내부 데이터가 합리적으로 관리될 수 있다.
올해는 신용카드 단말기를 위해 클라우드에서 제공되는 SasS 분석 플랫폼의 성장을 볼 수 있다. 웹 분석 플랫폼은 여기에 길을 개척해 왔다. 2013년에 구글은 현재 클로즈
베타 서비스를 하고 있는 "
universal analytics(보편적 분석)" 서비스를 위해 그들의 분석을 확대해 나가고 있다.
현재 제공 가능한 빅 데이터와 BI(Business Intelligence)의 Frankenstein nature(인위적인 만든 것)은, 흔히 Tableau(빅 데이터 분석 및 쿼리용 제품)를 기본 데이터베이스와 관련된 ETL 작업에 붙이는 것과 관련하여, 특히 마케팅 응용프로그램을 대상으로 강력한 end-to-end 솔루션 분석을 위한 시장에서 명백한 차이가 있다는 것을 의미한다.
One to watch : 2013년에
ClearStory Data가 공공으로 개시되는 것은 현직 분석 재임자들에 대한 동적인 경쟁을 제공할 것이다.