빅데이터 DW엔진 아파치 타조 0.10 공개… NoSQL, 클라우드 지원 강화 소프트웨어 이야기2015-03-31 22:55:29
오픈소스 빅데이터 분석 엔진 ‘아파치 타조(Apache Tajo)’ 0.10 버전이 공개됐다. 아파치 소프트웨어 재단(Apache Software Foundation)은 타조가 엔터프라이즈 지원을 위한 준비를 마쳤다고 강조했다.

빅데이터 플랫폼 전문 업체인 그루터와 아파치 타조 팀은 클라우드 지원과 사용자 편의성이 한층 강화된 0.10 버전을 공개한다고 밝혔다. 아파치 타조는 대용량 데이터 웨어하우스(DW) 엔진으로, 하둡 파일 시스템(HDFS)에 저장된 데이터셋을 분석하기 위해 맵리듀스(MapReduce) 프레임워크를 사용하지 않아도 된다. 엔터프라이즈 고객들이 널리 사용하고 있는 표준 SQL을 사용해 하둡 및 NoSQL에 저장된 데이터를 분석할 수 있다. 타조는 국내 기업인 그루터가 개발을 주도하고 있으며 구글, NASA, 마이크로소프트, 호튼웍스 등의 글로벌 기업과 다음카카오, 라인 등의 개발자들이 참여하고 있다.

이번에 발표된 0.10 버전은 버그 수정 등을 포함한 160개 항목에 대한 해결책이 적용되었고, 새로운 기능을 추가, 발전시킨 버전이다. 새 버전은 다양한 데이터 포맷과 저장소를 지원하고, 기존 데이터 분석 도구와 쉽게 연결할 수 있도록 기능이 강화됐다. 

특히, 표준 데이터베이스 연결 도구인 JDBC 드라이버가 크게 개선되었다. 개선된 JDBC 드라이버는 더 작은 용량의 파일 하나로 새롭게 디자인되어 각종  비즈니스인텔리전스(BI) 도구, 오픈소스 통계 분석 소프트웨어인 R, SQL 도구 등 다양한 분석도구와 더욱 쉽게 연결할 수 있다. 펜타호(Pentaho), 스팟파이어(Spotfire) 와 같이 기존에 사용하던 BI 도구에서 직접 타조에 연결하여 대용량 데이터를 분산 처리하고, 그 결과를 바로 불러와 고급 분석과 시각화에 사용할 수 있게 된 것이다. 이를 통해 데이터 분석가들은 더욱 편리하게 타조를 사용할 수 있다. 

또한 하둡(HDFS)은 물론, 인기있는 NoSQL 데이터베이스인 HBase를 표준 SQL로 분석할 수 있는 기능이 추가되었다. 

클라우드 지원도 강화되었다. 아마존웹서비스(AWS)에서 제공하는 S3 저장소에 대한 처리 속도가 빨라지고, 간단한 명령으로 타조를 바로 실행할 수 있는 스크립트도 제공되어, AWS 환경에서 더욱 쉽게 하둡 및 S3 에 저장된 데이터를 분석할 수 있게 되었다.   

또한 웹 데이터 전송에 널리 쓰이는 JSON 형식의 데이터를 별도의 변환 작업 없이 바로 SQL로 분석할 수 있는 기능이 추가되는 등, 다양한 포맷의 데이터를 쉽게 처리할 수 있다. 

그루터 권영길 대표는 "아파치 타조는 기존 상용 DW를 보완하거나 대체하는 빅데이터 DW 시스템으로 여러 기업에서 이미 활용되고 있다”고 전하고 “전통적인 기업 내 IT 환경 외에도  AWS, 오픈스택과 같은 클라우드 환경에서도 빅데이터를 빠르게 분석할 수 있다”라고 밝혔다. 

그는 또 “기업은 타조의 도입으로 비용 대비 효과 뿐 아니라 대용량 데이터 처리에 애로사항 이었던 속도 문제를 해결함으로써 속도 문제 때문에 하둡 도입을 주저하던 기업들에게 실질적인 도움을 주어 빅데이터 분석 활성화에 큰 도움이 될 것"이라고 덧붙였다.

타조는 아파치 타조 프로젝트 사이트(http://tajo.apache.org/)에서 다운로드할 수 있다.  
다우기술 배달 365앱 게임로프트와 협력해 이벤트 진행   
코바(COVA)의 ‘전문 큐레이터의 맞춤형 쇼핑 앱’ ‘마이사이드’ 출시   
Copyright ⓒ 푸우. All rights reserved.