Stream Analytics Manager in Hortonworks Data Flow


개요
  • 코드 작성없는 간단한 스트리밍 앱 구성을 위한 서비스
  • HDF(Hortonworks Data Flow)3.0 부터 지원


장점

  • Apache Ambari와의 연계
    • Ambari의 Web 주소 계정 정보를 입력하는 것만으로 클러스터 내의 서비스 정보를 import 가능
    • 여러 개의 클러스터 import 가능 (수집용 클러스터, 분석용 클러스터를 따로 구성한 경우


  • Schema Registy를 통한 HDF 서비스 간 스키마 저장/편집/공유
    • Schema Registry에 등록하면 HDF의 NiFi나 SAM 등의 서비스에서 사용가능
    • Schema 정보의 손쉬운 버전 관리



SAM Application은 Component를 flow로 연결하여 구성한다. Component는 Source, Processor, Sink로 구분된다.

  • Source
    • 데이터 input 스트림 생성에 사용
    • 현재 Kafka, HDFS, Azue Event Hub 등을 지원한다
  • Processor
    • 스트림에 대한 이벤트를 처리하는데 사용
    • Join, Aggregate, Projection, Bench, Rule, PMML 등의 기능을 제공한다
  • Sink
    • 데이터 output, 다른 서비스로 이벤트를 전송
    • HDFS, HBase, Hive, JDBC, Cassandra, Solr, Kafka, Druid, E-mail 등을 지원한다

다음 그림은 SAM Application을 Edit하는 화면이다.






















아래의 Hortonworks Doc 링크에서 SAM을 사용하는 간단한 예제를 수행할 수 있다. 트럭의 속도와 위치를 수집하여 실시간으로 처리하도록 되어 있다.
https://docs.hortonworks.com/HDPDocuments/HDF3/HDF-3.0.1.1/bk_getting-started-with-stream-analytics/content/ch_sam-building-an-app.html
아래 10분 짜리 유튜브 동영상도 실습을 하는데 유용하다.
 https://www.youtube.com/watch?v=y2KLzz8rLSw


아직까지는 미흡한 부분(모니터링 그래프에 대한 버그, App 수정시 에러 발생)이 많으나 버전이 높아질 수록 기대가 되는 서비스이다. 

댓글

이 블로그의 인기 게시물

Apache Superset(incubating) 정리

자주 쓰이는 Ambari REST API 정리

YARN & MRv2 리소스 설정