라벨이 streaming인 게시물 표시

Stream Analytics Manager in Hortonworks Data Flow - 2

이미지
Stream Analytics Manager의 component들에 대한 정리 Component는 Source(Input) -> Processor(Processing) -> Sink(Output) 순으로 처리가 이루어 진다.    1. Source Component  - 현재 Event Hubs, HDFS, Kafka 3개의 기능만 제공하고 있다.  1) Event Hubs : MS Azure에서 제공하는 이벤트를 수집, 변환, 저장하는 하이퍼 스케일 원격 분석 수집 서비스 2) HDFS : HDFS URL을 통하여 HDFS 디렉토리에 있는 파일을 Import 함  3) Kafka : 분산 메세징 큐 서비스인 Kafka를 Source로 이용, Kafka Topic을 만든 뒤 해당 정보를 Schema Registry에 해당 Topic 정보를 입력하고 사용. 2. Processor Component  - Aggregate, Branch, Join, Projection, Rule, PMML(Predictive Model Markup Language) 6개의 기능 제공.  1) Join : 2개의 Source에서 들어오는 데이터를 Join한다. Interval을 시간 or Count로 조정하여 수행, Output 컬럼을 지정할 수 있다.  2) Aggregate : AVG, COUNT, SUM, MAX, MIN등 의 aggregate function을 사용하여 들어오는 데이터를 조작, 역시 Output 컬럼을 지정할 수 있다.  3) Rule : 어떠한 Rule을 지정하여 데이터를 filtering 한다. EQUALS, NOT_EQUAL, GREATER_THAN, LESS_THAN 등. 비교연산자를 생각하면 될 것 같다.  4) Projection : IDENTITY, UPPER, LOWER, I...

Stream Analytics Manager in Hortonworks Data Flow

이미지
개요 코드 작성없는 간단한 스트리밍 앱 구성을 위한 서비스 HDF(Hortonworks Data Flow)3.0 부터 지원 장점 Apache Ambari와의 연계 Ambari의 Web 주소 계정 정보를 입력하는 것만으로 클러스터 내의 서비스 정보를 import 가능 여러 개의 클러스터 import 가능 (수집용 클러스터, 분석용 클러스터를 따로 구성한 경우 Schema Registy를 통한 HDF 서비스 간 스키마 저장/편집/공유 Schema Registry에 등록하면 HDF의 NiFi나 SAM 등의 서비스에서 사용가능 Schema 정보의 손쉬운 버전 관리 SAM Application은 Component를 flow로 연결하여 구성한다. Component는 Source, Processor, Sink로 구분된다. Source 데이터 input 스트림 생성에 사용 현재 Kafka, HDFS, Azue Event Hub 등을 지원한다 Processor 스트림에 대한 이벤트를 처리하는데 사용 Join, Aggregate, Projection, Bench, Rule, PMML 등의 기능을 제공한다 Sink 데이터 output, 다른 서비스로 이벤트를 전송 HDFS, HBase, Hive, JDBC, Cassandra, Solr, Kafka, Druid, E-mail 등을 지원한다 다음 그림은 SAM Application을 Edit하는 화면이다. 아래의 Hortonworks Doc 링크에서 SAM을 사용하는 간단한 예제를 수행할 수 있다. 트럭의 속도와 위치를 수집하여 실시간으로 처리하도록 되어 있다. https://docs.hortonworks.com/HDPDocuments/HDF3/HDF-3.0.1.1/bk_getting-started-with-stream-analytics/content/ch_sam-buildin...