[NCP] Cloud Hadoop 서비스 사용하기
Cloud/NCP (NAVER Cloud Platform)

[NCP] Cloud Hadoop 서비스 사용하기

728x90
반응형

Apache Hadoop?

하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크 입니다.

분산저장 기술인 HDFS와 분산처리 기술인 맵리듀스(MapResuce)가 장점이다.

 

 

NCP의 Cloud Hadoop?

Apache Hadoop, HBase, Spark, Hive, Presto 등의 오픈소스 기반 프레임워크를 사용자가 자유롭게 사용하여 빅데이터를 쉽고 빠르게 처리할 수 있는 완전 관리형 클라우드 분석 서비스

 

  • 다양한 프레임워크 지원
    • Hadoop: 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터 전체에 대규모 데이터 세트를 분산 처리할 수 있는 프레임워크
    • HBase: 분산되고 확장 가능한 대용량 데이터 저장소
    • Spark: 대규모 데이터 처리를 위한 통합 분석 엔진
    • Hive: SQL을 사용하여 분산 스토리지에 있는 대규모 데이터 세트의 읽기, 쓰기 및 관리할 수 있는 데이터웨어 하우스 소프트웨어
    • Presto: 빅데이터용 분산 SQL 쿼리 엔진
  • Cloud Hadoop 서비스 구성
    • 엣지 노드: 외부 접속을 위한 게이트웨이(Gateway)용 노드
    • 마스터 노드: 작업자 노드를 모니터링하는 관리자 노드. 고가용성 지원으로 2대의 마스터 노드가 생성되며 개수 변경은 불가
    • 작업자 노드: 마스터 노드의 명령을 받아 실제 데이터 분석 등의 작업을 수행하는 노드. 최초 생성은 최소 2개, 최대 8개까지 가능하며, 그 이후에는 동적으로 노드 추가/삭제가 가능

 

*주의사항

1) 클러스터(edge,master,worker node) 생성전 object storage 필요하므로 생성해야함

2) 클러스터 생성 후 서버스펙 조정이 안된다.

3) Edge Node는 Block Storage 를 추가로 용량 지정하는 부분이 없다.

 

728x90
728x90