1. 클라우드 컴퓨팅이란?

 - 수많은 클라이언트들이 장소 구애없이 필요한 시점에서 인터넷을 이용해 컴퓨터 자원(서버, 스토리지, 애플리케이션, 서비스)을 쉽게 접근할 수 있도록 하는 모델이다.(인용 하였습니다.)


2. 클라우드 컴퓨팅과 하둡(Hadoop Project)은 같다고 할 수 없다.

 - 클라우드 컴퓨팅 구축을 위한 방법중에 하나가 분산 아키텍처 기반 프레임워크인 하둡이다.


개념정리 : http://blog.naver.com/raftwood?Redirect=Log&logNo=20100448581


3. 인프라 서비스 & 플랫폼 서비스 개념 구분

 - 인프라 서비스 : 인프라만 제공하고 개발, 배포 등은 개발자나 시스템 운영자가 직접 설치, 배포하는 것을 말함.

 - 플랫폼 서비스 : 개발 환경 제공, 개발된 Application을 실행 서버에 배포하고 운영하는 것을 책임지는 서비스를 말함.


4. 구글 시스템 구성

1) 구글 파일 시스템 : 수많은 서버를 이용해 대규모의 파일을 저장할 수 있는 파일 시스템으로 가용성 및 안정성을 제공할 수 있도록 설계되어 있다.

2) 구글 맵리듀스(Map Reduce) : 분산된 수많은 노드에 대용량 데이터 처리를 수행함으로써 배치 작업, 관리하는 프레임워크이다. 주로 구글 파일시스템에 저장된 데이터를 분석한다. (Data Mining? CRM?) 이를 이용하여 분산 프로그램을 개발할 수 있다.

 예를 들어 아마존에서 고객 소비 패턴을 분석하여 정보들을 제공해주는 서비스가 있다.

3) 빅테이블(Bigtable) : 기존 관계형DB이 아닌 분산DB로 알려져있다. 고가용성을 최우선 목표로 사용자들에게 제공한다.

4) 쏘즐(Sawzall) : 맵리듀스와 비슷한 성격을 띄고, 다른점은 스크립트 기반으로, 간단한 문법을 통해 맵리듀스 프로그램을 작성할 수 있게 지원한다.

5) 처비(Chubby) : 수많은 데이터들의 동기화를 위한 시스템으로 사용된다. 또한 실제 구글 클러스터의 전체 관리와 장애 판단, 마스터 선출(서버들 중 Coordinator?) 등과 같은 분산 시스템 전체를 관리하는데 사용된다.

6) 프로토콜 버퍼 : 데이터 전송시 데이터 타입을 맞추기 위해서 표준화된 프로토콜을 이용해야 한다. 대부분 웹서비스를 이용하기 위해서 SOAP 프로토콜들을 이용하지만 프로토콜 버퍼는 구글 자체 개발한 프로토콜 표준 플랫폼을 이용한다.




그림 1) 구글 시스템 구성도


대단하다....구성도 그림만으로는 아직 어떻게 돌아가는지는 모르겠다...


5. SaaS, Paas, IaaS 예시

1) SaaS 예시

- CRM, 워드프로세스, 국내 NDrive, UCloud... 등

- 왜? NDrive랑 UCloud가 SaaS일까? 국내 일반인 대상으로 시스템 구축 목적으로 사용되는 것이 아니라 일반인을 대상으로 하는 웹서비스이기 때문이다.

2) PaaS

- 애플리케이션 실행 환경, 개발도구/환경 등을 말함. 구글에서 플랫폼 서비스를 제공하는 구글 앱엔진

3) IaaS

- 서버,스토리지,DB 등을 말함. AWS(Amazon Web Service) 중 EC3, S3 등


6. 클라우드 아키텍처 요구사항

- 탄력적 확장성 : 변화되는 환경(ex  클라이언트 요청)에 따라 기민하게 시스템을 확장, 축소할 수 있어야 함

- 고가용성 : 클라우드 서비스를 받으면서 자신의 데이터를 전혀 사용할 수 없는 경우를 최소화 시키면서 서비스를 제공해야함

- 자동화된 리소스 관리 : 수많은 클라우드 서비스 제공을 위해 리소스 관리를 자동적으로 할 수 있어야 함

- 자동 복구/치료 : 고가용성을 확보, 자동화된 리소스 관리가 되기 위해 소프트웨어 자체적으로 복구/치료를 할 수 있어야 함


1. 관계형 DBMS
- 일반적으로 DB를 말한다면 관계형 데이터 관리 시스템을 말할 것이다. 간단히 관계형 DB 속성에 대해 얘기하자.

Atomicity - 트랜잭션과 관련된 작업들이 수행되었는 유무를 보장하는 능력이고, 절대 그 중간단계에서 실행 및 실패는 없음.
Consistency - 트랜잭션이 성공하면 언제나 일관성 있게 DB 상태로 유지함.
Isolation - 트랜잭션을 수행할 때 중간에 연산작업이 끼어들지 못하게 보장함.
Durability - 성공적으로 수행된 트랜잭션은 영원히 반영되어야 함.

이 속성에 대해서 많은 분들이 은행에 ATM기를 예로 많이 든다....

2. NoSQL

1) NoSQL 배경 및 속성
- 최근 여러가지 서비스들이 등장하면서 데이터의 정합성, 견고성보다 확장성에 초점을 맞추고 확장 과정이나 장애 과정에서도 서비스를  유지할 수 있도록 하는 고가용성, 낮은 비용 등을 요구하기 때문에 새로운 DBMS가 출현하게 됐다. 이러한 DBMS를 NoSQL이라 부른다. 관계형 DBMS가 정합성이나 견고성에서 우수하다면 NoSQL은 확장성과 고가용성에 초점을 두었다고 생각하면 이해가 쉬울 것이다.


정합성 - 모든 클라이언트는 항상 동일한 데이터를 보장받음
(분산시스템)가용성 -  네트워크 장애가 발생하지 않은 노드는 모든 요청에 정해진 시간 내에 응답을 해야 함
단절내성 : 네트워크 단절 시 시스템의 속성을 유지해야 함(장애가 생겨도 어느정도 버팀!) 


2) NoSQL의 데이터 모델 분류
 데이터 모델 솔루션 
 키-값(키와 바이너리 타입의 값을 저장, 조회시 키로만 함) memcached, Dynamo, Volemort, Tokyo Cabinet, Redis 
 칼럼(관계형 DBMS와 비슷) Google Bigtable, Cloudata, HBase, Hypertable, Cassandra 
 문서(데이터의 저장 단위가 문서) MongoDB, CouchDB 
 그래프 Neo4j, FlockDB, InfiniteGraph 

3) Google Bigtable, Cloudata 개념들

(1) Bigtable

 - 모든 데이터는 로우 키, 칼럼 키, 타임스탬프로 정렬 되어있고, 값에는 바이트 배열을 저장할 수 있다.
 - 주요 엘리먼트는 Row, Column Family, TImestamp 등이 있다.
 - 빅테이블은 하나의 아주 큰 테이블을 로우 키의 영역을 이용해 파티셔닝(나눔)하며, 파티셔닝된 단위를 테블릿(Tablet)이라 부른다.
   이 테블릿은 특정 서버에서 수행되며 특정 서버는 수 천개의 테블릿을 서비스함.
 - 파티셔닝 범위, 서비스 서버 등과 같은 파티셔닝에 대한 정보(쉽게 메타데이터와 같은 놈)는 하나의 루트 테블릿과 다수 메타 테블        릿에 저장됨.

 ※ 특정 로우 키를 서비스하는 사용자 테이블의 테블릿과 테블릿 서버를 찾기 위해 처비 -> 루트 테블릿 -> 메타 테블릿으로 찾음.
     (한마디로 조회할 때 메타데이터와 같이 수행하는 것을 이용해서 데이터를 찾는다! 이와같이 수행하는 것이 루트·메타 테블릿이다)
 
 - 하나의 빅테이블 클러스터는 하나의 마스터 서버와 다수의 테블릿 서버로 구성됨.
 마스터 서버 : 마스터 서버는 메타정보나 클러스터 관리에 대한 정보를 갖고 있지 않기 때문에 장애가 발생해도 데이터 서비스는 영향을 받지 않는다. 마스터 서버는 테블릿 할당, 추가/제거되는 것을 감지하고, 부하분산과 구글 파일 시스템에 저장된 파일에 대한 가비지 컬렉션을 수행한다.

 - 테블릿 서버 : 테블릿 관리 및 Client로부터 데이터 읽기/쓰기 요청을 받아 처리함. 하나의 테블릿의 크기는 100~200MB 이다.

빅테이블 시스템 구성도
http://julingks.files.wordpress.com/2011/02/bigtable_architecture.jpg

 - 구글 파일 시스템은 역시 파일의 랜덤쓰기 기능을 제공하지 않아 메모리 기반, 디스크 기반 데이터 관리 시스템의 속성을 가지고 있다. 빅테이블의 쓰기 연산은 데이터 파일을 직접 수정하지 않고 메모리에만 쓰기 연산의 내용을 기록한 후 메모리가 임계치에 도달하면 내용을 파일 시스템에 저장한다. 이러한 과정을 Minor Compaction이라 함.

☆ - 빅테이블에 저장된 데이터에 대해 대규모의 분석 작업이 필요할 경우엔 맵리듀스 플랫폼을 이용한다.
    - 분산 락 서비스를 제공하는 처비는 여러 서비스를 수행하는 동안 여러 마스터 서버가 동시에 실행 중일 때 유효한 마스터 서버를 선       출, 장애 상황 발생을 감시하는 등에 사용됨.

Cloudata

- 국내에서 개발한 분산 데이터 관리 시스템으로 빅테이블의 개념을 많이 도입함.(공부하다보니 빅테이블과 거의 유사)
- 시스템 구성으로는 마스터 서버, 테블릿 서버, 커밋 로그 서버, 클라이언트 API 등 4개의 내부 컴포넌트로 구성됨.
 
클라우데이터 시스템 구성도
http://www.cloudata.org/components.html 

 
 마스터 서버 : 데이터 분산 역할을 수행. 하나의 큰 테이블을 테블릿이라는 여러 개의 조각으로 나눠 분산하고 있고, 이 테블릿을 테블릿 서버에 할당하는 역할을 수행함. 하지만 클라우데이터 클러스트는 여러 마스터 서버를 가질 수 있지만 마스터 기능을 수행하는 서버는 하나다. 그외 역할은 빅테이블에 있는 마스터서버와 비슷함.

 테블릿 서버 :  주요 기능은 데이터 서비스와 테블릿 관리이다. 주키퍼에 서버 목록을 관리하는 디렉토리에 테블릿 서버의 호스트명을 이용해 노드를 생성 후 마스터 서버는 주키퍼의 서버 목록 디렉토리에 노드가 추가/삭제 상태를 모니터링하여 판단함. 테블릿 서버에  네트워크 단절되거나 장애 발생시 주키퍼와 세션을 끊어버려 하나 이상의 테블릿 서버에서 동일한 테블릿을 서비스하는 것을 방지함. 
 테블릿 서버는 메모리 기반 테블릿과 디스크 기반 테블릿 두 종류의 테블릿을 관리한다. 테블릿 할당 시 해당 테블릿의 커밋 로그 파일을 읽어 테블릿을 구성하고, 디스크 기반 테블릿의 인덱스 파일을 읽어 인덱스 정보를 메모리에 구성. 
 여기서 커밋 로그는  테블릿 서버가 파일 시스템으로 데이터를 저장하기 전에 커밋 로그에 저장하여 장애가 발생해도 데이터의 유실되는 것을 방지할 수 있다.
1. Common : 하둡에서 공통으로 사용하는 기능을 분리해 Common이라는 프로젝트로 분리
2. HDFS(Hadoop Distributed File System) : 많은 접속처리를 지원하는 파일시스템. 하둡의 분산 파일 시스템을 맵리듀스 프레임워크와 분리해 하둡을 파일 시스템만으로만 사용할 수 있도록 함.
3. MapReduce : 대용량 데이터를 병렬로 처리하기 위한 소프트웨어 프레임워크. 하둡의 분산 처리 프레임워크를 파일 시스템과 분리해 다른 분산파일 시스템을 손쉽게 사용할 수 있도록 함.
4. HBase : HDFS의 데이터 파일을 저장, 관리 시스템


http://blog.naver.com/cookatrice/50107891107




Hadoop MapReduce - 대용량 데이터를 병렬로 처리하기 위한 소프트웨어 프레임워크이다. 또한 많은 저가 장비로 수많은 용량 이상의 데이터를 처리하는 프로그래밍 모델이다. 구글에서도 이와 비슷한 MapReduce Framework를 가지고 있고 Hadoop MapReduce는 구글의 MapReduce Framework 논문을 바탕으로 만들어졌음.


장점 : 최초 입력이 여러곳에 있다면 서로 다른 서버에서 수행하게 되어 시간 단축 및 성능 향상을 보일 수 있음.
단점 : JobTracker SPOF(Single Point Of Failure)

1. 입력파일을 라인 단위로 맵 함수에 전달
2. 맵 함수의 출력 결과를 정렬/병합
3. 정렬/병합된 결과를 리듀스 함수에 전달
4. 맵 함수를 분산된 서버에서 수행
5. 분산 처리된 맵 결과를 리듀스가 수행될 서버로 전송

하둡 맵리듀스 시스템은 JobTracker, TaskTracker, Client Library로 구성됨.

JobTracker - 전체 작업을 관리하는 기능을 수행하는 서버다. TaskTracker와 heartbeat를 주고 받으면서 TaskTracker 이 메시지 반환 값에 작업의 ID를 반환한다. 주로 네임노드가 실행되는 서버에서 실행됨. TaskTracker가 장애 발생 및 새로운 TaskTracker 추가 시엔 자동으로   인식하여 클러스터에 추가, 삭제 작업을 수행함.

TaskTracker - 사용자가 요청한 작업을 실행함. 주로 데이터 노드에서 실행되는 서버에서 실행됨. JobTracker로부터 받은 작업 ID로 해당 작업과 관련된 정보를 하둡 파일 시스템에서 가져오고 수행할 프로그램도 가져와 로컬에 저장한다. 수행환경이 설정되면 fork 명령을 통해 프로세스를 할당하여 사용자의 작업 중 특정 맵이나 리듀스 태스크를 실행! 이 시기에 TaskTracker와 Task사이엔 네트워크 채널이 열리고 이 진행상황을 모니터링함.

Client Library - 사용자가 다양한 입력 형태와 분산 처리를 사용할 수 있는 메카니즘 제공, 사용자가 만든 프로그램을 JobTracker로 작업하도록 요청하고 작업 결과를 모니터링 할 수 있는 API 제공함.


아직 개념은 부족하지만 이 output을 통해서 얻은게 많다.

설정파일의 설정과 Client 라이브러리 추가 등 에러 잡느라 너무 힘들었다.

다시 개념으로....

+ Recent posts