1. 관계형 DBMS
- 일반적으로 DB를 말한다면 관계형 데이터 관리 시스템을 말할 것이다. 간단히 관계형 DB 속성에 대해 얘기하자.

Atomicity - 트랜잭션과 관련된 작업들이 수행되었는 유무를 보장하는 능력이고, 절대 그 중간단계에서 실행 및 실패는 없음.
Consistency - 트랜잭션이 성공하면 언제나 일관성 있게 DB 상태로 유지함.
Isolation - 트랜잭션을 수행할 때 중간에 연산작업이 끼어들지 못하게 보장함.
Durability - 성공적으로 수행된 트랜잭션은 영원히 반영되어야 함.

이 속성에 대해서 많은 분들이 은행에 ATM기를 예로 많이 든다....

2. NoSQL

1) NoSQL 배경 및 속성
- 최근 여러가지 서비스들이 등장하면서 데이터의 정합성, 견고성보다 확장성에 초점을 맞추고 확장 과정이나 장애 과정에서도 서비스를  유지할 수 있도록 하는 고가용성, 낮은 비용 등을 요구하기 때문에 새로운 DBMS가 출현하게 됐다. 이러한 DBMS를 NoSQL이라 부른다. 관계형 DBMS가 정합성이나 견고성에서 우수하다면 NoSQL은 확장성과 고가용성에 초점을 두었다고 생각하면 이해가 쉬울 것이다.


정합성 - 모든 클라이언트는 항상 동일한 데이터를 보장받음
(분산시스템)가용성 -  네트워크 장애가 발생하지 않은 노드는 모든 요청에 정해진 시간 내에 응답을 해야 함
단절내성 : 네트워크 단절 시 시스템의 속성을 유지해야 함(장애가 생겨도 어느정도 버팀!) 


2) NoSQL의 데이터 모델 분류
 데이터 모델 솔루션 
 키-값(키와 바이너리 타입의 값을 저장, 조회시 키로만 함) memcached, Dynamo, Volemort, Tokyo Cabinet, Redis 
 칼럼(관계형 DBMS와 비슷) Google Bigtable, Cloudata, HBase, Hypertable, Cassandra 
 문서(데이터의 저장 단위가 문서) MongoDB, CouchDB 
 그래프 Neo4j, FlockDB, InfiniteGraph 

3) Google Bigtable, Cloudata 개념들

(1) Bigtable

 - 모든 데이터는 로우 키, 칼럼 키, 타임스탬프로 정렬 되어있고, 값에는 바이트 배열을 저장할 수 있다.
 - 주요 엘리먼트는 Row, Column Family, TImestamp 등이 있다.
 - 빅테이블은 하나의 아주 큰 테이블을 로우 키의 영역을 이용해 파티셔닝(나눔)하며, 파티셔닝된 단위를 테블릿(Tablet)이라 부른다.
   이 테블릿은 특정 서버에서 수행되며 특정 서버는 수 천개의 테블릿을 서비스함.
 - 파티셔닝 범위, 서비스 서버 등과 같은 파티셔닝에 대한 정보(쉽게 메타데이터와 같은 놈)는 하나의 루트 테블릿과 다수 메타 테블        릿에 저장됨.

 ※ 특정 로우 키를 서비스하는 사용자 테이블의 테블릿과 테블릿 서버를 찾기 위해 처비 -> 루트 테블릿 -> 메타 테블릿으로 찾음.
     (한마디로 조회할 때 메타데이터와 같이 수행하는 것을 이용해서 데이터를 찾는다! 이와같이 수행하는 것이 루트·메타 테블릿이다)
 
 - 하나의 빅테이블 클러스터는 하나의 마스터 서버와 다수의 테블릿 서버로 구성됨.
 마스터 서버 : 마스터 서버는 메타정보나 클러스터 관리에 대한 정보를 갖고 있지 않기 때문에 장애가 발생해도 데이터 서비스는 영향을 받지 않는다. 마스터 서버는 테블릿 할당, 추가/제거되는 것을 감지하고, 부하분산과 구글 파일 시스템에 저장된 파일에 대한 가비지 컬렉션을 수행한다.

 - 테블릿 서버 : 테블릿 관리 및 Client로부터 데이터 읽기/쓰기 요청을 받아 처리함. 하나의 테블릿의 크기는 100~200MB 이다.

빅테이블 시스템 구성도
http://julingks.files.wordpress.com/2011/02/bigtable_architecture.jpg

 - 구글 파일 시스템은 역시 파일의 랜덤쓰기 기능을 제공하지 않아 메모리 기반, 디스크 기반 데이터 관리 시스템의 속성을 가지고 있다. 빅테이블의 쓰기 연산은 데이터 파일을 직접 수정하지 않고 메모리에만 쓰기 연산의 내용을 기록한 후 메모리가 임계치에 도달하면 내용을 파일 시스템에 저장한다. 이러한 과정을 Minor Compaction이라 함.

☆ - 빅테이블에 저장된 데이터에 대해 대규모의 분석 작업이 필요할 경우엔 맵리듀스 플랫폼을 이용한다.
    - 분산 락 서비스를 제공하는 처비는 여러 서비스를 수행하는 동안 여러 마스터 서버가 동시에 실행 중일 때 유효한 마스터 서버를 선       출, 장애 상황 발생을 감시하는 등에 사용됨.

Cloudata

- 국내에서 개발한 분산 데이터 관리 시스템으로 빅테이블의 개념을 많이 도입함.(공부하다보니 빅테이블과 거의 유사)
- 시스템 구성으로는 마스터 서버, 테블릿 서버, 커밋 로그 서버, 클라이언트 API 등 4개의 내부 컴포넌트로 구성됨.
 
클라우데이터 시스템 구성도
http://www.cloudata.org/components.html 

 
 마스터 서버 : 데이터 분산 역할을 수행. 하나의 큰 테이블을 테블릿이라는 여러 개의 조각으로 나눠 분산하고 있고, 이 테블릿을 테블릿 서버에 할당하는 역할을 수행함. 하지만 클라우데이터 클러스트는 여러 마스터 서버를 가질 수 있지만 마스터 기능을 수행하는 서버는 하나다. 그외 역할은 빅테이블에 있는 마스터서버와 비슷함.

 테블릿 서버 :  주요 기능은 데이터 서비스와 테블릿 관리이다. 주키퍼에 서버 목록을 관리하는 디렉토리에 테블릿 서버의 호스트명을 이용해 노드를 생성 후 마스터 서버는 주키퍼의 서버 목록 디렉토리에 노드가 추가/삭제 상태를 모니터링하여 판단함. 테블릿 서버에  네트워크 단절되거나 장애 발생시 주키퍼와 세션을 끊어버려 하나 이상의 테블릿 서버에서 동일한 테블릿을 서비스하는 것을 방지함. 
 테블릿 서버는 메모리 기반 테블릿과 디스크 기반 테블릿 두 종류의 테블릿을 관리한다. 테블릿 할당 시 해당 테블릿의 커밋 로그 파일을 읽어 테블릿을 구성하고, 디스크 기반 테블릿의 인덱스 파일을 읽어 인덱스 정보를 메모리에 구성. 
 여기서 커밋 로그는  테블릿 서버가 파일 시스템으로 데이터를 저장하기 전에 커밋 로그에 저장하여 장애가 발생해도 데이터의 유실되는 것을 방지할 수 있다.

+ Recent posts