Avro로 하나 까는데 2시간 삽질.........
버전업이 되서 .txt 파일을 읽어봐도 도무지 답이 없고

build.sh은 에러 났다고만 하고........


해결방법은

build.sh에서 svn으로 시작되는 부분 주석 제거......


maven 설치 http://maven.apache.org/guides/development/guide-building-m2.html


./build.sh dist


안된다면 과감히 댓글이나 이메일 주세요!

1. 분산 어플리케이션 서버를 효율적으로 구축하기 위한 방안

1) RPC(Remote Procedure Call) : 한 컴퓨터가 프로그램을 실행하기 위해 거리에 상관없이 특정 컴퓨터에 서브프로그램을 불러내는 기술을 말한다. 객체지향 개념적으로 보면 멀리 떨어진 컴퓨터에 특정 객체를 불러오는 행위를 말한다.






그림 1) RPC 개념(http://www.cs.fsu.edu/~xyuan/cop5611/lecture2.html)


 컴파일된 클라이언트 측에서 사용하는 코드를 이를 stub이라 부르고, 컴파일된 서버 측에서 사용하는 코드를 skeleton이라 부른다. 그리고 스텁이 서버에 접근하기 위해 인터페이스를 사용한다.

 - 단점 : 인터페이스 변경 시 매번 IDL을 컴파일해야 함.


2) IDL(Interface Definition Language) :  서로 다른언어로 구현된 프로그램 or 객체가 통신을 하기 위해서 통신을 할 수 있도록 지원하는 언어이다. 이 책에서는 Thrift, Avro를 다뤘다.


개념정리 : http://www.cyworld.com/uchi000/3175980


3) 데이터 타입 : 원격 메소드를 호출 시 주고 받는 데이터(파라미터, 반환값 등)가 int, char[]과 같이 대부분의 프로그래밍 언어에서 제공하는 기본 데이터 타입만을 제공하는 방식과 struct, class와 같은 사용자 정의 데이터 타입을 제공하는 방식으로 구분할 수 있다.


4) 플랫폼(언어) 의존성 : RPC 솔루션이 동일 언어만 가능한지 아닌지 고려해야 한다.


5) 결론

- 가장 이상적인 RPC 구현은 IDL이 없고 사용자 정의 데이터 타입을 자유롭게 사용하고, 다양한 프로그래밍 언어를 사용하는 것이다.  하지만 현실적으로 어려워 RPC 지원 솔루션 중 시스템 요구 사항에 적합한 솔루션을 선택하는 것이 중요하다.


2. Thrift

정의 : 다양한 언어를 지원하는 RPC 서버와 이 서버에서 제공하는 서비스를 호출하는 클라이언트 코드를 생성해주는 소프트웨어 프레임워크이다.  Thrift 개발자는 프로그래밍 언어별 소켓 서버에 대한 구현을 알 필요 없으며 RPC기반이기 때문에 함수 호출 형태로 원격 서버에서 제공하는 서비스를 호출할 수 있고, 사용자 정의 데이터 타입을 이용할 수 있다.


그림 2)  IDL개념도

http://publib.boulder.ibm.com/infocenter/cicsts/v3r1/index.jsp?topic=%2Fcom.ibm.cics.ts31.doc%2Fdfhpj%2Ftopics%2Fdfhpjfe.htm


 개발자가 작성한 IDL 파일을 Thrift에서 제공하는 코드 생성기를 이용해 코드로 생성하면 서버측 개발자와 클라이언트 측 개발자가 모두 사용할 수 있는 코드로 만들어진다. 서버 측 개발자는 생성된 코드를 이용해 Thrift에서 제공하는 서버 측 데몬 프로그램 라이브러리를 이용하여 프로그램을 만들고, 클라이언트 개발자는 생성된 코드와 Thrift에서 제공하는 라이브러리를 이용해 서버 측 프로그램을 호출하는 코드를 작성한다.



3.  thrift 예제 helloServer

- 너무 고생했다. 책에서는 0.5 버전인데 지금은 0.8버전으로 쓰려다보니 THsHaServer에서 생성자가 정의되지 않았다고 난리를 치는 바람에 구글링 한시간만에 다른코드로 대체해서 결국 돌렸다. ㅡㅡ 오랜만에 다시하는거다 보니 생소하다. 하지만 첫번째 예제 끝!


그림 3) helloServer 동작


그림 4) hellClient동작


코드설명 : 서버는 thrift에 변수 나이, 이름을 선언하고 컴파일?하여 몇 천줄의 helloService.java 파일을 만들어 주었다.(이름은 제 마음대로) 이 클래스는 소켓프로그래밍 할 수 있도록 인터페이스를 제공하게 해주었다. 그리고 thrift에서 제공한 라이브러리를 가지고 API사용하여 소켓프로그래밍을 구현했다. Client는 API사용하고 인자 4가지 호스트(루프백), 포트번호, 이름, 나이를 인자로 받아 보내는 역할을 한다.


4. 데이터 직렬화란?

- 파일의 데이터를 읽어올 때나 네트워크를 통해 전송시 스트림 형태로 전송을 하는것을 말함.(일렬로 쭈욱~~~ 나열)

  왜냐하면 외부 프로세스와 통신을 하거나 데이터를 파일로 저장하려면 직렬화를 해야하기 때문이다.


  Thrift는 RPC(Remote Procedure Call) 요청을 안정적으로 처리하면서 이기종 간 RPC호출을 지원하는 개념이고,

  Avro데이터 직렬화를 기본 개념으로 하여 RPC 호출을 이기종 간에 가능하게 하는 개념으로 접근한다.


1. 클라우드 컴퓨팅이란?

 - 수많은 클라이언트들이 장소 구애없이 필요한 시점에서 인터넷을 이용해 컴퓨터 자원(서버, 스토리지, 애플리케이션, 서비스)을 쉽게 접근할 수 있도록 하는 모델이다.(인용 하였습니다.)


2. 클라우드 컴퓨팅과 하둡(Hadoop Project)은 같다고 할 수 없다.

 - 클라우드 컴퓨팅 구축을 위한 방법중에 하나가 분산 아키텍처 기반 프레임워크인 하둡이다.


개념정리 : http://blog.naver.com/raftwood?Redirect=Log&logNo=20100448581


3. 인프라 서비스 & 플랫폼 서비스 개념 구분

 - 인프라 서비스 : 인프라만 제공하고 개발, 배포 등은 개발자나 시스템 운영자가 직접 설치, 배포하는 것을 말함.

 - 플랫폼 서비스 : 개발 환경 제공, 개발된 Application을 실행 서버에 배포하고 운영하는 것을 책임지는 서비스를 말함.


4. 구글 시스템 구성

1) 구글 파일 시스템 : 수많은 서버를 이용해 대규모의 파일을 저장할 수 있는 파일 시스템으로 가용성 및 안정성을 제공할 수 있도록 설계되어 있다.

2) 구글 맵리듀스(Map Reduce) : 분산된 수많은 노드에 대용량 데이터 처리를 수행함으로써 배치 작업, 관리하는 프레임워크이다. 주로 구글 파일시스템에 저장된 데이터를 분석한다. (Data Mining? CRM?) 이를 이용하여 분산 프로그램을 개발할 수 있다.

 예를 들어 아마존에서 고객 소비 패턴을 분석하여 정보들을 제공해주는 서비스가 있다.

3) 빅테이블(Bigtable) : 기존 관계형DB이 아닌 분산DB로 알려져있다. 고가용성을 최우선 목표로 사용자들에게 제공한다.

4) 쏘즐(Sawzall) : 맵리듀스와 비슷한 성격을 띄고, 다른점은 스크립트 기반으로, 간단한 문법을 통해 맵리듀스 프로그램을 작성할 수 있게 지원한다.

5) 처비(Chubby) : 수많은 데이터들의 동기화를 위한 시스템으로 사용된다. 또한 실제 구글 클러스터의 전체 관리와 장애 판단, 마스터 선출(서버들 중 Coordinator?) 등과 같은 분산 시스템 전체를 관리하는데 사용된다.

6) 프로토콜 버퍼 : 데이터 전송시 데이터 타입을 맞추기 위해서 표준화된 프로토콜을 이용해야 한다. 대부분 웹서비스를 이용하기 위해서 SOAP 프로토콜들을 이용하지만 프로토콜 버퍼는 구글 자체 개발한 프로토콜 표준 플랫폼을 이용한다.




그림 1) 구글 시스템 구성도


대단하다....구성도 그림만으로는 아직 어떻게 돌아가는지는 모르겠다...


5. SaaS, Paas, IaaS 예시

1) SaaS 예시

- CRM, 워드프로세스, 국내 NDrive, UCloud... 등

- 왜? NDrive랑 UCloud가 SaaS일까? 국내 일반인 대상으로 시스템 구축 목적으로 사용되는 것이 아니라 일반인을 대상으로 하는 웹서비스이기 때문이다.

2) PaaS

- 애플리케이션 실행 환경, 개발도구/환경 등을 말함. 구글에서 플랫폼 서비스를 제공하는 구글 앱엔진

3) IaaS

- 서버,스토리지,DB 등을 말함. AWS(Amazon Web Service) 중 EC3, S3 등


6. 클라우드 아키텍처 요구사항

- 탄력적 확장성 : 변화되는 환경(ex  클라이언트 요청)에 따라 기민하게 시스템을 확장, 축소할 수 있어야 함

- 고가용성 : 클라우드 서비스를 받으면서 자신의 데이터를 전혀 사용할 수 없는 경우를 최소화 시키면서 서비스를 제공해야함

- 자동화된 리소스 관리 : 수많은 클라우드 서비스 제공을 위해 리소스 관리를 자동적으로 할 수 있어야 함

- 자동 복구/치료 : 고가용성을 확보, 자동화된 리소스 관리가 되기 위해 소프트웨어 자체적으로 복구/치료를 할 수 있어야 함


1. 관계형 DBMS
- 일반적으로 DB를 말한다면 관계형 데이터 관리 시스템을 말할 것이다. 간단히 관계형 DB 속성에 대해 얘기하자.

Atomicity - 트랜잭션과 관련된 작업들이 수행되었는 유무를 보장하는 능력이고, 절대 그 중간단계에서 실행 및 실패는 없음.
Consistency - 트랜잭션이 성공하면 언제나 일관성 있게 DB 상태로 유지함.
Isolation - 트랜잭션을 수행할 때 중간에 연산작업이 끼어들지 못하게 보장함.
Durability - 성공적으로 수행된 트랜잭션은 영원히 반영되어야 함.

이 속성에 대해서 많은 분들이 은행에 ATM기를 예로 많이 든다....

2. NoSQL

1) NoSQL 배경 및 속성
- 최근 여러가지 서비스들이 등장하면서 데이터의 정합성, 견고성보다 확장성에 초점을 맞추고 확장 과정이나 장애 과정에서도 서비스를  유지할 수 있도록 하는 고가용성, 낮은 비용 등을 요구하기 때문에 새로운 DBMS가 출현하게 됐다. 이러한 DBMS를 NoSQL이라 부른다. 관계형 DBMS가 정합성이나 견고성에서 우수하다면 NoSQL은 확장성과 고가용성에 초점을 두었다고 생각하면 이해가 쉬울 것이다.


정합성 - 모든 클라이언트는 항상 동일한 데이터를 보장받음
(분산시스템)가용성 -  네트워크 장애가 발생하지 않은 노드는 모든 요청에 정해진 시간 내에 응답을 해야 함
단절내성 : 네트워크 단절 시 시스템의 속성을 유지해야 함(장애가 생겨도 어느정도 버팀!) 


2) NoSQL의 데이터 모델 분류
 데이터 모델 솔루션 
 키-값(키와 바이너리 타입의 값을 저장, 조회시 키로만 함) memcached, Dynamo, Volemort, Tokyo Cabinet, Redis 
 칼럼(관계형 DBMS와 비슷) Google Bigtable, Cloudata, HBase, Hypertable, Cassandra 
 문서(데이터의 저장 단위가 문서) MongoDB, CouchDB 
 그래프 Neo4j, FlockDB, InfiniteGraph 

3) Google Bigtable, Cloudata 개념들

(1) Bigtable

 - 모든 데이터는 로우 키, 칼럼 키, 타임스탬프로 정렬 되어있고, 값에는 바이트 배열을 저장할 수 있다.
 - 주요 엘리먼트는 Row, Column Family, TImestamp 등이 있다.
 - 빅테이블은 하나의 아주 큰 테이블을 로우 키의 영역을 이용해 파티셔닝(나눔)하며, 파티셔닝된 단위를 테블릿(Tablet)이라 부른다.
   이 테블릿은 특정 서버에서 수행되며 특정 서버는 수 천개의 테블릿을 서비스함.
 - 파티셔닝 범위, 서비스 서버 등과 같은 파티셔닝에 대한 정보(쉽게 메타데이터와 같은 놈)는 하나의 루트 테블릿과 다수 메타 테블        릿에 저장됨.

 ※ 특정 로우 키를 서비스하는 사용자 테이블의 테블릿과 테블릿 서버를 찾기 위해 처비 -> 루트 테블릿 -> 메타 테블릿으로 찾음.
     (한마디로 조회할 때 메타데이터와 같이 수행하는 것을 이용해서 데이터를 찾는다! 이와같이 수행하는 것이 루트·메타 테블릿이다)
 
 - 하나의 빅테이블 클러스터는 하나의 마스터 서버와 다수의 테블릿 서버로 구성됨.
 마스터 서버 : 마스터 서버는 메타정보나 클러스터 관리에 대한 정보를 갖고 있지 않기 때문에 장애가 발생해도 데이터 서비스는 영향을 받지 않는다. 마스터 서버는 테블릿 할당, 추가/제거되는 것을 감지하고, 부하분산과 구글 파일 시스템에 저장된 파일에 대한 가비지 컬렉션을 수행한다.

 - 테블릿 서버 : 테블릿 관리 및 Client로부터 데이터 읽기/쓰기 요청을 받아 처리함. 하나의 테블릿의 크기는 100~200MB 이다.

빅테이블 시스템 구성도
http://julingks.files.wordpress.com/2011/02/bigtable_architecture.jpg

 - 구글 파일 시스템은 역시 파일의 랜덤쓰기 기능을 제공하지 않아 메모리 기반, 디스크 기반 데이터 관리 시스템의 속성을 가지고 있다. 빅테이블의 쓰기 연산은 데이터 파일을 직접 수정하지 않고 메모리에만 쓰기 연산의 내용을 기록한 후 메모리가 임계치에 도달하면 내용을 파일 시스템에 저장한다. 이러한 과정을 Minor Compaction이라 함.

☆ - 빅테이블에 저장된 데이터에 대해 대규모의 분석 작업이 필요할 경우엔 맵리듀스 플랫폼을 이용한다.
    - 분산 락 서비스를 제공하는 처비는 여러 서비스를 수행하는 동안 여러 마스터 서버가 동시에 실행 중일 때 유효한 마스터 서버를 선       출, 장애 상황 발생을 감시하는 등에 사용됨.

Cloudata

- 국내에서 개발한 분산 데이터 관리 시스템으로 빅테이블의 개념을 많이 도입함.(공부하다보니 빅테이블과 거의 유사)
- 시스템 구성으로는 마스터 서버, 테블릿 서버, 커밋 로그 서버, 클라이언트 API 등 4개의 내부 컴포넌트로 구성됨.
 
클라우데이터 시스템 구성도
http://www.cloudata.org/components.html 

 
 마스터 서버 : 데이터 분산 역할을 수행. 하나의 큰 테이블을 테블릿이라는 여러 개의 조각으로 나눠 분산하고 있고, 이 테블릿을 테블릿 서버에 할당하는 역할을 수행함. 하지만 클라우데이터 클러스트는 여러 마스터 서버를 가질 수 있지만 마스터 기능을 수행하는 서버는 하나다. 그외 역할은 빅테이블에 있는 마스터서버와 비슷함.

 테블릿 서버 :  주요 기능은 데이터 서비스와 테블릿 관리이다. 주키퍼에 서버 목록을 관리하는 디렉토리에 테블릿 서버의 호스트명을 이용해 노드를 생성 후 마스터 서버는 주키퍼의 서버 목록 디렉토리에 노드가 추가/삭제 상태를 모니터링하여 판단함. 테블릿 서버에  네트워크 단절되거나 장애 발생시 주키퍼와 세션을 끊어버려 하나 이상의 테블릿 서버에서 동일한 테블릿을 서비스하는 것을 방지함. 
 테블릿 서버는 메모리 기반 테블릿과 디스크 기반 테블릿 두 종류의 테블릿을 관리한다. 테블릿 할당 시 해당 테블릿의 커밋 로그 파일을 읽어 테블릿을 구성하고, 디스크 기반 테블릿의 인덱스 파일을 읽어 인덱스 정보를 메모리에 구성. 
 여기서 커밋 로그는  테블릿 서버가 파일 시스템으로 데이터를 저장하기 전에 커밋 로그에 저장하여 장애가 발생해도 데이터의 유실되는 것을 방지할 수 있다.
1. Common : 하둡에서 공통으로 사용하는 기능을 분리해 Common이라는 프로젝트로 분리
2. HDFS(Hadoop Distributed File System) : 많은 접속처리를 지원하는 파일시스템. 하둡의 분산 파일 시스템을 맵리듀스 프레임워크와 분리해 하둡을 파일 시스템만으로만 사용할 수 있도록 함.
3. MapReduce : 대용량 데이터를 병렬로 처리하기 위한 소프트웨어 프레임워크. 하둡의 분산 처리 프레임워크를 파일 시스템과 분리해 다른 분산파일 시스템을 손쉽게 사용할 수 있도록 함.
4. HBase : HDFS의 데이터 파일을 저장, 관리 시스템


http://blog.naver.com/cookatrice/50107891107




+ Recent posts