DataHub

The Metadata Platform for the Modern Data Stack

circle-info

LinkedIn's generalized metadata search & discovery tool.

Quickstart 로 Datahub 를 구성하는 경우

Datahub 는 Docker 환경에서 실행되므로 Docker 가 미리 설치되어 있어야 합니다.

Datahub CLI 설치

설치 및 실행 환경에 따라 다를 수 있으나 정상적으로 버전 정보가 출력되는 것을 확인 가능합니다.

로컬 환경에서 Datahub 인스턴스 실행

앞서 설치한 datahub 명령어를 사용하여 DataHub 인스턴스를 로컬 환경에 구성합니다.

Quickstart 로 구성되는 Datahub 설정 변경

Datahub 배포는 아래와 같이 docker-compose 를 사용하고 있음을 공식 문서에서 확인할 수 있습니다.

circle-info

This will deploy a DataHub instance using docker-composearrow-up-right. If you are curious, the docker-compose.yaml file is downloaded to your home directory under the .datahub/quickstart/ directory.

datahub CLI 설치가 완료되면 위 경로에 있는 docker-compose.yaml 파일이 존재하게되며, Datahub 구성 요소들에 대한 설정 값들이 포함되어 있습니다. 해당 파일을 수정한 뒤 quickstart 명령어를 실행하는 방식으로 설정을 변경할 수도 있겠지만, 가능하면 공식 문서에서 제공하는 방법을 사용하는 것이 좋습니다.

웹 대시보드 9002 포트를 변경하는 방법

datahub docker quickstart 명령어 중 몇 가지 컨테이너는 포트를 쉽게 변경할 수 있도록 지원하고 있지만 웹 대시보드의 포트 옵션은 없습니다. docker-compose.yml 파일을 일부 수정하여 새로 배포하면 쉽게 변경하실 수 있습니다. 아래와 같이 datahub-frontend-react 설정 yaml 에서 포트 정보를 수정합니다.

  • 9002 --> 8895

만약 Datahub 가 이미 docker 환경에 구성되어 있다면 다음 명령어를 사용하여 컨테이너를 비활성화 합니다.

수정된 yml 파일로 quickstart 를 진행합니다.

포트를 확인해봅니다.

  • 0.0.0.0:8895->9002/tcp

Port 충돌 처리

공식 문서에 따르면 quickstart 버전의 datahub 는 아래 포트를 기본 값으로 사용한다고 합니다.

  • 3306 for MySQL

  • 9200 for Elasticsearch

  • 9092 for the Kafka broker

  • 8081 for Schema Registry

  • 2181 for ZooKeeper

  • 9002 for the DataHub Web Application (datahub-frontend)

  • 8080 for the DataHub Metadata Service (datahub-gms)

만약 quickstart 설정 단계에서 위 컨테이너들의 포트를 변경하고자 할 경우 다음과 같이 flag 를 전달하여 지정하는 방식을 사용할 수 있습니다.

datahub docker quickstart 명령어 help 문서를 참고바랍니다.

Stopping DataHub

To stop DataHub's quickstart, you can issue the following command.

Customization

If you would like to customize the DataHub installation further, please download the docker-compose.yamlarrow-up-right used by the cli tool, modify it as necessary and deploy DataHub by passing the downloaded docker-compose file:

함께 읽어보면 좋은 자료

쏘카에서 Docker 환경이 아닌 K8S 환경에서 Datahub 를 사용한 데이터 카탈로그 어플리케이션을 구성한 내용을 소개하고 있습니다.

뱅크 샐러드에서 Data Discovery Platform 으로 Datahub 를 사용하게된 내용을 소개하고 있습니다.

Last updated