Data Lake House 6

Data Lakehouse 개념

데이터 레이크하우스- 데이터 레이크의 유연성 및 확장성 그리고 데이터 웨어하우스의 유사한 데이터 구조 및 데이터 관리 기능을 결합한 새로운 개방형 아키텍처- 이러한 기능의 조합 덕분에 데이터 과학 팀에서 여러 시스템에 액세스할 필요 없이 민첩하게 데이터를 사용가능- 데이터 레이크하우스는 데이터 과학자가 완벽한 최신 상태의 데이터를 이용하도록 보장데이터 레이크- 엔터프라이즈의 모든 데이터 소스에서 얻은 모든 유형의 원시 데이터, 구조화된 데이터, 구조화되지 않은 데이터를 적절한 규모의 기본 형식으로 저장- 데이터는 원래 상태로 데이터 레이크에 추가되므로 이미 시스템에 있는 다른 데이터에 맞추기 위해 새로운 데이터 형식으로 변경되지 않음- 데이터 레이크는 AI 및 ML 시스템과 빅데이터 분석에 데이터를 이용..

Data Lake House 2024.08.19

가상 환경 이해 및 Ubuntu 환경 Pyspark 가상환경 구축

1) 가상 환경 이해하기가상 환경은 독립적인 파이썬 실행 환경을 의미한다.독립적인 가상 환경은 다른 환경에 영향을 미치지 않으며 각자 다른 종류와 버전의 패키지를 가질 수 있다.pip로 설치한 패키지는 전역으로 설치가 되기 때문에 모든 파이썬 스크립트에서 제약 없이 사용 가능하다.예를 들어 Numpy 모듈을 설치했다면 모든 파이썬 스크립트에서 해당 모듈을 사용할 수 있다. 1-2) 가상 환경 사용 사용 안 할 시 문제 발생 프로젝트가 하나라면 크게 문제 될 것은 없지만 여러 개일 경우 문제가 발생할 수 있다.시간이 흘러 버전 업데이트를 해야 하는 상황에서 호환성 이슈가 발생할 수 있다.업데이트를 진행하고 새로운 프로젝트를 시작해야 하는데 막히는 문제가 발생할 수 있다.문제 해결각자 독립된 개발 환경을 제..

Data Lake House 2024.07.09