1) 가상 환경 이해하기
- 가상 환경은 독립적인 파이썬 실행 환경을 의미한다.
- 독립적인 가상 환경은 다른 환경에 영향을 미치지 않으며 각자 다른 종류와 버전의 패키지를 가질 수 있다.
- pip로 설치한 패키지는 전역으로 설치가 되기 때문에 모든 파이썬 스크립트에서 제약 없이 사용 가능하다.
- 예를 들어 Numpy 모듈을 설치했다면 모든 파이썬 스크립트에서 해당 모듈을 사용할 수 있다.
1-2) 가상 환경 사용 사용 안 할 시 문제 발생
- 프로젝트가 하나라면 크게 문제 될 것은 없지만 여러 개일 경우 문제가 발생할 수 있다.
- 시간이 흘러 버전 업데이트를 해야 하는 상황에서 호환성 이슈가 발생할 수 있다.
- 업데이트를 진행하고 새로운 프로젝트를 시작해야 하는데 막히는 문제가 발생할 수 있다.
문제 해결
- 각자 독립된 개발 환경을 제공해 주기 때문에 어떤 프로젝트는 구 버전을, 어떤 프로젝트는 최신 버전을 사용하는 식의 개발이 가능
- 가상환경에 따라 파이썬 자체의 버전도 분리 가능
- 작업 환경들을 프로젝트 별로 관리하고 공유도 할 수 있도록 도와주는 것이 바로 가상 환경
2) Ubuntu 환경 Pyspark 가상환경 구축하기
- Delta Lake 실습
- Ubuntu 22.04로 진행
JAVA 설치
sudo apt update
sudo apt install openjdk-17-jdk
JAVA 환경 변수로 등록
vi .bashrc
# bashrc 들어가서 잴 밑줄에 아래 코드 입력
JAVA_HOME='/usr/lib/jvm/java-1.17.0-openjdk-amd64'
PATH=$PATH:$JAVA_HOME/bin
설정되었는지 확인 및 적용
source ~/.bashrc
echo $PATH
가상 환경 만들기
pip install -upgrade pip
sudo apt-get install python3-venv
sudo apt install virtualenv
python3 -m venv deltalakeenv
virtualvenv deltalakeenv --python==python3.8 # 가상환경을 3.8 버전으로 바꿈(오류 뜰꺼임 굳이 안해도 될듯함)
echo 'deltalakeenv' >> .gitinore # git에 가상환경관련 파일들이 업데이트 되지 않도록 함
가상 환경 들어가기
source deltalakeenv/bin/activate
pyspark와 deltalake 설치하기
pip3 install pyspark
pip3 install delta-spark==2.2.0 # 등등 필요한 라이브러리 설치
'Data Lake House' 카테고리의 다른 글
AWS 활용 delta Lake 최적화 비교(2) (0) | 2024.10.17 |
---|---|
AWS 활용 delta Lake 최적화 비교(1) (0) | 2024.10.16 |
Minio 활용 spark session 생성 (2) | 2024.10.15 |
PySpark Test (1) | 2024.10.14 |
Data Lakehouse 개념 (0) | 2024.08.19 |