Data Lake House

가상 환경 이해 및 Ubuntu 환경 Pyspark 가상환경 구축

pogun 2024. 7. 9. 00:11

1) 가상 환경 이해하기

  • 가상 환경은 독립적인 파이썬 실행 환경을 의미한다.
  • 독립적인 가상 환경은 다른 환경에 영향을 미치지 않으며 각자 다른 종류와 버전의 패키지를 가질 수 있다.
  • pip로 설치한 패키지는 전역으로 설치가 되기 때문에 모든 파이썬 스크립트에서 제약 없이 사용 가능하다.
  • 예를 들어 Numpy 모듈을 설치했다면 모든 파이썬 스크립트에서 해당 모듈을 사용할 수 있다.

 

1-2) 가상 환경 사용 사용 안 할 시 문제 발생

  • 프로젝트가 하나라면 크게 문제 될 것은 없지만 여러 개일 경우 문제가 발생할 수 있다.
  • 시간이 흘러 버전 업데이트를 해야 하는 상황에서 호환성 이슈가 발생할 수 있다.
  • 업데이트를 진행하고 새로운 프로젝트를 시작해야 하는데 막히는 문제가 발생할 수 있다.

문제 해결

  • 각자 독립된 개발 환경을 제공해 주기 때문에 어떤 프로젝트는 구 버전을, 어떤 프로젝트는 최신 버전을 사용하는 식의 개발이 가능
  • 가상환경에 따라 파이썬 자체의 버전도 분리 가능
  • 작업 환경들을 프로젝트 별로 관리하고 공유도 할 수 있도록 도와주는 것이 바로 가상 환경

 

2) Ubuntu 환경 Pyspark 가상환경 구축하기

  • Delta Lake 실습
  • Ubuntu 22.04로 진행

JAVA 설치

sudo apt update
sudo apt install openjdk-17-jdk

 

JAVA 환경 변수로 등록

vi .bashrc

# bashrc 들어가서 잴 밑줄에 아래 코드 입력
JAVA_HOME='/usr/lib/jvm/java-1.17.0-openjdk-amd64'
PATH=$PATH:$JAVA_HOME/bin

 

설정되었는지 확인 및 적용

source ~/.bashrc
echo $PATH

 

가상 환경 만들기

pip install -upgrade pip
sudo apt-get install python3-venv
sudo apt install virtualenv

python3 -m venv deltalakeenv
virtualvenv deltalakeenv --python==python3.8   # 가상환경을 3.8 버전으로 바꿈(오류 뜰꺼임 굳이 안해도 될듯함)
echo 'deltalakeenv' >> .gitinore  # git에 가상환경관련 파일들이 업데이트 되지 않도록 함

 

가상 환경 들어가기

source deltalakeenv/bin/activate

 

pyspark와 deltalake 설치하기

pip3 install pyspark 
pip3 install delta-spark==2.2.0 # 등등 필요한 라이브러리 설치

 

'Data Lake House' 카테고리의 다른 글

AWS 활용 delta Lake 최적화 비교(2)  (0) 2024.10.17
AWS 활용 delta Lake 최적화 비교(1)  (0) 2024.10.16
Minio 활용 spark session 생성  (2) 2024.10.15
PySpark Test  (1) 2024.10.14
Data Lakehouse 개념  (0) 2024.08.19