728x90
- 데이터 추출하고 불러오기 from github
parents: True 옵션 :
True 인 경우 상위 path가 없는 경우 새로 생성함, Flase인 경우 상위 path가 없으면 FileNotFountError를 발생함
exist_ok = True 옵션 :
해당 디렉토리가 기존에 존재하면 에러발생 없이 넘어가고, 없을 경우에만 생성합니다.
In [27]:
from pathlib import Path
import pandas as pd
import tarfile
import urllib.request
def load_housing_data():
tarball_path = Path("datasets/housing.tgz")
# 파일 여부 확인 및 생성
if not tarball_path.is_file():
Path("datasets").mkdir(parents=True, exist_ok=True)
# 다운로드
url = "https://github.com/ageron/data/raw/main/housing.tgz"
urllib.request.urlretrieve(url, tarball_path)
# 압축풀기
with tarfile.open(tarball_path) as housing_tarball:
housing_tarball.extractall(path="datasets")
return pd.read_csv(Path("datasets/housing/housing.csv"))
housing = load_housing_data()
In [28]:
housing.head()
Out[28]:
longitude | latitude | housing_median_age | total_rooms | total_bedrooms | population | households | median_income | median_house_value | ocean_proximity | |
---|---|---|---|---|---|---|---|---|---|---|
0 | -122.23 | 37.88 | 41.0 | 880.0 | 129.0 | 322.0 | 126.0 | 8.3252 | 452600.0 | NEAR BAY |
1 | -122.22 | 37.86 | 21.0 | 7099.0 | 1106.0 | 2401.0 | 1138.0 | 8.3014 | 358500.0 | NEAR BAY |
2 | -122.24 | 37.85 | 52.0 | 1467.0 | 190.0 | 496.0 | 177.0 | 7.2574 | 352100.0 | NEAR BAY |
3 | -122.25 | 37.85 | 52.0 | 1274.0 | 235.0 | 558.0 | 219.0 | 5.6431 | 341300.0 | NEAR BAY |
4 | -122.25 | 37.85 | 52.0 | 1627.0 | 280.0 | 565.0 | 259.0 | 3.8462 | 342200.0 | NEAR BAY |
728x90
'Data Analytics with python > [Python Skill]' 카테고리의 다른 글
[Python] 터미널에 모듈을 설치해도 jupyter notebook에서 모듈 설치가 안되는 경우 (0) | 2023.01.31 |
---|---|
[Python] 라이브러리 수동 설치 (0) | 2023.01.31 |
[Python] 내가 만든 함수 파일(.py) 임포트 사용법 (0) | 2023.01.31 |
[python] 윈도우에서 작업 환경 설정하기 (0) | 2023.01.30 |
[eumerate()] (0) | 2023.01.29 |
댓글