728x90
자연어 처리 패키지
In [1]:
import nltk
# 수동설치 > Tokenizer: http://www.nltk.org/nltk_data/
# 윈도우 : C:/nltk_data또는 D:/nltk_data
In [2]:
nltk.download()
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
Out[2]:
True
In [3]:
import konlpy
- JDK설치 : https://www.oracle.com/technetwork/java/javase/downloads/index.html
- JDK 환경변수 : 윈도우 10기준) 제어판 > 시스템 및 보안 > 시스템 > 고급 시스템 설정 > 고급 > 환경 변수 > 새로 만들기(N)
이름 - JAVA_HOME, 경로 - C:\Program Files\Java\jdk-11.0.1
예를 들어 파이썬 3.6, 윈도우 64비트를 사용 중이라면 JPype1-0.6.3-cp36-cp36m-win_amd64.whl를 다운로드
파이썬 버전 확인 코드 :
import sys
print(sys.version)
Ternel : cd 파일경로 > pip install JPype1-0.6.3-cp36-cp36m-win_amd64.whl
데이터 분석 필수 패키지 (삼대장)
In [4]:
import pandas as pd # 파이썬 데이터 처리를 위한 라이브러리
# Series, DataFrame, Panel
import numpy as np # 수치 데이터를 다루는 파이썬 패키지
# np.array 다차원 행렬 자료구조 - ndim 축의 개수, shape 크기
import matplotlib.pyplot as plt # 데이터를 차트나 플롯으로 시각화하는 패키지
Pandas-Profiling : EDA(탐색적 데이터 분석)
In [11]:
# !pip install pandas-profiling
Using inside Jupyter Notebooks 수동 설치
https://pypi.org/project/pandas-profiling/ > download > .whl파일 다운로드
Terminal > 관리자 권한
cd Downloads # 설치 파일 위치
python -m pip install pandas_profiling-3.6.3-py2.py3-none-any.whl
In [3]:
import pandas as pd
from pandas_profiling import ProfileReport
In [7]:
data = pd.read_csv("https://raw.githubusercontent.com/bigmlcom/python/master/data/spam.csv", sep='\t')
In [8]:
data[:5]
Out[8]:
Type | Message | |
---|---|---|
0 | ham | Go until jurong point, crazy.. Available only ... |
1 | ham | Ok lar... Joking wif u oni... |
2 | spam | Free entry in 2 a wkly comp to win FA Cup fina... |
3 | ham | U dun say so early hor... U c already then say... |
4 | ham | Nah I don't think he goes to usf, he lives aro... |
리포트 생성하기
In [9]:
profile = ProfileReport(data, title="Pandas Profiling Report")
# profile.to_widgets()
In [ ]:
# 리포트 저장
profile.to_file('./pr_report.html') # pr_report.html 파일로 저장
In [10]:
profile
728x90
'Data Analytics with python > [Natural Language]' 카테고리의 다른 글
[정규 표현식] regex 2편 (0) | 2023.01.28 |
---|---|
[정규 표현식] regex 1편 (0) | 2023.01.28 |
[텍스트 전처리] 1.Tokenization (토큰화) (2) | 2023.01.28 |
댓글