본문 바로가기
728x90

Data Analytics with python114

[텍스트 전처리] 1.Tokenization (토큰화) 텍스트 전처리¶ 자연어 처리 기법에 적용하기 위해 용도에 맞게 텍스트를 사전에 처리하는 작업 토큰화 & 정제 & 정규화 과정이 있습니다. Tokenization¶ Word Tokenization¶ In [1]: from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer # 구두점을 별도로 분류함 from tensorflow.keras.preprocessing.text import text_to_word_sequence In [2]: # 아스트로피(') 처리 print("word_token_1 : ", word_tokenize("They were the last people you'd expect to be inv.. 2023. 1. 28.
[텍스트 처리]자연어 처리를 위한 라이브러리 setting Tensorflow : 구글이 2015년에 공개한 머신 러닝 오픈소스 라이브러리¶ Keras : 딥러닝 프레임워크인 텐서플로우에 대한 추상화된 API를 제공, 백엔드로 텐서플로우를 사용¶ gensim : 머신 러닝을 사용하여 토픽 모델링과 자연어 처리등을 수행할 수 있게 해주는 오픈 소스 라이브러리¶ Scikit-learn : 파이썬 머신러닝 라이브러리¶ 자연어 처리 패키지 In [1]: import nltk # 수동설치 > Tokenizer: http://www.nltk.org/nltk_data/ # 윈도우 : C:/nltk_data또는 D:/nltk_data In [2]: nltk.download() showing info https://raw.githubusercontent.com/nltk/nltk.. 2023. 1. 28.
[이미지 분할] Image segmentation 이미지 분할의 목적은 픽셀 수준에서 이미지를 이해하고 정보를 추출하는 것입니다. 이미지 분할은 객체 인식과 위치 탐색에 사용됩니다. 이미지 분할의 목표는 이미지의 픽셀 단위 마스크를 생성하도록 신경망을 훈련하는 것입니다. CNN에서 이미지 분류 문제로 이미지를 벡터로 변환해야 합니다. 분류 책임자를 마지막에 더하여 분류하도록 합니다. 대표적으로 이미지 분할로 유넷을 사용하는 경우 이미지를 가지고 인코딩을 합니다. 기본 이미지 분류에서는 입력값은 이미지이고 출력은 0또는 1인 클래스 분류 문제입니다. 유넷은 입력값과 결과값이 같은 사이즈를 가집니다. (이미지의 사이즈 보존 됨) 다시 말해, 전통적인 CNN은 일반적으로 전체 이미지가 클래스 라벨로 분류되어야 할 경우 사용합니다. 반면, 유넷은 픽셀 수준의 .. 2023. 1. 26.
[Machine Learning][나이브 베이지안 ] NAIVE BAYES 나이브 베이스는 베이즈의 정리를 기반으로 하는 분류 기법입니다. 베이즈 정리는 사전확률을 알고 있을 때, 사건 발생 후에 그 확률이 수정되거나 변할 수 있다는 의미입니다. 과제 : 새로운 고객은 빨간색으로 분류되는가 초록색으로 분류되는가? NAIVE BAYES step1. prior probability (사전 확률) - 얕은 추측 우리는 빨간 점보다 파란 점을 더 많이 갖고 있기 때문에 우리는 새로운 점이 빨간 점보다 파란 점(더 흔한 클래스)으로 속할 것이라 판단합니다. 빨강 점의 사전확률 = Number of RED Points / Total Number of Points = 20 / 60 초록 점의 사전확률 = Number of GREEN Points / Total Number of Points .. 2023. 1. 26.
Prophet with python 아래 코드는 데이터 전처리 과정이 생략되어 있습니다. Prophet함수를 어떻게 사용하는지에 관한 부분과 그 결과가 어떻게 생겨나는지 파악하는 정도로 이해하려고 썼습니다. 더욱 자세한 내용은 참고 사이트를 통해 Prophet기능을 숙지하면 큰 도움이 될 것입니다. data source: https://www.kaggle.com/datasets/pratyushakar/rossmann-store-sales TASK: FACEBOOK PROPHET¶ https://facebook.github.io/prophet/docs/quick_start.html#python-api https://research.facebook.com/blog/2017/2/prophet-forecasting-at-scale/ In [ ]:.. 2023. 1. 25.
FACEBOOK PROPHET 페이스북 핵심 데이터 과학팀에서 풀어준 오픈 소스 소프트웨어입니다. 연도별, 주별 그리고 일별 계절성 추가적으로 휴일 효과에 맞는 비선형 추세의 가법 모형을 기반으로 시계열 데이터를 예측하는 절차이다. 과거 데이터를 줬을 때 미래를 예측을 한다. 강력한 계절성 효과가 있고 많은 과거 데이터가 있을 경우 잘 작동합니다. 네 가지 요소로 구성된 가법 회귀 모델로 구성됩니다. 회귀 분석은 독립변수 X와 종속변수 Y사이의 관계를 얻고 싶을 때 사용합니다. 독립적이라는 것은 독립변수를 내가 원하는 대로 바꿀 수 있다는 의미입니다. x의 변화를 기반으로 Y를 예측할 수 있습니다. 페이스북 프로펫을 적용할 때 네 가지의 요소가 있습니다. 1) 조각별 선형함수 자동으로 데이터의 변경 지점을 선택하고 추세의변화를 구별합.. 2023. 1. 25.
[분류 모델 평가 지표] Confusion Matrix 실제 분류 True False 예측 분류 True TP (True Positive) FP (False Positive) TYPE Ⅰ ERROR False FN (Flase Negative) TYPE Ⅱ ERROR TN (True Negative) 해석) True Poisitive : 예측 결과 긍정이고(Positive) 실제와 일치한다.(True) 암의 질병을 예측하는 예시라면 TP : 분류기가 결과를 병에 걸렸다고 예측한 경우 실제 결과도 병에 걸린게 맞는 경우 TN : 분류기가 결과를 병에 걸리지 않았다고 예측한 경우 실제 결과도 병에 걸리지 않은 경우 FP (제 1종 오류): 환자가 병에 걸리지도 않았는데 병에 걸렸다고 해 버린 경우 FN (제 2종 오류): 환자가 건강하다고 예측하였는데 병에 걸린.. 2023. 1. 24.
[Visualization] Plotly_Part2 plotlyhttps://plotly.com/python/ In [1]:# interactive graphsimport plotly.express as pximport pandas as pdimport numpy as np  practical examplehttps://www.kaggle.com/datasets/davincermak/quarterly-census-of-employment-and-wages-may-2020?resource=download  choropleth_mapbox In [2]:df_practice = pd.read_csv('data.csv') # 2020년 5월의 실업데이터 In [3]:df_practice.head(1) Out[3]: area_fipsarea_titlemay2020.. 2023. 1. 22.
[Visualization] Plotly_Part1 plotlyhttps://plotly.com/python/  plotly/datasetshttps://github.com/plotly/datasets In [1]:# interactive graphsimport plotly.express as pximport pandas as pdimport numpy as np In [2]:df = px.data.gapminder();df Out[2]: countrycontinentyearlifeExppopgdpPercapiso_alphaiso_num0AfghanistanAsia195228.8018425333779.445314AFG41AfghanistanAsia195730.3329240934820.853030AFG42AfghanistanAsia196231.9971026.. 2023. 1. 22.
[Visualization] seaborn 데이터1 : 비행 데이터 용량이 커서 xlsb 형식으로 저장되어 있다. 압축해제 후 엑셀 > F12 > csv 형식으로 저장하여 분석에 사용가능하다. 데이터2 : 인사 데이터 데이터 출처: https://www.kaggle.com/datasets/usdot/flight-delays https://www.kaggle.com/datasets/arashnic/hr-analytics-job-change-of-data-scientists?resource=download Seaborn https://seaborn.pydata.org/tutorial/introduction In [68]: import matplotlib.pyplot as plt import seaborn as sns import pandas as p.. 2023. 1. 22.
[Visualization] matplotlib 데이터 출처: https://www.kaggle.com/datasets/yasserh/bitcoin-prices-dataset?resource=download matplotlib tutorial https://matplotlib.org/stable/tutorials/introductory/usage.html In [37]: import matplotlib.pyplot as plt import seaborn as sns # bulit on top of matplotlib import pandas as pd import numpy as np %matplotlib inline In [38]: plt.plot([1,2,3,4,5,6], [9,7,8,2,4,6]) Out[38]: [] axes https://ma.. 2023. 1. 22.
[Visualization] Basic_for _visualization In [6]: import numpy as np import pandas as pd numerical In [11]: num_df = pd.DataFrame(np.random.randint(0, 100, size=(10,5)), columns = list('ABCDE')) num_df Out[11]: A B C D E 0 5 9 66 69 87 1 18 87 31 59 42 2 30 69 31 13 38 3 90 96 19 59 91 4 34 95 27 56 69 5 28 36 26 34 53 6 57 55 96 6 16 7 48 30 19 8 58 8 6 72 65 76 61 9 96 72 0 77 93 categorical In [12]: cat_df = pd.DataFrame({"Color": ['.. 2023. 1. 22.
그래프 유형 선택하기 선 그래프 ● 시간 경과에 따른 추세 분석 및 시연에 적합하다 ● 변화를 쉽게 관찰 가능하다 ● 신속한 데이터 설정 및 테스트 ● 한 축은 가변 값(예를 들어 가격)을 나타낼 수 있고 다른 축은 시간을 나타낼 수 있습니다 (가령, 월별 매출 시각화를 수행하는 것과 비슷하다). 막대 그래프 ● 범주 비교에 적합 ● 이해하기 쉬운 전통적인 그래프 표현 ● 막대의 길이는 수치 또는 백분율을 표현 ● 신속한 프로토타이핑을 지원하는 간단한 설정 산점도 ● 두 변수 간의 관계 시연 ● 비선형 패턴 시연의 이점이 있다. ● 구축 및 시각화가 쉽고, 많은 산업에서 널리 인정받고 있다. ● 사용자가 정의하기 쉽다. 히트맵 ● 다양한 항목 비교에 유용 ● 쉽게 이해 가능한 색상 변화 ● 보는 사람을 특정 위치로 안내 가능.. 2023. 1. 21.
[Text]S8_08_Word_Cloud 데이터 출처: https://www.kaggle.com/datasets/PromptCloudHQ/amazon-echo-dot-2-reviews-dataset In [3]: import pandas as pd import string import nltk # natural language processing (자연어 처리) from nltk.corpus import stopwords import gensim # 자연어 처리 중 토큰화 from gensim.utils import simple_preprocess import matplotlib.pyplot as plt import seaborn as sns In [4]: echo_df = pd.read_csv('Echodot2_Reviews.csv', enc.. 2023. 1. 21.
[Text]S8_07_Text_visualization 데이터 출처: https://www.kaggle.com/datasets/PromptCloudHQ/amazon-echo-dot-2-reviews-dataset In [150]: import pandas as pd import string import nltk # natural language processing (자연어 처리) from nltk.corpus import stopwords import gensim # 자연어 처리 중 토큰화 from gensim.utils import simple_preprocess import matplotlib.pyplot as plt import seaborn as sns In [135]: echo_df = pd.read_csv('Echodot2_Reviews.csv',.. 2023. 1. 21.
[Text]S8_06_Text_tokenization 데이터 출처: https://www.kaggle.com/datasets/PromptCloudHQ/amazon-echo-dot-2-reviews-dataset In [21]: import pandas as pd import string import nltk # natural language processing (자연어 처리) from nltk.corpus import stopwords import gensim # 자연어 처리: 토큰 from gensim.utils import simple_preprocess import matplotlib.pyplot as plt In [22]: echo_df = pd.read_csv('Echodot2_Reviews.csv', encoding='utf-8') echo_df.. 2023. 1. 21.
[Text]S8_04_Text_cleaning(removing_punctuation) 데이터 출처: https://www.kaggle.com/datasets/PromptCloudHQ/amazon-echo-dot-2-reviews-dataset In [39]: import pandas as pd import matplotlib.pyplot as plt import seaborn as sns Out[39]: '!"#$%&\'()*+,-./:;?@[\\]^_`{|}~' In [27]: echo_df = pd.read_csv('Echodot2_Reviews.csv', encoding='utf-8') echo_df.head() Out[27]: Rating Review Date Configuration Text Review Text Review Color Title User Verified Revi.. 2023. 1. 21.
[Text]S8_03_Text_in_pandas_2 데이터 출처: https://www.kaggle.com/datasets/PromptCloudHQ/amazon-echo-dot-2-reviews-dataset In [26]: import pandas as pd import matplotlib.pyplot as plt import seaborn as sns In [27]: echo_df = pd.read_csv('Echodot2_Reviews.csv', encoding='utf-8') echo_df.head() Out[27]: Rating Review Date Configuration Text Review Text Review Color Title User Verified Review Useful Count Declaration Text Pageurl 0 .. 2023. 1. 21.
[Text]S8_02_Text_in_pandas_1 데이터 출처: https://www.kaggle.com/datasets/PromptCloudHQ/amazon-echo-dot-2-reviews-dataset In [3]: import pandas as pd import matplotlib.pyplot as plt import seaborn as sns In [4]: echo_df = pd.read_csv('Echodot2_Reviews.csv', encoding='utf-8') echo_df.head() Out[4]: Rating Review Date Configuration Text Review Text Review Color Title User Verified Review Useful Count Declaration Text Pageurl 0 3 1.. 2023. 1. 21.
[Text]S8_01_upper_lower 데이터 출처: https://www.kaggle.com/datasets/PromptCloudHQ/amazon-echo-dot-2-reviews-dataset In [1]: import pandas as pd import matplotlib.pyplot as plt import seaborn as sns In [35]: echo_df = pd.read_csv('Echodot2_Reviews.csv', encoding='utf-8') echo_df.head() Out[35]: Rating Review Date Configuration Text Review Text Review Color Title User Verified Review Useful Count Declaration Text Pageurl 0 3.. 2023. 1. 21.
728x90