본문 바로가기
728x90

Data Analytics with python/[Natural Language]4

[정규 표현식] regex 2편 정규 표현식 심화 그루핑 문자열이 계속해서 반복되는지 조사하는 정규식을 작성하고 싶은 경우 메타 문자 ( )로 그룹을 만들어 줍니다. 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스가 증가한다. 예시 : (ABC)+ → ABC 문자열이 최소 1번 이상 계속해서 반복되는 여부 보통 그루핑은 반복되는 문자열을 찾을 때 사용합니다. 즉, 매치된 문자열 중에서 특정 부분의 문자열만 뽑아내기 위함이다. 실전에서는 이름 + " " + 전화번호 형태에서 '이름'만 뽑아내려는 경우 p = re.compile(r" (\w+) # 이름 \s+ # " " \d+[-]\d+[-]\d+ # 전화번호 ", re.VERBOSE) 특징: 1) Backreferences 그루핑은 문자열 재참조가 가능합니다... 2023. 1. 28.
[정규 표현식] regex 1편 정규 표현식 정규 표현식 : 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어 정규표현식은 문자열의 검색과 치환을 위해 지원하고 있습니다. 정규 표현식은 메타 문자를 사용하여 특별한 의미를 부여 합니다. 메타 문자 : 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자 . ^ $ * + ? { } [ ] \ | ( ) 메타 문자 1 : +, * , [ ], {} 특징 : 메타 문자의 매치가 진행될 때 현재 매치되고 있는 문자열의 위치가 변경 됩니다. (문자열을 소비시키는 메타문자) ▶ character class (문자 클래스) 기호 : [ ] 의미 : 대괄호 사이의 문자들과 매치한다. 예시 : [abc] → "a, b, c" 중 한 개의 문자와 매치하라는 의미입니다. [a-c.. 2023. 1. 28.
[텍스트 전처리] 1.Tokenization (토큰화) 텍스트 전처리¶ 자연어 처리 기법에 적용하기 위해 용도에 맞게 텍스트를 사전에 처리하는 작업 토큰화 & 정제 & 정규화 과정이 있습니다. Tokenization¶ Word Tokenization¶ In [1]: from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer # 구두점을 별도로 분류함 from tensorflow.keras.preprocessing.text import text_to_word_sequence In [2]: # 아스트로피(') 처리 print("word_token_1 : ", word_tokenize("They were the last people you'd expect to be inv.. 2023. 1. 28.
[텍스트 처리]자연어 처리를 위한 라이브러리 setting Tensorflow : 구글이 2015년에 공개한 머신 러닝 오픈소스 라이브러리¶ Keras : 딥러닝 프레임워크인 텐서플로우에 대한 추상화된 API를 제공, 백엔드로 텐서플로우를 사용¶ gensim : 머신 러닝을 사용하여 토픽 모델링과 자연어 처리등을 수행할 수 있게 해주는 오픈 소스 라이브러리¶ Scikit-learn : 파이썬 머신러닝 라이브러리¶ 자연어 처리 패키지 In [1]: import nltk # 수동설치 > Tokenizer: http://www.nltk.org/nltk_data/ # 윈도우 : C:/nltk_data또는 D:/nltk_data In [2]: nltk.download() showing info https://raw.githubusercontent.com/nltk/nltk.. 2023. 1. 28.
728x90