Bag of Words(BoW)
·
머신러닝/딥러닝을 이용한 자연어처리 입문
1. Bag of Words란? Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 오직 단어들의 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현 방법이다. 직역하면 단어들의 가방이라는 의미이다. 단어들이 들어있는 가방이있다. 갖고있는 텍스트 문서에 있는 단어들을 가방에 전부 넣어 흔들고 섞었다 만약 문서에 특정 단어가 N번 등장 했다면, 이 가방에는 그 특정 단어가 N개있게 된다. 가방을 흔들어서 단어를 섞었기 때문에 순서는 중요하지 않다. BoW 만드는 과정 (1) 우선, 각 단어에 고유한 정수 인덱스를 부여한다. (2) 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만든다. ※예시※ 문서: 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. from konl..