3. 텍스트유사도챗봇엔진에서 입력된 문장에서 챗봇시스템에서 답변이 얼마나 유사한지에 따라 적절한 답변이 가능하다.3.1. n-gramp 유사도n-gram은 문장에서 n개의 연속적인 단어의 시퀀스를 의미한다.n-gram은 문장에서 n개의 단어를 token으로 사용한다.이웃한 단어의 출현횟수를 통계적으로 표현해서 텍스트의 유사도를 계산하는 방법이다.참고 : https://uumini.tistory.com/69문장간 유사도 계산문장을 n-gram으로 토큰을 분리한 후 단어문서행렬(TDM, Term Document Matrix)를 만든다.이후, 두 문장을 비교해서 동일단어의 출현빈도를 확률로 계산해 유사도를 구할 수 있다.A, B 두 문장이 있을 때 B가 A와 얼마나 유사한지 확률을 구하는 공식n-gram유사도..
챗봇
1. 토크나이징1.1 토크나이징이란?컴퓨터분야에서 자연어의 의미를 분석해서 처리할 수 있도록 하는 것이 자연어처리 NLP(Natural Language Processing)이라 한다.자연어처리를 하는 가장 일반적인 방법은?주어진 문장을 일정한 의미가 있는 가장 단어로 분리그 다음에 분리된 단어를 이용해서 의미를 분석한다.여기서 가장 기본이 되는 단어를 토큰 token이라고 한다.토큰단위는 토크나이징하는 방법에 따라 달라질 수가 있다.하지만, 일반적으로 일정한 의미가 있는 가장 작은 단위로 결정된다.이렇게 주어진 문장에서 토큰 단위로 정보를 분리하는 작업을 토크나이징이라고 한다.토크나이징을 구현하기 위해서는 한국어문법에 대한 이해가 필요하다.하지만, 한국어 토크나이징을 지원하는 파이썬 라이브러리가 있다.한..