3. 텍스트유사도챗봇엔진에서 입력된 문장에서 챗봇시스템에서 답변이 얼마나 유사한지에 따라 적절한 답변이 가능하다.3.1. n-gramp 유사도n-gram은 문장에서 n개의 연속적인 단어의 시퀀스를 의미한다.n-gram은 문장에서 n개의 단어를 token으로 사용한다.이웃한 단어의 출현횟수를 통계적으로 표현해서 텍스트의 유사도를 계산하는 방법이다.참고 : https://uumini.tistory.com/69문장간 유사도 계산문장을 n-gram으로 토큰을 분리한 후 단어문서행렬(TDM, Term Document Matrix)를 만든다.이후, 두 문장을 비교해서 동일단어의 출현빈도를 확률로 계산해 유사도를 구할 수 있다.A, B 두 문장이 있을 때 B가 A와 얼마나 유사한지 확률을 구하는 공식n-gram유사도..