자연어 처리 유사도 분석 정리

hozy연 2023. 4. 22. 16:41

*(기본) 코사인 유사도를 알아보자

직접 코사인 세타를 구해보자 (내적 = 길이 *길이 * cos세타)

1) I love apple. (Norm: root 2)

2) Apple is delicious which I love too. (Norm: root 3)

3) I want a delicious food, but an apple. (Norm: root 3)

4) Deep learning is difficult. (Norm: root 1)

각 문장의 유사도를 보면! (겹치는 갯수/Norm곱)

1번 문장과 2번 문장이 가장 비슷하고, 그 다음에 1번과 3번문장, 2번과 4번 문장이 비슷하다는 걸 알 수 있다

단어 사이의 거리를 나타내는 대표적인 척도 (최소의 수를 뜻함)

- 단어A를 단어B로 수정하기 위한 최소 횟수 (단어 삽입(1로 인코딩), 삭제(2), 삽입(3))

Tabular Method로 구해봅시다

가장 작은 수인 1을 채택하게 된다!