類似度判定と一致率判定の結果について
類似度が低くて一致率が高い場合がある。という質問がございます。類似度を基本にご確認いただければと思います。
一致率が高くなりがちな理由
一致率は単純に形態素解析で分割した結果を比較したものになります。
例: 今日は良い天気です と 天気良い今日はです
という文章があったとします。
類似度では、以下を比較するので類似度は低くなります
今日は良い天気です と 天気良い今日はです
一致率は
今日 は 良い 天気 です と 天気 良い 今日 は です
という感じに分割して文字が一致しているか確認するので、100%一致になります。
一致は単純に単語を比較しているだけなので、高めにパーセンテージが出ることが多いです。
仕組み上、類似度が最もよい結果をだすので、類似度をみて大丈夫であれば基本良い。
念のため一致率も高ければ、念のため確認するとよいかと思います。