SoftMatcha:
A Fast and Soft Pattern Matcher

1NAIST 2Tohoku University 3Kyoto University 4RIKEN

Click here for demo.

Abstract

パターンマッチングは、テキスト中の特定のパターンが出現する箇所を検索する技術であり、 マッチした行を抽出するgrepコマンドや、コーパス言語学の観点で用例検索を行う keyword in context (KWIC) のように、広く応用されている。 最近では、大規模言語モデルの性質を学習事例に帰着させて分析するなど、 テキスト検索のニーズが高まっている。既存技術の問題点として、表層的な文字一致に基づいているため、 自然言語に顕著な表記揺れや同義語への言い換えに対応できない。一方で、 密ベクトル検索は意味的な比較ができるものの、似たトピックの全く異なる文まで粗く検出することがある。 本研究では、単語埋め込みを用いて、高速な文字列探索アルゴリズムを連続的に拡張し、 柔らかい上に高速な単語列マッチングを実現する。