TL;DR
1兆トークン超のコーパスに対しても0.1秒単位で超高速に動作し,
検索クエリの語順を保持し,
さらに単語の意味的な類似性に基づく
置換・挿入・削除に対応した検索システム
超大規模コーパスを,超高速に,かつ意味や表記の揺れに柔らかく対応できる検索システムSoftMatcha 2を提案・提供する. 提案法は,言語モデルの学習コーパスの検索を目指す既存法の持つ特徴群,つまり,クエリの語順の保持,意味的類似性に基づいた置換,1兆語規模コーパスに対する0.1秒単位の即時検索のすべてを満たし,さらにクエリへの単語の挿入や削除も考慮できる. 特に,クエリに「似た」パターンの種類数の組合せ爆発という困難を, 逐次的検索による枝刈りをおこなう新しいアルゴリズムで解決する. 1.4兆語のコーパスFineWeb-Eduを用いた実験では,完全一致の場合も柔らかい検索の場合も,既存手法群(infini-gram, SoftMatcha)と比べた大幅な高速化を確認した. さらにFineWeb-EduおよびLLM-jp-corpus-v3をウェブブラウザ上で高速検索できるオンラインツールを提供する.
@article{yoneda-preprint-2026-softmatcha2,
title = "{SoftMatcha 2: A fast and soft pattern matcher for
trillion-scale corpora}",
author = "Yoneda, Masataka and Matsushita, Yusuke and Kamoda, Go and
Suenaga, Kohei and Akiba, Takuya and Waga, Masaki and Yokoi,
Sho",
journal = "arXiv [cs.CL]",
month = "11~" # feb,
year = 2026,
url = "http://dx.doi.org/10.48550/arXiv.2602.10908",
archivePrefix = "arXiv",
primaryClass = "cs.CL",
doi = "10.48550/arXiv.2602.10908"
}