SoftMatcha 2:
一兆語規模のコーパス対する
柔らかく超高速な検索システム

米田優峻1,2 松下祐介3 鴨田豪4,5 末永幸平2,3 秋葉拓哉6,7 和賀正樹2,3 横井祥5,7,8

1東京大学 2国立情報学研究所 3京都大学 4総合研究大学院大学 5国立国語研究所 6Sakana AI 7東北大学 8理化学研究所

TL;DR 1兆トークン超のコーパスに対しても0.1秒単位で超高速に動作し,
検索クエリの語順を保持し,
さらに単語の意味的な類似性に基づく
置換・挿入・削除に対応した検索システム

SoftMatcha 2 overview
Abstract

超大規模コーパスを,超高速に,かつ意味や表記の揺れに柔らかく対応できる検索システムSoftMatcha 2を提案・提供する. 提案法は,言語モデルの学習コーパスの検索を目指す既存法の持つ特徴群,つまり,クエリの語順の保持,意味的類似性に基づいた置換,1兆語規模コーパスに対する0.1秒単位の即時検索のすべてを満たし,さらにクエリへの単語の挿入や削除も考慮できる. 特に,クエリに「似た」パターンの種類数の組合せ爆発という困難を, 逐次的検索による枝刈りをおこなう新しいアルゴリズムで解決する. 1.4兆語のコーパスFineWeb-Eduを用いた実験では,完全一致の場合も柔らかい検索の場合も,既存手法群(infini-gram, SoftMatcha)と比べた大幅な高速化を確認した. さらにFineWeb-EduおよびLLM-jp-corpus-v3をウェブブラウザ上で高速検索できるオンラインツールを提供する.

BibTeX
@article{yoneda-preprint-2026-softmatcha2,
  title         = "{SoftMatcha 2: A fast and soft pattern matcher for
                   trillion-scale corpora}",
  author        = "Yoneda, Masataka and Matsushita, Yusuke and Kamoda, Go and
                   Suenaga, Kohei and Akiba, Takuya and Waga, Masaki and Yokoi,
                   Sho",
  journal       = "arXiv [cs.CL]",
  month         =  "11~" # feb,
  year          =  2026,
  url           = "http://dx.doi.org/10.48550/arXiv.2602.10908",
  archivePrefix = "arXiv",
  primaryClass  = "cs.CL",
  doi           = "10.48550/arXiv.2602.10908"
}