SoftMatcha

SoftMatcha 2:
一兆語規模のコーパスに対する
柔らかく超高速な検索システム

米田優峻^1,2 松下祐介³ 鴨田豪^4,5 末永幸平^2,3 秋葉拓哉^6,7 和賀正樹^2,3 横井祥^5,7,8

¹東京大学 ²国立情報学研究所 ³京都大学 ⁴総合研究大学院大学 ⁵国立国語研究所 ⁶Sakana AI ⁷東北大学 ⁸理化学研究所

Demo Code

Paper (Preprint)

TL;DR 1兆トークン超のコーパスに対しても0.1秒単位で超高速に動作し，
検索クエリの語順を保持し，
さらに単語の意味的な類似性に基づく
置換・挿入・削除に対応した検索システム

Abstract

超大規模コーパスを，超高速に，かつ意味や表記の揺れに柔らかく対応できる検索システムSoftMatcha 2を提案・提供する．提案法は，言語モデルの学習コーパスの検索を目指す既存法の持つ特徴群，つまり，クエリの語順の保持，意味的類似性に基づいた置換，1兆語規模コーパスに対する0.1秒単位の即時検索のすべてを満たし，さらにクエリへの単語の挿入や削除も考慮できる．特に，クエリに「似た」パターンの種類数の組合せ爆発という困難を，逐次的検索による枝刈りをおこなう新しいアルゴリズムで解決する． 1.4兆語のコーパスFineWeb-Eduを用いた実験では，完全一致の場合も柔らかい検索の場合も，既存手法群（infini-gram, SoftMatcha）と比べた大幅な高速化を確認した．さらにFineWeb-EduおよびLLM-jp-corpus-v3をウェブブラウザ上で高速検索できるオンラインツールを提供する．

BibTeX

@article{yoneda-preprint-2026-softmatcha2,
  title         = "{SoftMatcha 2: A fast and soft pattern matcher for
                   trillion-scale corpora}",
  author        = "Yoneda, Masataka and Matsushita, Yusuke and Kamoda, Go and
                   Suenaga, Kohei and Akiba, Takuya and Waga, Masaki and Yokoi,
                   Sho",
  journal       = "arXiv [cs.CL]",
  month         =  "11~" # feb,
  year          =  2026,
  url           = "http://dx.doi.org/10.48550/arXiv.2602.10908",
  archivePrefix = "arXiv",
  primaryClass  = "cs.CL",
  doi           = "10.48550/arXiv.2602.10908"
}

SoftMatcha 2: 一兆語規模のコーパスに対する柔らかく超高速な検索システム

Abstract

BibTeX

SoftMatcha 2:
一兆語規模のコーパスに対する
柔らかく超高速な検索システム