butterfly_search(全文検索フリーソフト)

 

grepgoogleデスクトップ、namazuでは、満足できなかった為、このツール(バタフライサーチ)を作成しました。 

                

 

【概要】

Windowsで動作する個人向けインデックス型全文検索ツールです。日本語全文検索も可能です。

動作イメージは次の様な感じです。


 

【ダウンロード】

日時 バージョン 概要
2016.06.12

V2.6i

・分布表示におけるハイライトがうまくできない場合がある問題対応・バイナリファイル(exe,dll)の検索に失敗するデグレバグ対応。・起動時に右端を折り返すスイッチが利かないバグ対応。
2016.05.15

V2.6h

「正規表現」失敗した時に「正規表現不正」と表示される様に修正。
2016.05.13

V2.6g

メモリの解放漏れを修正。「正規表現」の検索に失敗した時のエクセプションを軽減
2016.05.06

V2.6f

インデックス再作成後、butterfly_searchの再起動が必要となる不具合を修正。
2016.05.05

V2.6e

AND条件に「正規表現」を追加。
2016.04.09

V2.6d

ファイルパス/ファイル名によるフィルターを高速化。ファイル詳細画面を複数持てるように改良。一括検索時の結果をクリップボードにコピーできる様に修正。xdoc2txtをRev2.15に差し替え。Docuworksに対応(拡張子がxdw、xbdの場合、xdoc2txtを-iオプションでコールする様に修正)
2016.03.08

V2.6c

xdoc2txtをRev2.14に差し替え。ビルドオプションに/LARGEADDRESSAWAREを付与しメモリ不足を出にくくした。
2016.02.18

V2.6b

メモリ確保失敗時に異常終了してしまう不具合に対応 ※本版はmicrosoft security essentials にてトロイの木馬と判定されますが誤検知となります。microsoft security essentialsの対応を待つか他の版をご利用下さい。(2016.03.06)
2015.12.13

V2.6a

バイナリファイル内のテキストデータの抽出に対応(拡張子がEXEとDLLの場合のみ)
2015.07.09

V2.5k

サブフォルダ名称に「_bf_」を付与(例:cache→_bf_cache)し、除外フォルダの初期値を修正した。これにより自分自身はインデックス対象から外れる様した。同一ファイルがシンボリックリンクで複数回指定されている場合、冗長な検索結果となっていたが、これを冗長にならない様に修正した。
2015.07.01

V2.5j

多重起動対応。インデックスが2Gを超えるとハングアップする問題対応。xdoc2txtの変換タイムアウトを30分→3分へ変更。
2015.05.17

V2.5i

xdoc2txtの変換に30分以上かかった場合エラーとして次の処理に移る様修正。日本語を収録する際の文字列長を4文字から3文字へ。
2015.01.11

V2.5h

同梱のxdoc2txtをRev2.07へ差し替え。これによりテキスト以外のファイルもUNICODEに対応。
2013.12.12

V2.5g

行表示ペインの修正(表示上限を10000→100000へ。コピペアイテムにファイルパスを追加。)
2013.09.27

V2.5f

クリップボード連動をONにした時にクラッシュする問題対応その2
2013.09.21

V2.5e

クリップボード連動をONにした時にクラッシュする問題対応
2013.08.03

V2.5c

分布表示時のキー連動先としてクリップボードを追加。
2013.06.09

V2.5a

分布ボタン押下時の色変更機能を追加。
2013.05.01

V2.4i

ビッグデータに対応(2Gバイトを超えるテキストファイルに対応)。特定のフォルダを検索対象から外せるように対応。
2012.07.28

V2.4h

ショートカットファイルのショートカット先を検索対象とする様に仕様変更
2012.06.17

V2.4g

検索履歴の履歴が冗長表示とならない様にガードを処理を追加
2012.05.27

V2.4f

同梱のxdoc2txtフィルターをVer1.41→Ver1.42へ差し替え
2012.05.01

V2.4e

コマンドラインからのインデックス作成に対応
2012.02.24

V2.4d

画像から文字を認識する機能(OCR)に対応
2012.02.08

V2.3a

xdoc2txtフィルターを使用する条件として、拡張子「docm/pptm/xlsm」を追加
2011.01.15

V2.3

正式版 表記をV2.3へ変更。内容はV2.2cと同等
2011.12.11

V2.2c

NULLが含まれるファイルをバイナリーファイルとして判定されないことがあるバグ対応
2011.10.01

V2.2b

フォルダ名に「.」が含まれると解析エラーになるバグ対応)
2011.09.25

V2.2a

xdoc2txt同梱によりword/excel/pdf等のファイルにも対応)
2011.09.03

V2.1b

右端での改行する/しないを設定可能に+改行バグ修正)
2011.06.26

V2.0

正式版  ファイル名の判定処理を高速化。AND条件機能を追加
2010.07.29

V1.9c

LinxuOSでのファイル名の大文字小文字区別に対応
2010.04.13

V1.9b

xdoc2txt.exeとの連携対応

※サーバーの容量の関係で過去の版は削除しております。

 





【ファイル名の大文字小文字】

LinxuOS上でファイル名を大文字小文字で区別している場合のインデックス化手順_



【特徴】

・速い。(と思う)

・ワンクリックで該当行へジャンプする。

・全文検索エンジンと検索ツールが一体で導入簡単。

・インストール不要でお手軽。(ファイルのコピーのみで動作)

・明確なルールにより、理論上検索漏れなし。 (半角英数字と半角アンダーバーの列は単語としてインデックス化。その他の文字(日本語)はN-gram法でインデックス化)

・検索候補の検索が可能。 例:「*tar*」と入力して下矢印キーにより「Start」という候補を見つける事が可能。

・文字コードは Unicode(UTF-16),Unicode(UTF-8),Unicode(UTF-7),Shift-JIS,EUC,JISに対応。(IMultiLanguage2->DetectInputCodepageを使用しているのでBIG5等も含めエクスプローラで表示できる文字は認識する筈です)

Unicodeに対応。正規表現に対応(但し後段のみ)。

・ショートカットをたどる事ができる。(ショートカット集を検索対象に指定可能)

・Linux上で、ファイル名を大文字と小文字で区別している場合でもインデックス化出来る様に対応。(2010年7月29日)

・2GB以上のテキストファイルに対応。

テキストファイル専用!
 

                            


【他ツールとの違い】

■googleデスクトップとの違い

 ・すべての文字をインデックス化出来る。(googleデスクトップは先頭75000文字まで)

 ・検索対象とするディレクトリを指定できる。(googleは自動化されすぎていてユーザーのコントロールが出来ない)

 ・インデックスへ 登録できた /  出来なかったを確認する事が出来る。

 ・駐在型ではないので、Windowsの動作が遅くならない。


■namazu
との違い

 ・細かい設定が不要。(600Kバイト以上のファイルを扱うときはnamazurc$TEXT_SIZE_MAXを修正する必要ある等)

 ・Perlや、KAKASI等の追加インストールが不要。

 ・分かち書きに失敗して検索漏れが発生するのでは?という心配が不要。

 

■grepとの違い

・検索速度が違う。(当たり前ですね。)

 

【インデックスのサイズ、作成時間について】
 ―インデックス構築例1―
  ・マシンスペック
    メモリ         2Gバイト
    CPU Core2    2.66GHz

  ・インデックス対象ファイル
   日本語混じりの英文ファイル  約7万ファイル
   対象ファイルサイズ合計       1.5Gバイト


  ・結果
   処理時間                   5.5時間
   インデックスのサイズ    0.6Gバイト
   検知した単語の数        約700万



 ―インデックス構築例2―
  ・マシンスペック
    メモリ         8Gバイト
    CPU Core i3    3.40GHz

  ・インデックス対象ファイル
   日本語混じりの英文ファイル  約105万ファイル
   対象ファイルサイズ合計       50Gバイト


  ・結果
   処理時間                   48時間
   インデックスのサイズ    11Gバイト
   検知した単語の数        約3247万


【リリース情報】

butterfly_search掲示板


【マニュアル】

butterfly_searchニュアル



【謝辞】

【ご紹介】

以下、紹介して頂いております。ありがとうございます。

・ベクターさんでお勧めソフトとしてPickUPして頂きました。

・雑誌「ネットラン」2009年8月号に収録して頂きました。

・雑誌「IP」2013年9月号に収録して頂きました。

・ベクターさんでレビューをして頂きました。

・教えて君.netさんで紹介して頂きました。


【xdoc2txtについて】
xdoc2txtはhishida氏の作品となります。hishida氏のご好意によりbutterfly_searchに同梱させて
頂いております。ありがとうございます。


【一括検索のデフォルト値について】
デフォルトで表示される下記2つのリストはそれぞれ下記のHPより
借用させて頂いたものです。ありがとうございます。
・四文字熟語
 Mr.凡人様
 http://www.h3.dion.ne.jp/~urutora/4ji1.htm
・放送コード
 monoroch(モノロク)様
 http://monoroch.net/kinshi
 
※デフォルト値はツールの動作の理解を深める為のものであり、
 著作権は、Mr.凡人様及びmonoroch(モノロク)様にあります。実際に検索する際は、ご自身で
 定義し直してのご利用をお願いいたします。


【正規表現ライブラリについて】
boostライブラリ(3.1.4-2)を使用させて頂いています。
http://www.boost.org/
ありがとうございます。