blog
掲示板オフ会用掲示板電気の話題Widnowsの話題写真館 | その他いろいろベンチマーク管理人よりサイトマップWEBメール

全文検索システム「Namazu(なまず)」を使ってみよう #1


Namazuってなに?

namazuは、サイト内のファイルからテキスト(単語)を抜き出し、データとして蓄えそのデータを元に任意のキーワードから目的のファイルを探し出すソフトです。
YAHOO、gogle、goo、infoseekといった検索サイトとよく似た機能を持っています。
ただし、データ作成はサイト内のデータに限られるので、インターネットを経由して他のサイトのファイルを検索対象に含むといったことは出来ません。

利用方法としては、
1.個人的に立ち上げている、HP内のデータを訪れた人が目的の内容を見つけやすいように、検索出来るようにする。
2.会社などの共有ディスク上のデータをブラウザを利用して検索する。
などが考えられます。

私は会社で一太郎やWord、PDFといったデータファイルを、検索するのに使用しています。

ここでの説明には、Windows2000Professionalを使用しています。
その他のOSを使用している場合には、適時置き換えて読んでください。


Namazuを導入するためには

Namazuを利用するには、以下のものが必要になります。
必要なものは、初めてにダウンロードしておくことをおすすめします。

最低限必要なもの

パソコン

当然なんですが、PCは必要です。
しかも、NIC(Network interface Card)つまり、LANカードが必要です。
内蔵でも、購入して取り付けてもTCP/IPが利用できる状態にする必要があります。
OSがそこそこ動作すれば、まず問題なし。
空きメモリが少なくても、わりと快適に動作します。
後述する、OfficeやPDFといったソフトを使用するなら、空きメモリは50MB以上あると良いでしょう。

Windows2000(NT4.0/XP Pro)

これは、Internet Information Service(IIS)を動作させる必要があるためです。
WidnowsXPのHomeEditionは、IISが動作しないので使えません。

Namazu本体(http://www.namazu.org/windows/)

検索ソフト本体です。プログラムは、Perlで記述されているので単独では動作しません。

KAKASI for Win32(http://kakasi.namazu.org/)

わかち書きといわれる、文章から単語を抜き出す作業をするために必要です。

Active Perl(http://www.activestate.com/Products/ActivePerl/)

Perlを動作させるための、ソフトウェアです。
これがないと、Namazu本体が動作しません。
掲示板などのCGIの多くがPerlを利用して作られていますので、これを使えば運用可能です。

必要に応じてそろえよう

Microsoft Office シリーズ

マイクロソフトのWordやExcelといったソフト
バージョンは、97/2000/XPのいずれでも良いが、検索したいファイルのバージョン以上を入れる必要がある。
これがあれば、Namazuの検索対象に、Word、Excel、一太郎などのファイルを追加出来る。

Justsystem 一太郎 Ver.6.3

ジャストシステムの一太郎。検索する文章に、一太郎Ver.4が含まれているなら、あると良い。
新しいバージョンの一太郎では、Ver.4ファイルは読み込めない場合が多々ある。
Wordの一太郎ファイルの読み込み機能で代用することも可能。

Justsystem 一太郎 Ver.11/12

一太郎Ver.5以上のファイル形式とワークシート仕様になった、新しい一太郎に対応するために必要。
一太郎ファイルを検索対象にしないなら不要。
Wordの一太郎ファイル読み込み機能で、ワークシート仕様になる前のバージョンまでは対応可能。
Ver.11/12を利用するためには、別途Namzuで一太郎を動作させる、プログラムを入手しなくてはならない。
これでも、Ver.4を読み込むことができるが、読めるファイルと読めないファイルがある。また、Ver.4形式のファイルが多い場合には、Namazuの処理がエラーストップしてしまう傾向がある。

Acrobat Reader Ver.4(http://www.adobe.co.jp/support/downloads/acrwin.html)

PDFファイルを検索対象にする場合にに必要。
現在出回っている、バージョンより古いものなので注意。
Adobe社のHPから入手可能。

Xpdf(http://www.foolabs.com/xpdf/)

Acrobat Reader Ver4.0.5を利用して、PDFファイルを検索するのに使用するプログラム。
このXpdfが、新バージョンに対応すればAcrobat Readerのバージョンも現在のものが利用可能。


次回の内容

Namazu使うための必需「IIS」の導入まで。


謝辞

この企画は、Namazuフォーラムの内容を参考に作成しました。


記事について

2002年10月02日に掲載された