2007年10月24日

サイト内全文検索Namazuを検索するgooglebot

アクセスログを見ていると約3週間ほど前からぼつりぽつりとサイト内検索エンジンを大量に利用した記録が残っていて、何かのハッキングか?と思って調べてみると、大量に利用したユーザエージェントがgooglebot(検索エンジンgoogleの検索ロボット)であることが判明した。

googleはいったい何をしようとしているんだろう……。

全文検索エンジンNamazuとは、CGIで動くフリーの日本語全文検索システムで、サーバにインストールし、索引情報を更新することによってサイト内の詳細な日本語検索ができるもの。

スクランブルエッグon the Webのサイトではほとんどすべてのページに「総合検索ボックス」が設置され、ここからさまざまな検索エンジンを利用してWeb全体の情報にも気軽にアクセスできるようにしている。

しかし、この検索ボックスにはユーザがテキストフォームに文字を入力して、検索ボタンを押さない限り検索はできない。それをgooglebotがやっているということだ。何を目的に?

以前、google ウエブマスターツール上でGooglebotがクロールできなかったURLが700個も見つかったことがあった。スラッシュの数の打ち間違いなのであるが、そんな記述はサイト内にはない。サイトの外から大量に間違ったリンクを張っていた形跡は今のところ見つかっていない。これって誰の仕業なんだろう。私はgooglebotを疑ってたりする。

で、結果としてGooglebotがクロールできなかったURLは減ったが怪しい記述のURLが今も残っている。

話を元に戻す。

結果として、googlebotは総合検索ボックスを使わずに、全文検索エンジンのcgiに直接クエリーを送り、その結果をインデックスしているようだ。

googleでサイト内を「全文検索 namazu」で検索した結果

10月24日現在、476件もgoogleにインデックスされている。しかも、その単語が人間が恣意的に検索したものではなく、サイト内の単語をなんらかの理由でセレクトして検索している。

googleはいったい何をしようとしているんだろう……。サイトに置いてあるsitemapsだけでは物足りず、全文検索エンジンフォームに文字を入れてまで情報をかき集めようとしているのだろうか。

読者でNamazuを構築している方はぜひともgooglebotの動き、googleの検索結果に注目していただきたい。
 このエントリーをはてなブックマークに追加
posted at 10:56│コメント(2)Web制作 

トラックバックURL

この記事へのコメント

1. Posted by しろ   2007年11月14日 00:06
こんにちは。
今日初めてスクランブルエッグのサイトを発見して、
そこから来ました。


質問したいことがあるのですが、
このブログでは内緒のコメントはできないのですね??

どこに質問したらいいのでしょうか?
やはりこちらがいいのでしょうか??
2. Posted by スクランブルエッグ編集長   2007年11月15日 19:17
コメント欄は一般公開する前に確認しているので、内緒で質問と書けば、それで対応します。
その際にはメールアドレスを入れておいてください。

メールしてきてもいいですけど。

この記事にコメントする
(※スパム防止のため管理人の確認後に反映されます)

名前:
URL:
  情報を記憶: 評価: 顔   
 
 
 
Archives
記事検索