このページは福井県立大学の田中求之が2006年1月まで運用していた Mac のサーバ運用に関する会議室 「Web Scripter's Meeting」の記録です。情報が古くなっている可能性がありますのでご注意ください。

インクトーミーロボットの好き嫌い

発言者:寺港みやび
( Date Wednesday, March 08, 2000 11:00:45 )


gooというか、インクトーミーロボットについてちょっと質問です。

Webstar3でWebサーバーを動かしているんですが
ロボット君がたくさんやってきては、情報を持ってかえります。

DNSはこんな感じ↓

A     xxxx.xx.jp
CNAME zzz.xxxx.xx.xx
A     xxxxx.com
CNAME YYY.xxxxx.com


で、
バーチャルサーバー(DNSがCNAMEの)ホストについて上記ロボットが
インデクシングできないようです。

GET  03/08/00  10:58:38  ERR!  j4014.inktomisearch.com.  :xxxx:xxx  0  

他のロボットは持ってかえるんですが、そのロボットだけがダメみたいです。

半年ほど観察した感じではDNSのCNAMEレコードのホストに限って
とりこぼしていると思われます。
出来るホストとできないホストを比べて、差があるのは
DNSの設定だけのように思えますが、完全に再現性があるようでもなく
インデクシングされているページもあるようです。
#噂ではjpドメイン以外の登録基準が曖昧だとも聞きます>goo
#がこの問題ではjpでもそれ以外でもはっきりとした
#事象がつかめません。

●こういう経験があるという方はいらっしゃいますか?

gooつかわなきゃいいんだけど、なんだか気持ちわるくて・・・

田中求之 さんからのコメント
( Wednesday, March 08, 2000 13:25:16 )

私のところではインクトーミーは特に問題を起こしていないようなの
ですが(バーチャルを運用していますが、基本的にはこのサイトだけ
みたいなもんですし、どちらも ecn.fpu.ac.jp のサブドメインです)、
ロボットに関しては、色々と癖があったり、間抜けなことをするのが
あるのは事実ですね。

以前、この会議室に入り込んできては URL の中の $ を落とした
リクエストを延々とくり返す(とうぜん、そんなページはないという
エラーになります)ロボットがいて、そいつは出入り禁止にしたこと
がありましたが、これに限らず、階層をきちんと追えないものなども
いたりと、なかなか奇妙なことをするのがいますね。

寺港みやび さんからのコメント
( Wednesday, March 08, 2000 16:34:31 )

>以前、この会議室に入り込んできては URL の中の $ を落とした
うちではMacPerlのCGIを運営中に某プロバイダのプロクシサーバーでの
アクセスに限りそのCGIが落ちるという事象がありました。
それには$が使ってあって、やっぱり$の先をおかしな状態にしていたようです。

ロボット対策ですが、Aレコードならインデクシングできるなら(笑)
DNSで1つのIPアドレスに対してCNAMEではなくて
ドメインレコードを複数作って、一つ一つにAレコードを作って
やろうかとも思い。さっきCNAMEを削除して、別の空ドメインファイル
を作りNSとAだけでとりあえずやってみました。
(たまに時間があると、こうしてやらなくていいことをしてしまう)

[xxxx.xx.xxファイル]
xxxx.xx.xx     NS     dns.xxxx.xx.xx
xxxx.xx.xx     A      999.999.999.01
YYY.xxxx.xx.xx CNAME  xxxx.xx.xx
↓

[xxxx.xx.xxファイル]
xxxx.xx.xx         NS     dns.xxxx.xx.xx
xxxx.xx.xx         A      999.999.999.01

[YYY.xxxx.xx.xxファイル]
xxxx.xx.xx         NS     YYY.xxxx.xx.xx
yyy.xxxx.xx.xx     A      999.999.999.01


としてみました。一応外からも中からもhttpでは
正常に見えているようです。

もしAレコードじゃないとインデクシングできないなら、これか(?)とも
思ってみたりしますが、こりゃ禁じ手でしょうか?
そこまでする事もないように思いますがYahooノーヒットの時に
gooが呼ばれる事を思いだし、やる意味もあるなと思う次第です。

寺皆みやび さんからのコメント
( Friday, March 10, 2000 17:52:37 )

いまさらいうのも何ですが
DNSって奥が深いなあ。

あんまり影響のないドメインについて
分割してドメインレコードつくっちゃいました。

上で不完全なDNS設定ものかいてますが
いちおうバシッとDNS設定したつもりです。
ただ1つのIPに複数のAレコードってのが
いんだか、わるいんだかわかりませんが・・・
(こんな事しちゃCNAMEの意味がないし)

これでしばらくインクトーミーロボの様子を観察します。
なんとなくフォルダ指定でURLを取りにくる時は
勝手にindex.htmlを探しているような気配もある。
サーバーでデフォルトインデックスをhome.htmlとかに
変えてあるとこれじゃダメですよね。

しばらく様子みです。

寺港みやび さんからのコメント
( Friday, March 31, 2000 18:13:20 )

イクトーミーロボの現状です。

●1つのIPアドレスに2つのドメインを割り当てている(jp/com)
●それぞれのドメインにはサブドメインがある
●サーバーによりデフォルトインデックスファイルがindex.htmとhome.htmがある
●ドメインによりをCNAMEとAレコードにわけている(テストの為)
(大半がページは日本語のs-jisで記述。)

(A)
インクトーミーはまずデフォルトインデックスがindex.htmでない場合
フォルダ指定のURLはインデクシングできない様です。
home.htmのサイト登録を、フォルダ指定ではなく/home.htmとしたところ
ロボットのアクセスは成功している模様。

しかしインクトーミーのDBには登録されていない。ものが多い。

(B)
Aレコードのみ登録されている(??)
xxxxx.com xxxxx.xx.jpは登録されているけど
yyyy.xxxxx.com や yyyy.xxxxx.xx.jp は登録されない。
ためしにyyyyもCNAMEからAにしてみたけど
登録されない。ロボットは次々うるさいほど来訪。

(登録されたAレコードのcomは全英語ページのs-jis記述)


今のところ解決の糸口は見い出せないです。
そうそう、gooがjp以外の登録が不透明なのではなく
どうやらインクトーミーの仕様の模様。
Yahoo.com(ここもインクトーミー)や他のの
インクトーミーロボ採用サイトも同様の検索結果でした。
しかし当然jp以外も多数登録されているので
どうやら、こちらサイトが固有にインクトーミーの
なんらかの基準に該当しない可能性があると思えます。

インクトーミー以外は当然登録されているんだけど・・・