このページは福井県立大学の田中求之が2006年1月まで運用していた Mac のサーバ運用に関する会議室 「Web Scripter's Meeting」の記録です。情報が古くなっている可能性がありますのでご注意ください。

excite.com がおかしい??

発言者:田中求之
( Date Tuesday, May 22, 2001 18:13:02 )


http://mtlab.ecn.fpu.ac.jp/status.mtlm

を見てもらえば分かるのですが、今日の午後になって、このサイトに1時間に
700〜800 hit (実質ページビューになる)のアクセスが来てます。

で、調べてみたら、何のことない、excite.com のロボット(ArchitexSpider)
が大量に入り込んでいる、しかも、延々と robots.txt へのアクセスをく
り返しているということが分かりました。

ページやサイトのチェック前に robots.txt を確認するようになっているのは
知っていたのですが、具体的なページはチェックせずに、ひたすら、くり返し
robots.txt を取り続ける。しかも、198.3.103.* と 199.172.149.* が excite
のロボットのマシン群なんですが、違う IP で次々とやって来ては同じこと
(robots.txt だけを取っていく)をやってるというのは、ちょっと不気味です。

なんかおかしくなってしまったのだろうか、excite...

たまちゃん さんからのコメント
( Tuesday, May 22, 2001 20:43:44 )

当方でも今日になってから excite のボロット君がいっぱいやって
来ています。以前はこんなにたくさんのボロットを持っていなかっ
たと思います。

はてさていつまで続くやら。

重松修 さんからのコメント
( Wednesday, May 23, 2001 00:35:48 )

調査してみました。
そうしたところ、うちにもやってきてます。
集計したら、こんな感じでした。かなり挙動不審ですね。。。

grep "^198\.3\.103\." < access_log | sed -e "s/\[.*\] \"//" | sed -e "s/\".*$//" | sort | uniq -c | sort -bnr
     27 198.3.103.95 - - GET /robots.txt HTTP/1.0
     21 198.3.103.107 - - GET /robots.txt HTTP/1.0
     20 198.3.103.82 - - GET /robots.txt HTTP/1.0
     16 198.3.103.78 - - GET /robots.txt HTTP/1.0
     16 198.3.103.106 - - GET /robots.txt HTTP/1.0
     15 198.3.103.23 - - GET /robots.txt HTTP/1.0
     14 198.3.103.85 - - GET /robots.txt HTTP/1.0
     14 198.3.103.22 - - GET /robots.txt HTTP/1.0
     14 198.3.103.114 - - GET /robots.txt HTTP/1.0
     13 198.3.103.79 - - GET /robots.txt HTTP/1.0
     12 198.3.103.73 - - GET /robots.txt HTTP/1.0
     10 198.3.103.53 - - GET /robots.txt HTTP/1.0
      8 198.3.103.112 - - GET /robots.txt HTTP/1.0
      3 198.3.103.76 - - GET /robots.txt HTTP/1.0
      2 198.3.103.75 - - GET /robots.txt HTTP/1.0

寺港みやび さんからのコメント
( Wednesday, May 23, 2001 09:49:28 )

うちにも怒涛のようにきています。
ロボットがエキサイトしてしまったのでしょうか?

田中求之 さんからのコメント
( Wednesday, May 23, 2001 12:43:25 )

収まるかと思っていたら、ますます暴走の度を深めてますねぇ。

まぁ、負荷テストだと思えばいいかって感じですが。

田中求之 さんからのコメント
( Wednesday, May 23, 2001 12:56:21 )

でも、考えてみたら、多くの人のところに入り込んでるってことは、今、
インターネットのパケットのかなりの部分を excite の暴走 robot が食ってる
ってことになりますよね。そうなると、一種の DoS 攻撃みたいなもんですね、これは。

Apple は、確か、ポータルとして excite と組んだはずですが、大丈夫なん
かいな、こんなところと組んじゃって。

たまちゃん さんからのコメント
( Wednesday, May 23, 2001 13:28:08 )

一応 excite Japan には連絡しておきました。

田中求之 さんからのコメント
( Wednesday, May 23, 2001 13:47:41 )

昨日の午前0時から、先ほどの13時までのログを調べて、ArchitexSpider
による Robots のリクエストの数を整理したら、以下のようになりました。
(REALbasic によるツールでログの抜き出しをやって、Analog に解析させた)

     date        time: #pages: #reqs:  kbytes: 
May/22/01 00:00-01:00:      0:     0:   0.000: 
May/22/01 01:00-02:00:      0:     0:   0.000: 
May/22/01 02:00-03:00:      0:     0:   0.000: 
May/22/01 03:00-04:00:      0:     0:   0.000: 
May/22/01 04:00-05:00:      0:     0:   0.000: 
May/22/01 05:00-06:00:      0:     0:   0.000: 
May/22/01 06:00-07:00:      0:     0:   0.000: 
May/22/01 07:00-08:00:      0:     0:   0.000: 
May/22/01 08:00-09:00:      0:     0:   0.000: 
May/22/01 09:00-10:00:      0:     0:   0.000: 
May/22/01 10:00-11:00:      0:    22:   0.773: 
May/22/01 11:00-12:00:      0:   304:  10.687: 
May/22/01 12:00-13:00:      0:   386:  13.570: 
May/22/01 13:00-14:00:      0:   394:  13.851: 
May/22/01 14:00-15:00:      0:   414:  14.554: 
May/22/01 15:00-16:00:      0:   418:  14.695: 
May/22/01 16:00-17:00:      0:   430:  15.117: 
May/22/01 17:00-18:00:      0:   403:  14.167: 
May/22/01 18:00-19:00:      0:   354:  12.445: 
May/22/01 19:00-20:00:      0:   290:  10.195: 
May/22/01 20:00-21:00:      0:   360:  12.656: 
May/22/01 21:00-22:00:      0:   429:  15.082: 
May/22/01 22:00-23:00:      0:   351:  12.339: 
May/22/01 23:00-24:00:      0:   332:  11.671: 

May/23/01 00:00-01:00:      0:   420:  14.765: 
May/23/01 01:00-02:00:      0:   428:  15.046: 
May/23/01 02:00-03:00:      0:   357:  12.550: 
May/23/01 03:00-04:00:      0:   371:  13.042: 
May/23/01 04:00-05:00:      0:   319:  11.214: 
May/23/01 05:00-06:00:      0:   307:  10.792: 
May/23/01 06:00-07:00:      0:   366:  12.867: 
May/23/01 07:00-08:00:      0:   100:   3.515: 
May/23/01 08:00-09:00:      0:    77:   2.707: 
May/23/01 09:00-10:00:      0:  2677:  94.113: 
May/23/01 10:00-11:00:      0:  1724:  60.609: 
May/23/01 11:00-12:00:      0:  1357:  47.707: 
May/23/01 12:00-13:00:      0:  1311:  46.089: 

昨日の昼ごろから暴走してますね。

また、ホスト名は以下のように、ほぼ満遍なく、交互に来てるみたいです。

#pages: %pages: #reqs:  %reqs:  kbytes: %bytes: host
------: ------: -----: ------: -------: ------: ----
     0:       :   657:  4.28%:  23.097:  4.28%: agouti.excite.com
     0:       :   326:  2.12%:  11.460:  2.12%:    bat.excite.com
     0:       :   541:  3.52%:  19.019:  3.52%:   chai.excite.com
     0:       :   460:  3.00%:  16.171:  3.00%: chawal.excite.com
     0:       :   322:  2.10%:  11.320:  2.10%:  china.excite.com
     0:       :   501:  3.26%:  17.613:  3.26%:   daal.excite.com
     0:       :   542:  3.53%:  19.054:  3.53%:   dosa.excite.com
     0:       :   687:  4.47%:  24.152:  4.47%: germany.excite.com
     0:       :   621:  4.04%:  21.832:  4.04%: gorilla.excite.com
     0:       :   435:  2.83%:  15.292:  2.83%:  harpa.excite.com
     0:       :   568:  3.70%:  19.968:  3.70%: hunter.excite.com
     0:       :   295:  1.92%:  10.371:  1.92%:   jung.excite.com
     0:       :   438:  2.85%:  15.398:  2.85%:   kant.excite.com
     0:       :   701:  4.57%:  24.644:  4.57%: koufax.excite.com
     0:       :   685:  4.46%:  24.082:  4.46%: macduff.excite.com
     0:       :   453:  2.95%:  15.925:  2.95%: marcuse.excite.com
     0:       :   315:  2.05%:  11.074:  2.05%:  miami.excite.com
     0:       :   521:  3.39%:  18.316:  3.39%: ophelia.excite.com
     0:       :   464:  3.02%:  16.312:  3.02%: pascal.excite.com
     0:       :   664:  4.32%:  23.343:  4.32%: perdita.excite.com
     0:       :   655:  4.27%:  23.027:  4.27%:  peter.excite.com
     0:       :   677:  4.41%:  23.800:  4.41%: philip.excite.com
     0:       :   540:  3.52%:  18.984:  3.52%: pierce.excite.com
     0:       :   463:  3.02%:  16.277:  3.02%:   pipa.excite.com
     0:       :   348:  2.27%:  12.234:  2.27%:  rorty.excite.com
     0:       :   483:  3.15%:  16.980:  3.15%: saussure.excite.com
     0:       :   344:  2.24%:  12.093:  2.24%: timbales.excite.com
     0:       :   220:  1.43%:   7.734:  1.43%: triangle.excite.com
     0:       :   309:  2.01%:  10.863:  2.01%:   tuba.excite.com
     0:       :   292:  1.90%:  10.265:  1.90%: tympani.excite.com
     0:       :   345:  2.25%:  12.128:  2.25%: ursula.excite.com
     0:       :   386:  2.51%:  13.570:  2.51%: violin.excite.com
     0:       :    96:  0.63%:   3.375:  0.63%: [not listed: 1 host]

やれやれ

たまちゃん さんからのコメント
( Wednesday, May 23, 2001 14:02:13 )

excite だけかと思ったら,今度は nttrd.com(調べると Infobee
のロボットみたい)がエラーばっかりだして巡回し出してます。
かなり性能の悪いボロットです。

ロボット業界になんか起こったのでしょうか?????

寺港みやび さんからのコメント
( Wednesday, May 23, 2001 19:15:38 )

こうして解析してもらうと・・・普通じゃないですよね?
ここのところのサーバー管理者の
血圧の統計もとってもらいたいです。
すこしだけあがっているかも。

今井真人 さんからのコメント
( Wednesday, May 23, 2001 22:03:59 )

関係ないかも知れませんが、アップルが2001年5月9日よりエキサイトと
共同で、スタートページのサービスを開始してます。

このため、マック関係のページを延々サーチしまくっているとか?

→  http://apple.excite.co.jp/

たまちゃん さんからのコメント
( Wednesday, May 23, 2001 22:30:15 )

返事が来ました。多くの方がすでに苦情を寄せているような印象を
受けました。

--
エキサイトのご利用まことにありがとうございます。

標記の件ですが、現在エキサイトのArchitextSpiderが
特定のファイル(robots.txt)ばかりを参照しにいってしまう
という現象が報告されております。

こちらは意図する参照ではないため、何らかの不具合
が発生しているものとみてただいま弊社およびUSエキサイト
エンジニアにて原因の調査をしております。

お客様には大変なご不便、ご迷惑をおかけして大変申し訳
ございませんが、何卒原因解明までいましばらくお待ち願います。

エキサイト株式会社
--

だそうです。

田中求之 さんからのコメント
( Thursday, May 24, 2001 20:08:27 )

相変わらず止む気配がないですねぇ。問題が起こっていることを知りながら
Robot を止めようとしない excite ってのもすごいと思うが…

田中求之 さんからのコメント
( Friday, May 25, 2001 12:33:52 )

ようやく止まったみたいですね(今日の午前2時ごろかな)。

excite から、なんかコメントでも出てるかと思って見てみましたが、今のところ
出てないみたいですね。

田中求之 さんからのコメント
( Saturday, May 26, 2001 16:41:45 )

このサイトへのアクセスの集計を行ったページを作っておきました。

→  ArchitexSpider 暴走の記録