このページは福井県立大学の田中求之が2006年1月まで運用していた Mac のサーバ運用に関する会議室 「Web Scripter's Meeting」の記録です。情報が古くなっている可能性がありますのでご注意ください。

robots.txtって?

発言者:noriki
( Date Friday, December 29, 2000 10:44:29 )


現在、外部のレンタルサーバー(画像&CGI用)と手元マシンのFMPro・Webコンパニオンを連携させてサイト運営をしています。
そしてアクセスログを見ていましたらアクセスして頂いたIPアドレスの後ろに「robots.text」
というのが何件か見つかりました。どうも検索エンジンなどからサイト情報を収集に来た「ロボット」の様です。
以前は全て1ページづつHTMLで原稿を書いていましたが、現在はフォーマットファイルに
データベースからデータを流し込む体裁に変更しています。こんな環境だと「ロボット」君は
何を読んでいくのでしょうか?

それとサイト全体をデータベースに入れ込んでしまうと、これまでに折角リンクしてくれて
いたようなロボット検索・検索エンジンから、もうお呼びが掛からなくなってしまうのでしょうか?

そうだとすると、サイトの更新などを(自分にとって)便利にするのも考え物なのかなぁ・・・・

田中求之 さんからのコメント
( Friday, December 29, 2000 15:30:10 )

>こんな環境だと「ロボット」君は
>何を読んでいくのでしょうか?

リンクが張られているかぎり、ロボットはアクセスして中身を読みこみますよ。
たとえば、この会議室の各話題のページは、すべて CGI が生成するわけですが、
ちゃんとしたロボットなら、ページごとにきちんと読みこみます。

…できの悪いロボットだと、URL のパラメータの部分をうまく処理できなく
て、延々とエラーを起こしたりしてますが…(最近は見かけなくなった)

noriki さんからのコメント
( Friday, December 29, 2000 19:45:07 )

えっ、そうなんですか。はぁ〜・・・。

でもトップページにアクセスする毎に新規IDを振っているので
(注文用に)、そのロボットに導かれてサイトに来てもらっても
その内、どこかでエラーが出てしまいそうです。
過去にそのロボットに割りあてた「ID」付きでリンクされそうですから。
難儀だなぁ。

田中先生お教えいただき有り難うございます。
でもこんな年末なのにお仕事なのでしょうか・・・。
あっいえ質問ではないですから。

ハリー さんからのコメント
( Friday, December 29, 2000 20:00:01 )

こんにちは。

robots.txt とは、自動巡回型の Webロボットにたいして、
「ここは自動取得対象にしないでください」という
情報が記されているファイルです。

まっとうな巡回ロボットならば、普通は最初にこのファイルを
取得し、巡回対象にしてはいけないディレクトリなどを認識するわけです。

もっとも、このファイルの情報はあくまで「推奨」ですから、
なんらかの理由により無視することも可能なわけですが。

ご質問の件も、ロボットがまずこのファイルを取りに来ている
時のログではないかと思うのですが、いかがでしょうか。

noriki さんからのコメント
( Sunday, December 31, 2000 22:26:48 )

あ、こちら側のファイルですか。
ちょっと探してみます。でも確かなかったような・・・。

でもサーバを立ててサイトを運営するって、そんなロボットの
心配までしなけりゃならないんですねぇ。ふう・・。

お教え頂き有り難うございました。
皆様よいお年を!

あけみ さんからのコメント
( Monday, January 01, 2001 16:40:54 )

robots.txt はどうやって取り除ければいいのでしょうか?
GOOなどにリンクをはりたいのですが、このFILEがあるため、エラーがでます。
なにかいいアイデアをください

ハリー さんからのコメント
( Tuesday, January 02, 2001 17:28:51 )

こんにちは。

適当な検索エンジンを利用すれば
このファイルの書式などに関する
情報は探すことが出来ると思いますよ。

ゆうれい さんからのコメント
( Wednesday, January 03, 2001 20:12:37 )

休刊しちゃった日経マックにのっていたのは
http//www.earth.s.kobe-u.ac.jp/~takawata/robots.html