逆SEOっていうか、お行儀の悪い検索ロボットを弾く作業。
もともとうちは裏方の役割だからして、アクセスしてくれるのはカナリ極まったホールユーザさんやラブドールユーザさんでそ。そんなに太い回線用意してないん。
ほれ、受注生産式の人形メーカさんで、ネットで注文募集かけてスタート後数分で完売とかよくあるじゃないですか。んで過負荷でサーバが落ちたり。うちは人気なくても落ちますから。
で、ログを見て負荷掛かってる部分をチューニングしていく。ここで目立つのがリンク先プレビューサービス。はてなとかSnapとか。
はてなは、
いったんアドレスが登録されてしまうと、その後robots.txtを読むことはない。しかもはてな経由で来る利用者はいないとくる。ロボットだけ毎日毎日。
さらに悪質なのはSnap。
snapの解説を。最初に画面キャプチャしたっきり、ずっと保持し続ける。こっちが画面替えても昔のプレビューのまま。noarchive指定してるんですけども。しかもrobots.txtを読んだ形跡すらないんですけども。これはsnapに直接クレームを入れておいた。Snapのカスタマサービスから「話は伝えておく」とだけ返事あり。
Snapのクローラはユーザエージェントを
"Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.7) Gecko/20060909 Firefox/1.5.0.7"
とか名乗ってて。ロボット名くらい名乗れと。
んで、noarchiveを積極的に無視するのがweb魚拓。ここまでいくと地下サービスというか。いやソッチ見てくれるんなら負荷掛かんなくてイイと言えばいいんだけども昔のだし。
いつの間にか作業が負荷対策が無法キャッシュ対策に。インタネである以上、無駄なあがきだけどねー。