🗐 てがろぐ - Fumy Otegaru Memo Logger -

お手軽一言掲示板(この辺の文章は「管理画面」の「設定」内にある「フリースペース」タブから編集できます。)

or 管理画面へ

No.5058, No.5057, No.5056, No.5055, No.5054, No.5053, No.50527件]

Icon of misaki
5055です。すみません、そうなんですね。私はずっと併用していて、最初のrobots.txtで全部弾いちゃってますがgoogleもちゃんと弾いてくれているので、やり方は間違っていてもとりあえずこのままでいいかなと思っています(笑)今はgoogleの検索基準…精度…?自体がいまいちになってきてるのもあるのかもしれません。私も普段はgoogleで検索することなくなりましたし。そもそもネットにあげてる時点であらゆる面でブロックするというのも難しいですしね。
こんな話だけで申し訳ない、てがろぐ、とても愛用させてもらっています。いつもありがとうございます。
NO IMAGE
今日からまたちょっと寒くなるっぽい……?

🍔Re:5055◆その適用順序は半分(前半が)間違っていますのでご注意下さい。robots.txtでクローラーをブロックすると検索避けができなくなる点は、Google自身が公式ヘルプで明言しています。(「インデックスに登録してはいけない」という指示自体が読めなくなるため)
robots.txt ファイルでページのクロールが許可されていない場合、インデックス登録や表示に関するルールについての情報は検出されず、その結果無視されます
後半の「metaタグ→それでも読まないお行儀悪いものは.htaccess」は正しい順序ですが、最初に「まずはrobots.txtを読んでもらう」とすると、Googleでは検索避けに失敗します。(※robots.txtでGoogle等の紳士的なクローラーをブロックしていないなら問題ありませんが。)

🍔Re:5053◆Googleに関してはその通りです。.htaccessでブロックしてもいけないし、robots.txtでブロックしてもいけません。なぜなら、ブロックされると「登録するな」という指示自体も読めないからです。
  • もちろん、robots.txtでブロックされているならクローラーはページの内容を読みませんから、(ページ内に何が書かれているのかの情報は得られないため)インデックスに登録される可能性は減りはします(※なので「この方法で検索避けは成功する」と思えるケースもあるでしょう)。
  • しかし、登録禁止だという指示自体も伝わっていないため、よほど評価値の高い外部サイトからリンクされている場合などの外部要因次第では(リンク元ページにあるリンクテキストなどのように「読むことを禁止されていない場所にある情報」を用いて)インデックスに登録される可能性が残ります。
なので、少なくともGoogleに関しては、.htaccessはもちろんrobots.txtでもブロックしてはならず、meta要素だけで指示するのが最も確実です。

※2000年代からある古典的な話ですが、「出口」という検索語でググると、Yahoo! Japanがヒットします。これは「出口」というリンクテキストを使ってYahoo!にリンクしているサイトが多いことによる影響です。つまり、「どんなリンクテキストを使ってリンクされているのか」という情報も検索サイトに反映される(要素の1つになる)のです。なので、robots.txtでページの中身を読むことだけを禁止しても(&.htaccessでページ自体を読めなくしても)、インデックスに登録される可能性はあります。
したがって、インデックス登録を避けるには、ページそのものに書かれた登録禁止の指示を確実に読ませる必要があるため、ブロックしてはいけないのです。

……とはいえ、世の中に存在するクローラーはGoogleやBingのような比較的紳士的に動作するものだけではありません(※検索のシェアはGoogleが1強ですが)。metaタグの存在を無視してインデックスに登録しようとするクローラーも存在するでしょう。なので、metaタグを読まないような無作法なクローラーに対しては、何らかのブロックをするほかありません。(そのような無作法なクローラーはrobots.txtだって読まないでしょうから、.htaccessでサーバ側に応答を拒否させるしかないでしょう。)
したがって、検索避けを厳密にしたいなら、以下のような方策が必要です。
  1. まずは、metaタグを読ませる。(←紳士的なクローラーはこの指示に従うので、まずはこれを確実に読ませる必要がある。)
  2. (次に、metaタグを無視するようなBotだけに限定して、robots.txtでブロックする。)
  3. 最後に、1も2も無視するようなBotだけに限定して、.htaccessでブロックする。
この順序です。(metaタグの指示に従わないBotはrobots.txtだって読まないでしょうから、.htaccessでブロックできるなら2は省略して良いですが。)
この順序を逆にしてしまうと(=あらゆるクローラーを.htaccessでブロックすると)、そもそもmetaタグを書く意味がなくなってしまいますから注意して下さい。なぜなら『あらゆるクローラーがmetaタグを読めなくなる』からです。
Googleだけを対象にするなら、そもそもmetaタグだけで充分です。他の無作法なBotも対象にしたい場合は、「Googleのような紳士的なクローラーにはアクセスを許可しつつ、無作法なクローラーだけを拒否するような .htaccessを書く」必要があります。

※なお、robots.txt自体に意味がないわけではありません。検索サイト以外のクローラー(最近ではAI学習用のBotも多いですね)をブロックする用途や、「クロールそのものは許可したいがクロール頻度を低く抑えたい(=負荷軽減)」場合などの指示には役立ちます。
とはいえ、Googleはrobots.txtに書かれた「クロール頻度の指示」は無視するんですけども……。┌(:3」└)┐

🍔Re:5054◆その場合は、2つの方法があります。
  1. 『サイトマップページモードをカテゴリ限定で表示させたページ』をiframeで読み込んで並べるページを作る。
  2. 『サイトマップページモードをカテゴリ限定で表示させたページ』の中身をJavaScriptで読み込んで1ページに合成するページを作る。
iframeは(コンテンツが可変長の場合に)サイズ調整が難しいので、②の方が柔軟に配置できるでしょうね。必要な箇所だけを抽出するのも簡単ですし。
Icon of admin
5055さん、詳しくありがとうこざいます🙇
せっかく検索避けしているのに意味がないかもしれないと知って焦っていたので、少し落ち着けました。冷静に対処していきます。
Icon of misaki
chatgptに聞いた情報ですが、まずはrobots.txtを読んでもらう→読まないbotにはmetaタグ→それでも読まないお行儀悪いものは.htaccess…という感じで使い分けての併用なら意味があるとのことでした。私はずっと併用しています。
なんでもかんでも.htaccessで弾いてしまうと、robots.txtやmetaタグを読んでくれるbotには意味がなくなってしまうよ、ということではないかと思います。.htaccessで弾きつつ、robots.txtだけはアクセス許可するとかもできますよ。調べればそれぞれ出てくるかと…
Icon of admin
>5052
5051です。
サイトマップページモードを使うと、②③④ができるんですね!!
①もTODOリストに入れてくださりありがとうございます!!
ただ、私は「カテゴリAに属する記事の一覧のかたまり」と「カテゴリBに属する記事の一覧のかたまり」を同じページ上に並べたかったので新着投稿リストを使っていたのですが、サイトマップページモードの機能でもそのようなことはできますか…?
Icon of admin
すみません、検索避けについて、質問された方とは別の人間なのですが、質問があります。

つまりまとめると、検索避けはhtmlのmeta要素のみ使うべきで、.htaccessやrobots.txtは使ってはいけない(併用も不可)ということでしょうか?

読解力がなく、頭の悪い質問で申し訳ないのですが、重要なところなので詳細を知りたいです。
NO IMAGE
昼食は冷蔵ピザ。🍕🍕🍕

🍕Re:5051◆目次は「サイトマップページモード」をご使用下さい。サイトマップページモードは、名称を「目次モード」にしておく方が良かったかな、と思うくらい、元々目次用途に作ったモードです。
このモードを使えば、ご要望の②・③・④は既に実現できます
なお、①については確かにあると便利そうですね(サイトマップページモードでも)。ToDoリストに入れておきます。(※今の時点で実現したい場合は、JavaScriptを使って、リンク先URLの末尾に &cat=(カテゴリID) を加える方法はあります。)

■フリースペース:

ここは、CGIの設定画面から自由に文章を入力して掲載できるスペースです。スキンを編集しなくてもCGI上から手軽に内容を変更できます(HTML使用可)。
動作サンプルです。◆他のスキン:標準スキン, 昔のツイッターっぽいスキン(ピンク版), 付箋型スキン, シンプル日記スキン, ジャーナル(日誌)スキン, ブログタイプスキン, チャットタイプスキン, 黒板スキンてがろぐCGIの配布ページに戻る

編集

■複合検索:

  • 投稿者名:
  • 投稿年月:
  • #タグ:
  • カテゴリ:
  • 出力順序:

■新着画像リスト:

Perlのバージョンを上げる設定(さくらインターネット)

全317個 (総容量 36.08MB)

■日付一覧:

■日付検索:

■カレンダー:

2025年3月
1
2345678
9101112131415
16171819202122
23242526272829
3031

■最近の投稿:

最終更新日時:
2025年6月2日(月) 02時58分00秒〔3時間前〕

動作サンプルです。 ご自由にお試し下さい。パスワードguest管理画面もお試し頂けます。
■いま見ているスキンは「昔のツイッターっぽいスキン(ブルー)」です。他に、 標準スキン昔のツイッターっぽいスキン(ピンク)付箋型スキンシンプル日記スキンジャーナル(日誌)スキンブログタイプスキン(タイトル付きブログっぽくできるスキン)、 黒板スキンチャットタイプスキンがあります。
てがろぐCGIの配布・解説ページに戻る