No.5058, No.5057, No.5056, No.5055, No.5054, No.5053, No.5052[7件]
5055です。すみません、そうなんですね。私はずっと併用していて、最初のrobots.txtで全部弾いちゃってますがgoogleもちゃんと弾いてくれているので、やり方は間違っていてもとりあえずこのままでいいかなと思っています(笑)今はgoogleの検索基準…精度…?自体がいまいちになってきてるのもあるのかもしれません。私も普段はgoogleで検索することなくなりましたし。そもそもネットにあげてる時点であらゆる面でブロックするというのも難しいですしね。
こんな話だけで申し訳ない、てがろぐ、とても愛用させてもらっています。いつもありがとうございます。
こんな話だけで申し訳ない、てがろぐ、とても愛用させてもらっています。いつもありがとうございます。
今日からまたちょっと寒くなるっぽい……?
🍔Re:5055◆その適用順序は半分(前半が)間違っていますのでご注意下さい。robots.txtでクローラーをブロックすると検索避けができなくなる点は、Google自身が公式ヘルプで明言しています。(「インデックスに登録してはいけない」という指示自体が読めなくなるため)
後半の「metaタグ→それでも読まないお行儀悪いものは.htaccess」は正しい順序ですが、最初に「まずはrobots.txtを読んでもらう」とすると、Googleでは検索避けに失敗します。(※robots.txtでGoogle等の紳士的なクローラーをブロックしていないなら問題ありませんが。)
🍔Re:5053◆Googleに関してはその通りです。.htaccessでブロックしてもいけないし、robots.txtでブロックしてもいけません。なぜなら、ブロックされると「登録するな」という指示自体も読めないからです。
※2000年代からある古典的な話ですが、「出口」という検索語でググると、Yahoo! Japanがヒットします。これは「出口」というリンクテキストを使ってYahoo!にリンクしているサイトが多いことによる影響です。つまり、「どんなリンクテキストを使ってリンクされているのか」という情報も検索サイトに反映される(要素の1つになる)のです。なので、robots.txtでページの中身を読むことだけを禁止しても(&.htaccessでページ自体を読めなくしても)、インデックスに登録される可能性はあります。
したがって、インデックス登録を避けるには、ページそのものに書かれた登録禁止の指示を確実に読ませる必要があるため、ブロックしてはいけないのです。
……とはいえ、世の中に存在するクローラーはGoogleやBingのような比較的紳士的に動作するものだけではありません(※検索のシェアはGoogleが1強ですが)。metaタグの存在を無視してインデックスに登録しようとするクローラーも存在するでしょう。なので、metaタグを読まないような無作法なクローラーに対しては、何らかのブロックをするほかありません。(そのような無作法なクローラーはrobots.txtだって読まないでしょうから、.htaccessでサーバ側に応答を拒否させるしかないでしょう。)
したがって、検索避けを厳密にしたいなら、以下のような方策が必要です。
この順序を逆にしてしまうと(=あらゆるクローラーを.htaccessでブロックすると)、そもそもmetaタグを書く意味がなくなってしまいますから注意して下さい。なぜなら『あらゆるクローラーがmetaタグを読めなくなる』からです。
Googleだけを対象にするなら、そもそもmetaタグだけで充分です。他の無作法なBotも対象にしたい場合は、「Googleのような紳士的なクローラーにはアクセスを許可しつつ、無作法なクローラーだけを拒否するような .htaccessを書く」必要があります。
※なお、robots.txt自体に意味がないわけではありません。検索サイト以外のクローラー(最近ではAI学習用のBotも多いですね)をブロックする用途や、「クロールそのものは許可したいがクロール頻度を低く抑えたい(=負荷軽減)」場合などの指示には役立ちます。
とはいえ、Googleはrobots.txtに書かれた「クロール頻度の指示」は無視するんですけども……。┌(:3」└)┐
🍔Re:5054◆その場合は、2つの方法があります。
🍔Re:5055◆その適用順序は半分(前半が)間違っていますのでご注意下さい。robots.txtでクローラーをブロックすると検索避けができなくなる点は、Google自身が公式ヘルプで明言しています。(「インデックスに登録してはいけない」という指示自体が読めなくなるため)
robots.txt ファイルでページのクロールが許可されていない場合、インデックス登録や表示に関するルールについての情報は検出されず、その結果無視されます。
後半の「metaタグ→それでも読まないお行儀悪いものは.htaccess」は正しい順序ですが、最初に「まずはrobots.txtを読んでもらう」とすると、Googleでは検索避けに失敗します。(※robots.txtでGoogle等の紳士的なクローラーをブロックしていないなら問題ありませんが。)
🍔Re:5053◆Googleに関してはその通りです。.htaccessでブロックしてもいけないし、robots.txtでブロックしてもいけません。なぜなら、ブロックされると「登録するな」という指示自体も読めないからです。
- もちろん、robots.txtでブロックされているならクローラーはページの内容を読みませんから、(ページ内に何が書かれているのかの情報は得られないため)インデックスに登録される可能性は減りはします(※なので「この方法で検索避けは成功する」と思えるケースもあるでしょう)。
- しかし、登録禁止だという指示自体も伝わっていないため、よほど評価値の高い外部サイトからリンクされている場合などの外部要因次第では(リンク元ページにあるリンクテキストなどのように「読むことを禁止されていない場所にある情報」を用いて)インデックスに登録される可能性が残ります。
※2000年代からある古典的な話ですが、「出口」という検索語でググると、Yahoo! Japanがヒットします。これは「出口」というリンクテキストを使ってYahoo!にリンクしているサイトが多いことによる影響です。つまり、「どんなリンクテキストを使ってリンクされているのか」という情報も検索サイトに反映される(要素の1つになる)のです。なので、robots.txtでページの中身を読むことだけを禁止しても(&.htaccessでページ自体を読めなくしても)、インデックスに登録される可能性はあります。
したがって、インデックス登録を避けるには、ページそのものに書かれた登録禁止の指示を確実に読ませる必要があるため、ブロックしてはいけないのです。
……とはいえ、世の中に存在するクローラーはGoogleやBingのような比較的紳士的に動作するものだけではありません(※検索のシェアはGoogleが1強ですが)。metaタグの存在を無視してインデックスに登録しようとするクローラーも存在するでしょう。なので、metaタグを読まないような無作法なクローラーに対しては、何らかのブロックをするほかありません。(そのような無作法なクローラーはrobots.txtだって読まないでしょうから、.htaccessでサーバ側に応答を拒否させるしかないでしょう。)
したがって、検索避けを厳密にしたいなら、以下のような方策が必要です。
- まずは、metaタグを読ませる。(←紳士的なクローラーはこの指示に従うので、まずはこれを確実に読ませる必要がある。)
- (次に、metaタグを無視するようなBotだけに限定して、robots.txtでブロックする。)
- 最後に、1も2も無視するようなBotだけに限定して、.htaccessでブロックする。
この順序を逆にしてしまうと(=あらゆるクローラーを.htaccessでブロックすると)、そもそもmetaタグを書く意味がなくなってしまいますから注意して下さい。なぜなら『あらゆるクローラーがmetaタグを読めなくなる』からです。
Googleだけを対象にするなら、そもそもmetaタグだけで充分です。他の無作法なBotも対象にしたい場合は、「Googleのような紳士的なクローラーにはアクセスを許可しつつ、無作法なクローラーだけを拒否するような .htaccessを書く」必要があります。
※なお、robots.txt自体に意味がないわけではありません。検索サイト以外のクローラー(最近ではAI学習用のBotも多いですね)をブロックする用途や、「クロールそのものは許可したいがクロール頻度を低く抑えたい(=負荷軽減)」場合などの指示には役立ちます。
とはいえ、Googleはrobots.txtに書かれた「クロール頻度の指示」は無視するんですけども……。┌(:3」└)┐
🍔Re:5054◆その場合は、2つの方法があります。
- 『サイトマップページモードをカテゴリ限定で表示させたページ』をiframeで読み込んで並べるページを作る。
- 『サイトマップページモードをカテゴリ限定で表示させたページ』の中身をJavaScriptで読み込んで1ページに合成するページを作る。
5055さん、詳しくありがとうこざいます🙇
せっかく検索避けしているのに意味がないかもしれないと知って焦っていたので、少し落ち着けました。冷静に対処していきます。
せっかく検索避けしているのに意味がないかもしれないと知って焦っていたので、少し落ち着けました。冷静に対処していきます。
chatgptに聞いた情報ですが、まずはrobots.txtを読んでもらう→読まないbotにはmetaタグ→それでも読まないお行儀悪いものは.htaccess…という感じで使い分けての併用なら意味があるとのことでした。私はずっと併用しています。
なんでもかんでも.htaccessで弾いてしまうと、robots.txtやmetaタグを読んでくれるbotには意味がなくなってしまうよ、ということではないかと思います。.htaccessで弾きつつ、robots.txtだけはアクセス許可するとかもできますよ。調べればそれぞれ出てくるかと…
なんでもかんでも.htaccessで弾いてしまうと、robots.txtやmetaタグを読んでくれるbotには意味がなくなってしまうよ、ということではないかと思います。.htaccessで弾きつつ、robots.txtだけはアクセス許可するとかもできますよ。調べればそれぞれ出てくるかと…
すみません、検索避けについて、質問された方とは別の人間なのですが、質問があります。
つまりまとめると、検索避けはhtmlのmeta要素のみ使うべきで、.htaccessやrobots.txtは使ってはいけない(併用も不可)ということでしょうか?
読解力がなく、頭の悪い質問で申し訳ないのですが、重要なところなので詳細を知りたいです。
つまりまとめると、検索避けはhtmlのmeta要素のみ使うべきで、.htaccessやrobots.txtは使ってはいけない(併用も不可)ということでしょうか?
読解力がなく、頭の悪い質問で申し訳ないのですが、重要なところなので詳細を知りたいです。
昼食は冷蔵ピザ。🍕🍕🍕
🍕Re:5051◆目次は「サイトマップページモード」をご使用下さい。サイトマップページモードは、名称を「目次モード」にしておく方が良かったかな、と思うくらい、元々目次用途に作ったモードです。
このモードを使えば、ご要望の②・③・④は既に実現できます。
🍕Re:5051◆目次は「サイトマップページモード」をご使用下さい。サイトマップページモードは、名称を「目次モード」にしておく方が良かったかな、と思うくらい、元々目次用途に作ったモードです。
このモードを使えば、ご要望の②・③・④は既に実現できます。
- ②そのカテゴリのカテゴリ名と概要文は、スキン内で現在カテゴリ情報要素を使えば表示できます。
- ③投稿内に含まれるハッシュタグの抽出表示は、投稿本文関連要素(オプション)の抽出結果を挿入(ハッシュタグ)を使えば実現できます。
- ④カテゴリごとに表示される投稿件数の変更は、てがろぐ Ver 4.5.3βで搭載した『カテゴリごとに「1ページあたりの表示件数」を別設定できる機能』を使えば実現できます。(※ここでの設定値は、通常の表示モードだけでなく、サイトマップページモードでも有効です。)