Vyhľadávače sú vybavené robotmi, známymi tiež ako pavúky alebo roboty, ktorí prehľadávajú a indexujú webové stránky. Ak sa váš web alebo stránka vyvíja alebo obsahuje citlivý obsah, možno budete chcieť zablokovať robotom prehľadávanie a indexovanie vašich stránok. Naučte sa blokovať celé webové stránky, stránky a odkazy pomocou súborov robots.txt a blokovať konkrétne stránky a odkazy pomocou značiek HTML. Pokračujte v čítaní a zistite, ako zablokovať konkrétnym robotom prístup k vášmu obsahu.
Kroky
Metóda 1 z 2: Blokovanie vyhľadávacích nástrojov pomocou súborov robots.txt
Krok 1. Pochopte súbory robots.txt
Súbor robots.txt je obyčajný textový súbor alebo súbor ASCII, ktorý informuje pavúky vyhľadávačov o tom, k čomu majú prístup na vašom webe. Súbory a priečinky uvedené v súbore robots.txt nemusia byť indexovo prehľadávané a indexované pavúkmi vyhľadávacích nástrojov. Súbor robots.txt budete potrebovať, ak:
- Chcete zablokovať konkrétny obsah pred pavúkmi vyhľadávacích nástrojov.
- Vyvíjate živú stránku a nie ste pripravení na to, aby ju pavúky vyhľadávačov prehľadávali a indexovali
- Chcete obmedziť prístup k renomovaným robotom.
Krok 2. Vytvorte a uložte súbor robots.txt
Na vytvorenie súboru spustite obyčajný textový editor alebo editor kódu. Uložte súbor ako: robots.txt. Názov súboru musí byť malý.
- Nezabudnite na „s“.
- Pri ukladaní súboru zvoľte príponu „'.txt”'. Ak používate Word, vyberte možnosť „Obyčajný text“.
Krok 3. Napíšte súbor robots.txt s úplným zakázaním
Prostredníctvom súboru „robots.txt“, ktorý úplne zakazuje, je možné zablokovať všetky renomované vyhľadávače a indexové prehľadávanie vašich stránok. Do textového súboru napíšte nasledujúce riadky:
Používateľský agent: * Zakázať: /
Krok 4. Napíšte súbor robots.txt s podmieneným povolením
Namiesto blokovania všetkých robotov zvážte zablokovanie konkrétnych pavúkov z určitých oblastí vášho webu. Medzi bežné príkazy podmieneného povolenia patria:
- Blokovať konkrétneho robota: nahraďte hviezdičky vedľa User-agent s googlebot, googlebot-news, googlebot-image, bingbot, alebo teoma.
-
Blokovať adresár a jeho obsah:
User-agent: * Disallow: /sample-directory /
-
Blokovať webovú stránku:
Používateľský agent: * Zakázať: /súkromný_súbor.html
-
Blokovať obrázok:
Používateľský agent: googlebot-image Disallow: /images_mypicture.jpg
-
Blokovať všetky obrázky:
Používateľský agent: googlebot-image Zakázať: /
-
Blokovať konkrétny formát súboru:
Používateľský agent: * Zakázať: /p*.gif$
Krok 5. Podporte roboty, aby indexovali a indexovo prehľadávali vaše stránky
Mnoho ľudí chce namiesto bloku privítať pavúky vyhľadávacích nástrojov, pretože chcú mať indexovaný celý web. Aby ste to dosiahli, máte tri možnosti. Najprv sa môžete odhlásiť z vytvárania súboru robots.txt-keď robot nenájde súbor robots.txt, bude pokračovať v indexovom prehľadávaní a indexovaní celého vášho webu. Za druhé, môžete vytvoriť prázdny súbor robots.txt-robot nájde súbor robots.txt, rozpozná, že je prázdny, a bude pokračovať v indexovom prehľadávaní a indexovaní vašich stránok. Nakoniec môžete napísať súbor robots.txt s úplným povolením. Použite kód:
Používateľský agent: * Zakázať:
Krok 6. Uložte súbor txt do koreňa vašej domény
Po napísaní súboru robots.txt uložte zmeny. Odošlite súbor do koreňového adresára vášho webu. Ak je napríklad vaša doména www.vasadomena.com, umiestnite súbor robots.txt na www.vasadomena.com/robots.txt.
Metóda 2 z 2: Blokovanie vyhľadávacích nástrojov metaznačkami
Krok 1. Pochopte metaznačky robotov HTML
Meta tag robots umožňuje programátorom nastaviť parametre pre roboty alebo pavúky vyhľadávacích nástrojov. Tieto značky sa používajú na blokovanie robotov v indexovaní a indexovom prehľadávaní celého webu alebo len jeho častí. Tieto značky môžete použiť aj na zablokovanie indexovania vášho obsahu konkrétnym pavúkom vyhľadávača. Tieto značky sa zobrazujú v záhlaví súboru HTML.
Túto metódu bežne používajú programátori, ktorí nemajú prístup do koreňového adresára webovej stránky
Krok 2. Blokovanie robotov z jednej stránky
Je možné zablokovať všetkých robotov z indexovania stránky alebo z odkazov na stránku. Táto značka sa bežne používa, keď sa vyvíja živý web. Hneď ako bude web dokončený, dôrazne vám odporúčame túto značku odstrániť. Ak značku neodstránite, vaša stránka nebude indexovaná ani sa v nej nebude dať vyhľadávať prostredníctvom vyhľadávacích nástrojov.
- Robotom môžete zablokovať indexovanie stránky a sledovanie niektorého z odkazov:
- Môžete zablokovať všetkých robotov z indexovania stránky:
- Všetkým robotom môžete zablokovať prístup k odkazom na stránku:
Krok 3. Umožnite robotom indexovať stránku, ale nesledovať jej odkazy
Ak robotom povolíte indexovanie stránky, stránka bude indexovaná; ak zabránite pavúkom v sledovaní odkazov, cesta odkazu z tejto konkrétnej stránky na iné stránky sa preruší. Do hlavičky vložte nasledujúci riadok kódu:
Krok 4. Nechajte pavúky vyhľadávača sledovať odkazy, ale neindexovať stránku
Ak robotom povolíte sledovať odkazy, cesta odkazu z tejto konkrétnej stránky na iné stránky zostane taktná; ak im obmedzíte indexovanie stránky, vaša webová stránka sa v indexe nezobrazí. Do hlavičky vložte nasledujúci riadok kódu:
Krok 5. Zablokujte jeden odchádzajúci odkaz
Ak chcete skryť jeden odkaz na stránke, vložte súbor rel tag v tagu odkazu. Možno budete chcieť použiť túto značku na blokovanie odkazov na iných stránkach, ktoré vedú na konkrétnu stránku, ktorú chcete zablokovať.
Vložiť odkaz na blokovanú stránku
Krok 6. Blokujte konkrétneho pavúka vyhľadávača
Namiesto blokovania všetkých robotov z vašej webovej stránky môžete zabrániť jednému robotovi v indexovom prehľadávaní a indexovaní stránky. Aby ste to dosiahli, nahraďte „„ robot “v meta značke názvom konkrétneho robota. Medzi príklady patrí: googlebot, googlebot-news, googlebot-image, bingbota teoma.
Krok 7. Podporte roboty, aby prehľadávali a indexovali vašu stránku
Ak chcete zaistiť, aby bola vaša stránka indexovaná a aby sa dodržiavali jej odkazy, môžete vložiť povolenie nasledovať meta „robot“ označte do hlavičky. Použite nasledujúci kód: