A Semalt tippeket nyújt a robotok, a pókok és a robotok kezelésére

A keresőmotor számára barátságos URL-ek létrehozása mellett a .htaccess fájl lehetővé teszi a webmesterek számára, hogy blokkolják az egyes robotok hozzáférését a webhelyükhöz. A robotok blokkolásának egyik módja a robots.txt fájl. Ross Barber, a Semalt ügyfélszolgálati menedzser azonban kijelenti, hogy látta, hogy néhány bejáró figyelmen kívül hagyja ezt a kérést. Az egyik legjobb módszer a .htaccess fájl használata a tartalom indexelésének megakadályozására.
Mik ezek a botok?
Ezek egy olyan típusú szoftver, amelyet a keresőmotorok új tartalom törléséhez az internetről indexelési célokra használnak.

A következő feladatokat látják el:
- Látogasson el a weboldalakra, amelyekre linkelt
- Ellenőrizze a HTML-kód hibáit
- Mentik azokat a weboldalakat, amelyekre hivatkoznak, és megnézik, hogy milyen weboldalak kapcsolódnak az Ön tartalmához
- Indexelik a tartalmat
Egyes robotok azonban rosszindulatúak, és az Ön webhelyén olyan e-mail címeket és űrlapokat keresnek, amelyeket általában nem kívánt üzenetek vagy spam küldésére használnak. Mások még biztonsági réseket keresnek a kódjában.
Mire van szükség a webrobotok blokkolásához?
A .htaccess fájl használata előtt ellenőrizze a következőket:
1. A webhelynek Apache szerveren kell futnia. Manapság még azok a webtárhely-szolgáltatók is hozzáférhetnek a szükséges fájlokhoz, amelyek munkája félig tisztességes.
2. Hozzá kell férnie a webhelye nyers kiszolgálói naplójához, hogy megkereshesse azokat a botokat, amelyek meglátogatták a weboldalakat.
Ne feledje, hogy egyetlen módon sem tudja blokkolni az összes káros robotot, kivéve ha blokkolja az összeset, még azokat is, amelyeket hasznosnak tart. Minden nap új robotok jelennek meg, az idősebbek módosulnak. A leghatékonyabb módja annak, hogy biztosítsa a kódot, és megnehezítse a robotok számára a spam küldését.
A robotok azonosítása
A robotok azonosíthatók az IP-cím alapján vagy a „Felhasználói ügynök karakterlánca” alapján, amelyet elküldnek a HTTP fejlécekben. A Google például a "Googlebot" -t használja.
Szüksége lehet erre a listára 302 bottal, ha már rendelkezik a bot nevével, amelyet a .htaccess használatával távol szeretne tartani.
Egy másik módszer az összes naplófájl letöltése a szerverről, és szövegszerkesztővel történő megnyitás. Helyük a szerveren változhat a szerver konfigurációjától függően. Ha nem találja meg őket, kérjen segítséget a webhelyétől.

Ha tudja, melyik oldalon látogatta meg a látogatást, vagy a látogatás időpontját, könnyebb eljutni egy nem kívánt bothoz. A naplófájlban ezekkel a paraméterekkel is kereshet.
Egyszer már megjegyezte, hogy milyen botokat kell blokkolnia; akkor beillesztheti őket a .htaccess fájlba. Felhívjuk figyelmét, hogy a bot letiltása nem elég ahhoz, hogy megállítsák. Lehet, hogy új IP-vel vagy névvel tér vissza.
Hogyan blokkolhatom őket
Töltse le a .htaccess fájl másolatát. Készítsen biztonsági másolatot, ha szükséges.
1. módszer: blokkolás IP-vel
Ez a kódrészlet blokkolja a robotot a 197.0.0.1 IP-cím használatával
Rendelje tagadást, engedélyezze
Tagadja 197.0.0.1
Az első sor azt jelenti, hogy a szerver blokkolja az Ön által megadott mintáknak megfelelő összes kérést, és engedélyezi az összes többi kérést.
A második sor azt mondja a szervernek, hogy adjon ki egy 403: tiltott oldalt
2. módszer: Blokkolás a felhasználói ügynökök által
A legegyszerűbb módszer az Apache újraíró motorjának használata
RewriteEngine be
RewriteCond% {HTTP_USER_AGENT} BotUserAgent
RewriteRule. - [F, L]
Az első sor biztosítja, hogy az újraírási modul engedélyezve legyen. A második sor az a feltétel, amelyre a szabály vonatkozik. A 4. sorban szereplő „F” azt mondja a szervernek, hogy adja vissza a 403-at: Tilos, míg az „L” azt jelenti, hogy ez az utolsó szabály.
Ezután feltölti a .htaccess fájlt a szerverére, és felülírja a meglévőt. Idővel frissítenie kell a bot IP-jét. Hiba esetén csak töltse fel a biztonsági mentést.