Semalt Jipprovdi Għajnuniet dwar Kif Tittratta Bots, Brimb U Crawlers

Minbarra li toħloq URLs faċli għall- magni tat-tiftix , il-fajl .htaccess iħalli lill-webmasters jimblokkaw il-bots speċifiċi milli jaċċessaw il-websajt tagħhom. Mod wieħed kif timblokka dawn ir-robots huwa permezz tal-fajl robots.txt. Madankollu, Ross Barber, il- Maniġer tas-Suċċess tal-Klijent ta ' Semalt , jiddikjara li kien jara xi tkaxkir jinjora din it-talba. Wieħed mill-aħjar modi huwa li tuża l-fajl .htaccess biex twaqqafhom milli jindiċizzaw il-kontenut tiegħek.

X'inhuma dawn il-bot?

Huma tip ta 'softwer użat mill-magni tat-tiftix biex iħassar kontenut ġdid mill-internet għal skopijiet ta' indiċjar.

Huma jwettqu l-kompiti li ġejjin:

  • Żur il-paġni web li inti marbuta magħhom
  • Iċċekkja l-kodiċi HTML tiegħek għal żbalji
  • Issejvja liema paġni tal-web qed tgħaqqad u jaraw liema paġni tal-web jorbtu mal-kontenut tiegħek
  • Huma indiċi l-kontenut tiegħek

Madankollu, xi bots huma malizzjużi u jfittxu s-sit tiegħek għal indirizzi tal-email u forom li ġeneralment jintużaw biex jibagħtu messaġġi jew spam mhux mixtieqa. Oħrajn saħansitra jfittxu lakuni ta 'sigurtà fil-kodiċi tiegħek.

X'inhu meħtieġ biex timblokka web crawlers?

Qabel ma tuża l-fajl .htaccess, trid tivverifika l-affarijiet li ġejjin:

1. Is-sit tiegħek għandu jaħdem fuq server Apache. Illum il-ġurnata, anke dawk il-kumpaniji li jospitaw il-web nofshom deċenti fix-xogħol tagħhom, jagħtik aċċess għall-fajl meħtieġ.

2. Għandu jkollok aċċess għal int li qed tirreġistra s-server mhux maħdum tal-websajt tiegħek sabiex tkun tista 'ssib liema bots kienu jżuru l-paġni tal-web tiegħek.

Innota li m'hemm l-ebda mod li int tkun tista 'timblokka l-bots kollha ta' ħsara sakemm ma tibblokkahom kollha, anke dawk li tqis li huma ta 'għajnuna. Bots ġodda joħorġu kuljum, u dawk anzjani huma modifikati. L-iktar mod effiċjenti huwa li tassigura l-kodiċi tiegħek u tagħmilha diffiċli għall-bots li jibagħtulek spam.

Bots li jidentifikaw

Il-bots jistgħu jew jiġu identifikati mill-indirizz IP jew mill- "String Agent tal-Utent" tagħhom li jibagħtu fl-intestaturi HTTP. Pereżempju, Google juża "Googlebot."

Jista 'jkollok bżonn din il-lista bi 302 bot jekk diġà għandek l-isem tal-bot li tixtieq iżżomm' il bogħod billi tuża .htaccess

Mod ieħor huwa li tniżżel il-fajls tal-ġurnal kollha mis-server u tiftaħhom bl-użu ta 'editur tat-test. Il-lok tagħhom fis-server jista 'jinbidel skont il-konfigurazzjoni tas-server tiegħek. Jekk ma tistax issibhom, fittex għajnuna mill-web host tiegħek.

Jekk taf liema paġna żaret, jew il-ħin taż-żjara, huwa aktar faċli li tasal ma 'bot mhux mixtieq. Tista 'tfittex il-fajl tal-ġurnal b'dawn il-parametri.

Ladarba, innotajt liema bot għandek bżonn timblokka; imbagħad tista 'tinkludihom fil-fajl .htaccess. Jekk jogħġbok innota li l-imblukkar tal-bot mhuwiex biżżejjed biex twaqqafha. Jista 'jerġa' jidħol b'IP jew isem ġdid.

Kif timblokkahom

Niżżel kopja tal-fajl .htaccess. Agħmel backups jekk meħtieġ.

Metodu 1: imblukkar bl-IP

Dan is-snippet tal-kodiċi jimblokka l-bot billi juża l-indirizz IP 197.0.0.1

Ordna Ċaħad, Ħalli

Ċaħad mill-197.0.0.1

L-ewwel linja tfisser li s-server jimblokka t-talbiet kollha li jaqblu mal-mudelli li int speċifikat u jippermetti lill-oħrajn kollha.

It-tieni linja tgħid lis-server joħroġ 403: paġna pprojbita

Metodu 2: Imblukkar mill-aġenti tal-Utent

L-eħfef mod huwa li tuża l-magna li tinkiteb mill-ġdid Apache

RewriteEngine Fuq

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule - [F, L]

L-ewwel linja tiżgura li l-modulu tar-rewrite ikun attivat. Il-linja 2 hija l-kundizzjoni li għaliha tapplika r-regola. Il- "F" tal-linja 4 jgħid lill-server biex jirritorna 403: Projbit waqt li l- "L" tfisser din hija l-aħħar regola.

Imbagħad ittella 'l-fajl .htaccess fuq is-server tiegħek u tibgħat fuq dak eżistenti. Biż-żmien, ser ikollok bżonn taġġorna l-IP tal-bot. Fil-każ li tagħmel xi żball, sempliċement ittella 'l-backup li tkun għamilt.

mass gmail