Spidering un Web roboti

Zirnekļi un tīmekļa meklētāji: kas jums jāzina, lai aizsargātu vietnes datus

Zirnekļi ir programmas (vai automatizēti skripti), kas "pārmeklē" tīmeklī, meklējot datus. Zirnekļi ceļo, izmantojot vietnes vietrāžus URL, un var noņemt datus no tādām tīmekļa lapām kā e-pasta adreses. Zirnekļi tiek izmantoti arī informācijas meklētājprogrammās atrodamai informācijai.

Zirnekļi, kurus sauc arī par "tīmekļa rāpotājiem", meklē internetā, un ne visi ir draudzīgi.

Surogātpasta izplatītāji Spider tīmekļa vietnes, lai savāktu informāciju

Google, Yahoo!

un citas meklētājprogrammas nav vienīgās, kas interesējas par tīmekļa vietņu pārmeklēšanu - tā ir arī slepkavas un surogātpasta izplatītāji.

Zirnekļi un citi automatizēti rīki tiek izmantoti surogātpasta izplatītājiem, lai atrastu e-pasta adreses (internetā šo praksi bieži sauc par "novākšanu") tīmekļa vietnēs un pēc tam tos izmanto, lai izveidotu surogātpasta sarakstus.

Zirnekļi ir arī rīks, ko izmanto meklētājprogrammas, lai uzzinātu vairāk informācijas par jūsu vietni, bet to nekonstatēja, vietne bez norādījumiem (vai "atļaujām") par to, kā jūsu vietnē rāpot, var radīt būtiskus informācijas drošības riskus. Zirnekļi ceļo ar šādām saitēm, un viņi ir ļoti lietpratīgi atrast saites uz datubāzēm, programmu failiem un citu informāciju, uz kuru jūs, iespējams, nevēlaties, lai viņiem būtu piekļuve.

Webmasters var apskatīt žurnālus, lai redzētu, kādi zirnekļi un citi roboti ir apmeklējuši viņu vietnes. Šī informācija palīdz tīmekļa pārziņiem uzzināt, kas viņu vietni indeksē un cik bieži.

Šī informācija ir noderīga, jo tā ļauj tīmekļa pārziņiem optimāli pielāgot viņu SEO un atjaunināt robot.txt failus, lai aizliegtu dažiem robotiem pārmeklēt savu vietni nākotnē.

Padomi, kā aizsargāt jūsu vietni no nevēlamiem robotu meklētājiem

Pastāv diezgan vienkāršs veids, kā saglabāt nevēlamus rāpuļprogrammas no jūsu vietnes. Pat ja jūs neuztraucas par ļaunprātīgiem zirnekļiem, kuri pārmeklē jūsu vietni (e-pasta adreses pārbīde neaizsargās jūs no lielākās daļas rāpuļprogrammas), jums joprojām ir jāiesniedz meklētājprogrammām svarīgas instrukcijas.

Visām vietnēm ir jābūt failam, kas atrodas saknes direktorijā, ko sauc par robots.txt failu. Šis fails ļauj jums norādīt tīmekļa rāpuļprogrammām, kur vēlaties tos meklēt, lai indeksētu lapas (ja vien konkrētās lapas metadatos nav norādīts citādi), ja tie ir meklētājprogramma.

Tāpat kā jūs varat pateikt vēlamos rāpuļprogrammas, kurās vēlaties tos pārlūkot, varat arī viņiem pateikt, kur tie var netikt, un pat bloķēt konkrētas rāpuļprogrammas no visas jūsu vietnes.

Ir svarīgi paturēt prātā, ka labi izveidots robots.txt fails iegūs lielu vērtību meklētājprogrammām un pat varētu būt galvenais elements, lai uzlabotu jūsu vietnes veiktspēju, taču daži robotu rāpuļprogrammas joprojām ignorēs jūsu norādījumus. Šī iemesla dēļ ir svarīgi visu laiku atjaunināt visu jūsu programmatūru, spraudņus un lietotnes.

Saistītie raksti un informācija

Sakarā ar to, ka informācijas izplatīšanas izplatība izplatījās nevēlamās (surogātpasta) nolūkos, 2003. gadā tika pieņemti tiesību akti, lai padarītu noteiktas darbības par nelikumīgām. Šie patērētāju aizsardzības tiesību akti ietilpst 2003.gada CAN-SPAM likumā.

Ir svarīgi, lai jūs varētu izlasīt CAN-SPAM likumu, ja jūsu uzņēmums nodarbojas ar jebkādu masveida saziņu vai informācijas apkopošanu.

Jūs varat uzzināt vairāk par likumiem par surogātpastu un par to, kā rīkoties saistībā ar surogātpasta izplatītājiem, un ko jūs kā uzņēmuma īpašnieks to nevar darīt, izlasot šādus rakstus: