Kuidas blokeerida juurdepääsu SeekportBotile või muule crawKlõpsasin veebisaidil

Enamasti, kui peate juurdepääsu blokeerima SeekportBot või teised crawl bots veebisaidi puhul on põhjused lihtsad. Veebiämblik teeb lühikese aja jooksul liiga palju ligipääsu ja nõuab veebiserveri ressursse või pärineb see otsingumootorist, milles te ei soovi, et teie veebisaiti indekseeritaks.

See on väga kasulik veebisaidile, mida külastab crawMa põrkasin talle otsa. Need veebiämblikud on loodud otsimootorites veebilehtede sisu uurimiseks, töötlemiseks ja indekseerimiseks. Google ja Bing kasutavad selliseid crawMa põrkasin talle otsa. Siiski on ka otsingumootoreid, mis kasutavad veebilehtedelt andmete kogumiseks roboteid. Seekport on üks neist otsingumootoritest, mis kasutab crawSeekportBot ler veebilehtede indekseerimiseks. Kahjuks kasutab see mõnikord seda liigselt ja tekitab tarbetut liiklust.

Mis on SeekportBot?

SeekportBot on web crawler ettevõtte poolt välja töötatud Seekport, mis asub Saksamaal (kuid kasutab mitme riigi, sealhulgas Soome IP-d). Seda robotit kasutatakse veebisaitide roomamiseks ja indekseerimiseks, et neid saaks otsingumootori tulemustes kuvada. Seekport. Mittetoimiv otsingumootor, nii palju kui ma aru saan. Vähemalt ei andnud see minu jaoks tulemusi ühegi võtmefraasi puhul.

SeekportBot Kasutama user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Kuidas blokeerida juurdepääsu SeekportBotile või muule crawKlõpsasin veebisaidil

Kui olete jõudnud järeldusele, et see veebiämblik või mõni muu, pole vaja kogu oma veebisaiti skannida ja veebiserverisse tarbetut liiklust tekitada, on teil mitu meetodit, mille abil saate nende juurdepääsu blokeerida.

Tulemüür veebiserveri tasemel

Need on tulemüürirakendused open-source mida saab installida operatsioonisüsteemidesse Linux ja seda saab konfigureerida liiklust blokeerima mitme kriteeriumi alusel. IP-aadress, asukoht, pordid, protokollid või kasutajaagent.

APF (Advanced Policy Firewall) on selline tarkvara, mille kaudu saate blokeerida soovimatud robotid serveri tasemel.

Kuna SeekportBot ja teised veebiämblikud kasutavad mitut IP-de plokki, põhineb kõige tõhusam blokeerimisreegel "user agent". Seega, kui soovite juurdepääsu blokeerida SeekportBot abil APF, tuleb vaid veebiserveriga ühenduse luua SSHja lisage konfiguratsioonifaili filtrireegel.

1. Avage konfiguratsioonifail rakendusega nano (või mõni muu kirjastaja).

sudo nano /etc/apf/conf.apf

2. Otsige rida, mis algab tähega "IG_TCP_CPORTS” ja lisage selle rea lõppu kasutajaagent, mille soovite blokeerida, millele järgneb koma. Näiteks kui soovite blokeerida user agent "SeekportBot", peaks rida välja nägema selline:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Salvestage fail ja taaskäivitage APF-teenus.

sudo systemctl restart apf.service

Juurdepääs "SeekportBotile" blokeeritakse.

Filtreeri web crawls Cloudflare'i abil – blokeerige juurdepääs SeekportBotile

Cloudflare’i abiga tundub see mulle kõige turvalisem ja mugavam meetod, mille abil saab mitmel viisil piirata mõne roboti ligipääsu veebilehele. Meetod, mida kasutasin ka juhul SeekportBot veebipoe liikluse filtreerimiseks.

Eeldades, et teil on veebisait juba Cloudflare'i lisatud ja DNS-teenused on aktiveeritud (st liiklus veebisaidile toimub Cloudflare'i kaudu), järgige alltoodud samme:

1. Avage oma Clouflare'i konto ja minge veebisaidile, mille juurdepääsu soovite piirata.

2. Minge aadressile: Security → WAF ja lisage uus reegel. Create rule.

3. Valige uuele reeglile nimi, Field: User Agent - Operator: Contains - Value: SeekportBot (või muu roboti nimi) - Choose action: Block - Deploy.

Kuidas blokeerida SeekportBoti juurdepääs
Blokeerige juurdepääs SeekportBotile Cloudflare'ist

Vaid mõne sekundi pärast uus reegel WAF (Web Application Firewall) hakkab mõjuma.

Tulemüüri sündmused Cloudflare'is
Tulemüüri sündmused Cloudflare'is

Teoreetiliselt saab veebiämbliku saidile juurdepääsu sagedust määrata robots.txt, aga... see on ainult teoreetiliselt.

User-agent: SeekportBot
Crawl-delay: 4

Palju web crawlerii (välja arvatud Bing ja Google) neid reegleid ei järgi.

Kokkuvõtteks, kui tuvastate veebi crawKui teie saidile liiga palju juurde pääseb, on kõige parem tema juurdepääs täielikult blokeerida. Muidugi, kui see bot ei pärine otsingumootorist, milles olete huvitatud viibimisest.

Tehnoloogiafännina olen alates 2006. aastast rõõmuga kirjutanud lehel StealthSettings.com. Mul on laialdased kogemused operatsioonisüsteemides: macOS, Windows ja Linux, samuti programmeerimiskeeltes ja blogiplatvormides (WordPress) ning veebipoodide ja platvormidega (WooCommerce, Magento, PrestaShop).

kuidas » net surfing » Kuidas blokeerida juurdepääsu SeekportBotile või muule crawKlõpsasin veebisaidil
Jäta kommentaar