Esclusione User Agent nel file Robots.txt

Gli user agent sono delle applicazioni installata su dei computer i quali si connettono ad un processo server. Oggi il termine è utilizzato soprattutto in riferimento ai client che accedono al World Wide Web. Oltre ai browser, gli user agent del web possono essere i crawler dei motori di ricerca, i telefoni cellulari e i lettori di schermo. In quest’articolo ci occuperemo dell’esclusione User Agent nel file Robots.txt legati ai crawler. Quando gli utenti di Internet visitano un sito web, viene solitamente inviata una stringa per identificare al server lo user agent. Ciò fa parte della richiesta HTTP, con prefisso “User-agent:” o “User-Agent:” e tipicamente include informazioni come il nome dell’applicazione client, la versione, il sistema operativo e la lingua.
Un crawler (detto anche web crawler spider o robot), è un software che analizza i contenuti di una rete in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.
I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice. Durante l’analisi di un URL il crawler identifica tutti gli hyperlink presenti nel nostro sito. I crawler attivi su Internet hanno la facoltà di essere gestiti mediante file “robots.txt” posto nella root del sito.
All’interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l’obbligo.
In questo articolo elencheremo gli User-Agent a cui decideremo di bloccare l’accesso al nostro sito web. Il vantaggio derivante da questa pratica SEO è quello di evitare attacchi informatici al nostro sito web, evitare che la banda del sito sia occupata da intrusi indesiderati, pertantyo forniremo di seguito una lista di User Agent a cui verrà vietata l’indicizzazione dell’intera applicazione web.

Esclusione Robot dal robots.txt

Esclusione Robot dal robots.txt


Su web vi sono molti tutorial di ciò, vi dò due motivazioni per cui seguire questo:
1) Alcuni robot sono stati ripresi dal robots.txt del famosissimo blog GT Idea di Giorgio Taverniti.
2) Perchè sono stati analizzati singolarmente uno ad uno i robots presenti in questo link che non sono sembrano pochi!

N.B. Con #…. su di una riga è possibile inserire dei commenti.Con questi commenti ho spiegato alcune motivazioni di eliminazione di uno specifico robot. Vi consiglio comunque di rimuovere questi commenti nella stesura del file. Per maggiori chiarimenti è possibile proprio consultare il mio file robots.txt

# Crawler di dubbia provenienza.
User-agent: ^Nail

# Crawler di dubbia provenienza.
User-agent: 50.nu

# Ipotetico crawler di spam. 
User-agent: Aboundexbot

# Crawler di dubbia provenienza.
User-agent: adressendeutschland.de

# Anche sul blog di Taverniti.
User-agent: AhrefsBot

# Ipotetico crawler di spam. 
User-agent: Amagit.COM

# Ipotetico crawler di spam. 
User-agent: b2w/0.1

# Ipotetico crawler di spam. 
User-agent: BackDoorBot/1.0

# Anche sul blog di Taverniti.
User-agent: Baiduspider

# Ipotetico crawler di spam. 
User-agent: Black Hole

# Crawler di dubbia provenienza.
User-agent: BlinkaCrawler

# Crawler di dubbia provenienza.
User-agent: BotALot

# Crawler di dubbia provenienza.
User-agent: bot-pge.chlooe.com

# Crawler di dubbia provenienza.
User-agent: Bullseye/1.0

# Crawler di dubbia provenienza.
User-agent: CCBot

# Crawler di dubbia provenienza.
User-agent: cityreview

# Anche sul blog di Taverniti.
User-agent: coccoc

# Ipotetico crawler di spam. 
User-agent: CompSpyBot

# Ipotetico crawler di spam. 
User-agent: DCPbot

# Ipotetico crawler di spam. 
User-agent: DISCo Pump 3.1

# Ipotetico crawler di spam. 
User-agent: Download Ninja

# Ipotetico crawler di spam. 
User-agent: Download Ninja

# Ipotetico crawler di spam. 
User-agent: drupact

# Ipotetico crawler di spam. 
User-agent: EmailCollector

# Bot maligno segnalato anche da Taverniti.
User-agent: ezooms

# Bot di link building di dubbia provenienza. 
User-agent: findlinks

# Bot di dubbia provenienza. 
User-agent: FlightDeckReportsBot

# Bot di dubbia provenienza. 
User-agent: FollowSite Bot

# Bot di dubbia provenienza. 
User-agent: FyberSpider

# Bot di dubbia provenienza segnalato anche da Taverniti. 
User-agent: fatbot

# Bot di dubbia provenienza. 
User-agent: GurujiBot

# Bot di dubbia provenienza. 
User-agent: hloader

# Bot di dubbia provenienza. 
User-agent: http://www.SearchEngineWorld.com bot

# Bot di dubbia provenienza. 
User-agent: HuaweiSymantecSpider

# Bot di dubbia provenienza. 
User-agent: Influencebot

# Bot di dubbia provenienza. 
User-agent: IntegromeDB

# Bot di dubbia provenienza. 
User-agent: Jyxobot

# Bot di dubbia provenienza. 
User-agent: Kenjin Spider

# Bot di link building di dubbia provenienza. 
User-agent: LinkAider

# Bot di dubbia provenienza. 
User-agent: livedoor ScreenShot

# Bot di dubbia provenienza. 
User-agent: MetamojiCrawler

# Bot di dubbia provenienza. 
User-agent: Mister PiX

# Bot di dubbia provenienza. 
User-agent: NetAnts

# Bot di dubbia provenienza. 
User-agent: Netseer

# Bot di dubbia provenienza. 
User-agent: Nuhk

# Ipotetico crawler di spam. 
User-agent: Plukkie

# Crawler di pessima reputazione. 
User-agent: Qirina Hurdler

# Bot di dubbia provenienza. 
User-agent: R6 bot

# Bot di dubbia provenienza. 
User-agent: Radiation Retriever 1.1

# Bot di dubbia provenienza. 
User-agent: Ronzoobot

# Bot di dubbia provenienza. 
User-agent: Ruky-Roboter

User-agent: search.KumKie.com

User-agent: Search17Bot

# Bot di dubbia provenienza. 
User-agent: SiteSnagger

# Bot di dubbia provenienza. 
User-agent: Sosospider

User-agent: spanner

# Bot di dubbia provenienza. 
User-agent: suggybot

User-agent: TheNomad

# Ipotetico crawler di spam. 
User-agent: TightTwatBot

User-agent: toCrawl/UrlDispatcher

User-agent: Twiceler

User-agent: URL Control

User-agent: urlfan-bot

User-agent: URLy Warning

User-agent: Vagabondo


User-agent: WebBandit
User-agent: WebBandit/3.50
User-agent: WebCopier
User-agent: WebReaper
User-agent: WebSauger
User-agent: Web-sniffer
User-agent: WebStripper
User-agent: WebStripper/2.02
User-agent: WinWebBot

# Itpotetici User Agent di un hacker. 
User-agent: Xenu Link Sleuth/1.3.8
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c

# Bot inesistente
User-agent: yacybot

# Bot di dubbia provenienza. 
User-agent: YioopBot
User-agent: YodaoBot
User-agent: YoudaoBot
User-agent: YowedoBot
User-agent: YRSpider
User-agent: Zealbot
User-agent: Zeus
User-agent: Zeus 32297 Webster Pro V2.9 Win32
User-agent: Zeus Link Scout

# Bot di dubbia provenienza segnalato anche da Taverniti. 
User-agent: jikespider

# Bot di spam segnalato anche da taverniti. 
User-agent: voilabot

# Bot di dubbia provenienza segnalato anche da Taverniti. 
User-agent: GermCrawler

# Bot con molti link corrotti segnalato anche da Taverniti. 
User-agent: MJ12bot

# Bot di dubbia provenienza segnalato anche da Taverniti. 
User-agent: SeznamBot

# Bot di dubbia provenienza.
User-agent: Zmeu	
User-agent: Morfeus
User-agent: Snoopy

Disallow: /

E’ comunque di fondamentale importanza inserire Disallow: / dopo aver elencato la vostra lista degli User-Agent a cui delimitate l’accesso.

Esclusione User Agent nel file Robots.txt ultima modidfica: 2014-03-12T13:28:53+01:00 da Gianluca Di Vincenzo
Posted in: PHP

By on 12 Marzo 2014

Tagged: , , , , ,