A cosa serve il file robots.txt

21 Novembre 2018 / Pubblicato in:  da Ivan Messina
Nessun commento

Il file robots.txt è un semplice file di testo contenente alcune righe, dette stringhe, che servono per comunicare con i motori di ricerca. Si può creare e modificare utilizzando un qualsiasi editor di testo come ad esempio il blocco note di Windows e la sintassi da scrivere è molto semplice in quanto deve essere facilmente leggibile dai motori.

Il file contiene le linee guida per una corretta e veloce scansione delle tue pagine, ma attenzione: non utilizzare il file robots.txt per nascondere una pagina web o articoli dai risultati di ricerca, piuttosto se usi WordPress installa il plugin Yoast SEO che tra le funzioni permette proprio di nascondere determinati contenuti. Usando un plugin per il SEO come yoast o rankmath puoi infatti impostare il meta tag noindex nella sezione head di una pagina specifica. Devi sapere che alcuni bot vanno alla ricerca del file robots.txt, scansionanano ogni direttiva disallow in essa contenuta in modo da eseguire uno scraping de tuo intero sito alla ricerca di informazioni che non vorresti condividere.

Cosa scrivere nel file robots.txt

Come prima cosa bisogna sempre definire un user-agent, ovvero il nome del robot. Specificando l'user-agent abbiamo infatti la possibilità di dialogare specificatamente con un particolare motore di ricerca.

Nella maggior parte dei casi può essere utilizzato il simbolo *, in modo che la regola viene invece letta da tutti i motori di ricerca:

User-agent: *
Disallow: /

Inserendo l'user-agent Googlebot, la regola vale solo per Google e non per gli altri motori:

User-agent: Googlebot
Disallow:

L'user-agent bingbot è ovviamente rivolto a Bing e non viene calcolato dagli altri:

User-agent: bingbot
Disallow: /non-per-bing/

Ecco una lista dei principali motori di ricerca e dei loro user-agent.

File Robots user-agent

Il comando Disallow serve ad indicare che determinati file o pagine, che devono essere indicati nella stringa, non devono essere considerati. Possiamo utilizzare questo comando in due modi:

Disallow: /

User-agent: *
Disallow: /immagini

Nel primo caso, quindi con un semplice / senza altre indicazioni, stiamo comunicando al motore di ricerca che non abbiamo definito alcun contenuto "da evitare", quindi tutti i contenuti possono essere indicizzati. Nel secondo caso invece, stiamo dicendo che la directory "immagini" non deve essere indicizzata. In questo caso abbiamo inserito anche il simbolo * nell'user-agent in modo da applicare la regola a tutti i motori. Come abbiamo detto precedentemente, non utilizzare questo comando per nascondere articoli o pagine.

Nel digitare il nome delle cartelle o delle pagine da evitare, fai attenzione alla sintassi. Rispetta maiuscole e minuscole in modo da non confondere il robots (ad esempio "Immagini" non è la stessa cosa di "immagini").

Continuando con l'esempio delle "immagini", un'altra regola che potresti impostare è quella di non passare a visitare determinati tipi di estensioni. Se vuoi evitare tutti i file jpg contenuti nella cartella immagine, ad esempio, ti basta scrivere questo:

User-agent: *
Disallow: /immagini/*jpg

Dove inserire il file robots.txt

Dopo aver creato il file robots.txt  dovrai posizionarlo nella root principale (la directory principale) del sito, in pratica dovrà avere una posizione tipo:

www.nomedominio.it/robots.txt

Fai molta attenzione nel posizionarlo correttamente, altrimenti i motori di ricerca non lo troveranno e di conseguenza non riusciranno a "leggere" correttamente le tue indicazioni. Puoi verificare la corretta posizione collegandoti proprio alla URL www.nomedominio.it/robots.txt.

File robots.txt: tester di Google

Dopo aver scritto e posizionato il file robots.txt collegati agli strumenti per Webmaster di Google. Se non hai registrato il tuo sito all'interno di questo strumento, ti consiglio di farlo al più presto. Attraverso questi tools infatti è possibile configurare al meglio i propri siti web e consentire una buona e corretta indicizzazione.

Una volta effettuato l'accesso, per fare un test sul tuo file robots, clicca sul menù Scansione, quindi su Tester dei file robots.txt

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *