Come trovare le pagine bloccate dai motori di ricerca

28 Novembre 2018 / Pubblicato in:  da Ivan Messina
Nessun commento

I contenuti di un sito internet sono ovviamente fondamentali e indispensabili per farlo salire nelle prime posizioni dei risultati nei motori di ricerca. Quello dell'indicizzazione è un lavoro molto faticoso e richiede un'attenta analisi prima e un continuo aggiornamento poi.

Inoltre per evitare di lavorare più volte sugli stessi file è fondamentale studiare dall'inizio i contenuti da indicizzare e quelli da nascondere. Infatti alcune cartelle o file privati possono essere bloccati e non comparire nei risultati. In questa fase però va fatta attenzione a non nascondere pagine e contenuti importanti e che dovrebbero essere visibili.

File robots

Per verificare quali contenuti vengono nascosti ai motori di ricerca, possiamo analizzare diversi strumenti.

Prima di tutto è bene controllare il file robots.txt, ovvero quel file che si trova nella root principale del sito e che serve a comunicare con i motori di ricerca. In questo file è possibile impostare diverse regole di lettura a seconda del motore di ricerca. Una volta individuato e aperto, con un semplice blocco note, verificate la voce Disallow, responsabile della non lettura di determinati contenuti.

Tra le righe potresti trovare:

  • User-agent: indica per quale motore di ricerca è valida la regola (es. Googlebot è riferito a Google).
  • Allow: qui va indicato cosa deve essere scansionato; inserendo il comando "allow: /" tutto il sito sarà scansionato.
  • Disallow: questo è il comando per escludere i contenuti, che può essere personalizzato in diversi modi:
    • Disallow: /chi-siamo.html - viene esclusa solo la pagina Chi Siamo;
    • Disallow: /foto/ - vengono esclusi tutti i file contenuti nella cartella Foto;
    • Disallow: *test - vengono esclusi tutti i file che contengono la parola "test";
    • Disallow: *.jpg - vengono esclusi tutti i file con estensioni JPG.

    Tag meta robots

    Un altro metodo per escludere una pagina dai risultati di ricerca è il tag meta robots. Si tratta di una stringa da inserire nel codice html della pagina, all'interno della sezione <head>:
    <meta name="robots" content="noindex, nofollow">

    Parametri URL

    parametro url google

    Per un sito e-commerce, un altro problema potrebbe essere quello di avere contenuti duplicati causati da diversi parametri (prezzo, ordinamento, ecc). In questi casi si hanno più versioni della pagina e quindi più URL che potrebbero creare confusione nell'indicizzazione. La soluzione a questo tipo di problema è accedere alla propria Google Search Console e cliccare su Scansione > Parametri URL.

    Clicca su Configura i parametri degli URL > Aggiungi parametro. Assegna quindi un nome al parametro e nella sezione "Questo parametro cambia i contenuti della pagina visibili all'utente?" seleziona l'opzione più adeguata e salva.

    Il procedimento è simile anche per Bing: collegati al Bing Webmaster Tools, clicca su Index e poi su Normalizzazione URL. Qui puoi configurare il parametro.

    Lascia un commento

    Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *