I contenuti di un sito internet sono ovviamente fondamentali e indispensabili per farlo salire nelle prime posizioni dei risultati nei motori di ricerca. Quello dell'indicizzazione è un lavoro molto faticoso e richiede un'attenta analisi prima e un continuo aggiornamento poi.
Inoltre per evitare di lavorare più volte sugli stessi file è fondamentale studiare dall'inizio i contenuti da indicizzare e quelli da nascondere. Infatti alcune cartelle o file privati possono essere bloccati e non comparire nei risultati. In questa fase però va fatta attenzione a non nascondere pagine e contenuti importanti e che dovrebbero essere visibili.
File robots
Per verificare quali contenuti vengono nascosti ai motori di ricerca, possiamo analizzare diversi strumenti.
Prima di tutto è bene controllare il file robots.txt, ovvero quel file che si trova nella root principale del sito e che serve a comunicare con i motori di ricerca. In questo file è possibile impostare diverse regole di lettura a seconda del motore di ricerca. Una volta individuato e aperto, con un semplice blocco note, verificate la voce Disallow, responsabile della non lettura di determinati contenuti.
Tra le righe potresti trovare:
- User-agent: indica per quale motore di ricerca è valida la regola (es. Googlebot è riferito a Google).
- Allow: qui va indicato cosa deve essere scansionato; inserendo il comando "allow: /" tutto il sito sarà scansionato.
- Disallow: questo è il comando per escludere i contenuti, che può essere personalizzato in diversi modi:
- Disallow: /chi-siamo.html - viene esclusa solo la pagina Chi Siamo;
- Disallow: /foto/ - vengono esclusi tutti i file contenuti nella cartella Foto;
- Disallow: *test - vengono esclusi tutti i file che contengono la parola "test";
- Disallow: *.jpg - vengono esclusi tutti i file con estensioni JPG.
Tag meta robots
<meta name="robots" content="noindex, nofollow">
Parametri URL
Per un sito e-commerce, un altro problema potrebbe essere quello di avere contenuti duplicati causati da diversi parametri (prezzo, ordinamento, ecc). In questi casi si hanno più versioni della pagina e quindi più URL che potrebbero creare confusione nell'indicizzazione. La soluzione a questo tipo di problema è accedere alla propria Google Search Console e cliccare su Scansione > Parametri URL.
Clicca su Configura i parametri degli URL > Aggiungi parametro. Assegna quindi un nome al parametro e nella sezione "Questo parametro cambia i contenuti della pagina visibili all'utente?" seleziona l'opzione più adeguata e salva.
Il procedimento è simile anche per Bing: collegati al Bing Webmaster Tools, clicca su Index e poi su Normalizzazione URL. Qui puoi configurare il parametro.