Articolo liberamente tradotto e riadattato da Gleenk, originale di benjarriola su SeoMOZ

I contenuti duplicati nel SEO sono sempre un pericolo in cui si rischia di incorrere nonstante Google abbia detto che il loro lavoro per scegliere la pagina migliore, da mostrare da una lista di pagine duplicate, sta portando grandi miglioramenti alla qualità delle SERP. Dicono che oggi c’è da preoccuparsi meno di prima, ma sapendo anche che il problema esiste, loro stessi danno consigli in vari posti sul web, compresi i threads di supporto, i blog degli impiegati, i video di aiuto per webasters e molti altri. Alcuni dicono semplicemente di bloccare i contenuti duplicati, altri di usare il redirect. Forse una regola che vale più delle altre per tutte le situazioni esiste, così ho deciso di numerare i vari modi di fixare il problema e le varie differenze, così vedrete voi stessi vantaggi e svantaggi che possano aiutarvi a giudicare quale metodo sia più efficace nella situazione specifica. Bene andiamo a vedere quindi caso per caso. Prima di fare ciò ecco una breve legenda per meglio comprendere gli schemi d’esempio che incontreremo.

legenda articolo contenuti duplicati

Bloccare con il Robots.txt

Probabilmente questo è uno degli stratagemmi maggiormente utilizzati da molte persone, inclusi molti “operai” di Google. E’ anche una delle raccomandazioni valide più datate nel settore, ma oggi esistono molte altre cose che si possono fare.

schema di funzionamento dell' indicizzazione e link usando il robots.txt

Questo sistema funziona nel caso si voglia eliminare il contenuto dupicato. Il bot del motore di ricerca vedrà il file robots.txt e, quando vedrà di dover escludere un URL del dominio ospitante, questo URL non verrà più nè scansionato nè indicizzato. Detto ciò, l’unico problema nell’usare il robots.txt per rimuovere contenuti duplicati è dato dal fatto che alcune persone potrebbero linkare la pagina che è stata esclusa. Questo impedirà a qursti link di offrire il loro contributo per il posizionamento nei motori di ricerca del tuo sito.

Usare il Meta Robots: i tag NoIndex/Follow

Un altro modo per eliminare i contenuti duplicati, è quello di usare il Meta tag Robots con gli attributi noindex/follow:

<meta name=”robots” content=”noindex,follow” />

schema di funzionamento dell' indicizzazione e link usando il metatag robots

Il ragionamento che sta dietro all’uso di questo tag è che il valore noindex dice al motore di non indicizzare la pagina, eliminando così il contenuto duplicato. Il valore  follow invece, sta dicendo al motore di seguire comunque i link all’interno della pagina duplicata, lasciando passare attraverso di essa il “link juice“. Il problema è che ci sono ancora alcune persone che credono che questo non funzioni. Una volta che il valore è noindex, molto probabilmente ci sarà anche settato il nofollow, maperchè il valore sono stati inventati entrambi i valori nofollow e follow se non vi fosse la possibilità di considerarli separatamente da index e noindex? Scansionato o no, ciò deve essere testato e io credo che Rand abbia avuto la parola da Google sul fatto che questo tag funzioni realmente.

Il Redirect 301

Molte persone del settore amano usare il redirect 301 per fixare il problema dei contenuti duplicati. Questo perchè in molti lo hanno utilizzato ed in molti sanno che funziona. Si è anche fatto abuso di questo in molte maniere, ma non è questo l’argomento dell’articolo. Che cosa accade realmente utilizzando un redirect di tipo 301 quando si incontrano contenuti duplicati?

schema di funzionamento dell' indicizzazione e link usando il redirect 301

La cosa buona, comparando questo metodo con i due precedenti, è che siamo realmente sicuri che, grazie alla convergenza su questo punto dei vari motori di ricerca ed all’esperienza di molte persone, un link passato ad una pagina che effettua un redirect ad un’altra pagina, sarà considerato a tutti gli effetti come un link che punta a quest’ultima (cioè alla pagina a cui punta quindi il redirect 301). Questo sembra dunque essere il fix definitivo per tutti i problemi citati, ma attualmente, c’è anche una buona ragione per utilizzare i prossimi metodi che mostrerò.

Per l’utilizzo corretto del redirect 301 nelle sue molteplici forme vi rimando ad un approfondimento qui:

L’attributo rel=canonical

La cosa buona da considerare è che i motori di ricerca considerano il link tag canonical allo stesso modo in cui considerano il redirect 301. Non verrà quindi indicizzata la pagina duplicata e solo la pagina di destinazione apparirà nell’indice del motore di ricerca. Tutti i link che puntano alla pagina duplicata saranno contati come link verso la pagina originale del contenuto.

schema di funzionamento dell' indicizzazione e link usando il rel=canonical

<link rel=”canonical” href=”http://(pagina originale del contenuto)” />

Se Google tratta il link tag canonical praticamente come un redirects 301, la differenza principale è quindi nell’esperienza dell’utente. Il redirect 301 infatti effettua un reindirizzamento. Il link tag canonical no. Puoi quindi immaginare da solo quando questo potrà risultare più utile di un redirect 301: quando l’utente non vorrà o dovrà effettuare un redirect.

Per un breve approfondimento sull’utilizzo ed il funzionamento dell’attributo rel=canonical vi rimando al seguente articolo:

Il link tag Alternate

Il link tag alternate è molto simile al link tag canonical. Sebbene venga utilizzato principalmente per scopi di SEO internazionale o multilingua.

schema di funzionamento dell' indicizzazione e link usando il link tag alternate

<link rel=”alternate” hreflang=”en” href=”http://www.example.com/path” />
<link rel=”alternate” hreflang=”en” href=”http://www.example.co.uk/path” />
<link rel=”alternate” hreflang=”it” href=”http://www.example.com.it/path” />

Il tag Canonical rimuove tutte le pagine duplicate dall’indicizzazione, il link tag Alternate invece permette al motore di indicizzare tutte le pagine ma lo aiuta ad individuarne la versione migliore per la nazione in cui ci si trova.  E rimuove i problemi in cui Google potrebbe incappare nella scelta delle pagine originali o duplicate.

Nota di Google: rel="alternate" hreflang="x" è destinato ai siti in cui viene tradotto soltanto il modello. Non è adatto a siti in più lingue in cui i contenuti di ogni pagina vengono completamente tradotti. Ulteriori informazioni sui siti destinati a più regioni geografiche e in più lingue.

Ricapitolando

Per riassumere, di seguito vi riporto una semplice guida su quando e quali tipi di redirect utilizzare per casi differenti di contenuti duplicati:

  • Alternate Link Tag
    • Pagine internazionali, pagine multilingua destinate a nazioni differenti.
  • Canonical Link Tag
    • Categorie multiple e sottocategorie con percorsi di categoria differenti ma con lo stesso contenuto.
      Esempio:

      http://www.example.com/products/laptops/sony/

      http://www.example.com/products/sony/laptops/

    • Codici di tracciamento, ID di Sessione, per il fatto che il redirect 301 a volte rischiad i interferire con i codici di tracciamento stessi e le sessioni.
      Esempi:

      http://www.example.com/path/file.php?SID=BG47JF448JD6I7TGF439LVFD476

      http://www.example.com/path/file.php?utm_whatever=5uck3rs

      http://www.example.com/path/file.php

    • Ordine differente di variabili generate dal CMS.
      Esempi:

      http://www.example.com/path/file.php?var1=x&var2=y

      http://www.example.com/path/file.php?var2=y&var1=x

  • Redirect 301
    • Casi in cui il redirect non interferisce con l’usabilità come il redirect da www a non-www, i files index, i trailing slashes, indirizzi IP.
      Esempi:

      http://www.example.com/

      http://example.com/

      http://www.example.com/index.html

      http://www.example.com

      http://123.123.123.123/

    • Cambi di domini, cambi di URL per pagine che non esistono più.
      Esempi:
      http://www.example.com/old_folder/old_file 301 redirects to http://www.example.com/new-folder/new-file/
      http://www.example.net/ 301 redirects to http://www.example.com/
  • Meta Robots NoIndex/Follow
    • Probabilmente il miglior luogo dove usarli sono le liste dei post archiviati di un blog (raccolte per date, categorie, autori ecc…). Laddove non posso usare un redirect 301 e nemmeno un link canonical e non sapresti dove reindirizzare correttamente l’utente, questi attributi tornano utili.
  • Robots.txt
    • Io non vedo più un’utilità nell’utilizzo del robots.txt per la gestione dei contenuti duplicati. I link naturali sono una risorsa troppo preziosa per rischiare di andare persi. Usate il robots.txt solamente per bloccare contenuti che non volete siano indicizzati in alcun modo, duplicati o no.

Tutti i contenuti originali sono di proprietà di SeoMOZ, le immagini invece sono state reinterpretate e realizzate da Gleenk per la traduzione. E’ gradita la segnalazione all’autore stesso per un loro qualsiasi utilizzo o una qualsiasi attribuzione dei diritti allo stesso.