Duplicazione del contenuto
Duplicate content e ottimizzazione
I duplicate content sono un vero problema per i motori di ricerca. A luglio del 2008 Google annunciava di avere 1000 miliardi di URL nel suo indice, riuscite a immaginare questo numero nel 2020?
Quindi Google non indicizza tutti gli URL che individua, semplicemente perché molti contenuti sono privi di interesse (pagina vuota) oppure duplicati!
Quando si lavora su un così grande volume di dati e si devono offrire risultati rilevanti al mondo intero in meno di mezzo secondo, è evidente che la caccia allo spreco si impone come necessaria.
In che modo i motori di ricerca trattano i duplicate content?
I duplicate content fanno perdere tempo, risorse, rilevanza e, in ultima analisi, denaro ai motori di ricerca. Inoltre, le dimensioni del web continuano a crescere e sempre più rapidamente. Per sopravvivere e non farsi sopraffare, i motori di ricerca devono attuare delle scelte e scartare i contenuti considerati come duplicati.
I duplicate content possono subire trattamenti differenti, possono essere:
- Deindicizzati
- Meno visitati dai crawler
- Declassati
Naturalmente il trattamento riservato ai duplicate content differisce da un motore di ricerca all’altro e dipende da diversi fattori.
Tenuto conto delle conseguenze di simili azioni, potremmo supporre che i motori di ricerca si assicurino di aver fatto una corretta distinzione tra la copia e l’originale prima di penalizzare un contenuto. In realtà non è proprio così, poiché i loro algoritmi non sembrano ancora in grado di gestire perfettamente questo problema. Ecco alcuni criteri presi (o che dovrebbero essere presi) in considerazione):
- Somiglianza del contenuto con un altro URL
- Popolarità della pagina
- Autorità del sito
- Presenza di un link che punti alla fonte
- Data di pubblicazione
- Data della prima indicizzazione
Penalizzazione generale per i duplicate content
Al di là delle penalizzazioni che un URL può subire, se ad un sito è attribuito un alto tasso di duplicate conte, l’intero dominio potrebbe subire una penalizzazione.
I diversi tipi di duplicate content
Si individuano due casi di duplicate content:
- L’auto-duplicazione: quando il sito stesso duplica le sue pagine sul suo dominio
- La duplicazione esterna: quando si ritrova lo stesso contenuto su un altro sito
Come evitare la duplicazione del contenuto sul proprio sito
Prima di fare la guerra ai duplicate content prodotti da webmaster poco scrupolosi, è necessario assicurarsi che non sia il proprio sito a proporre contenuti identici sotto URL diversi. Ecco i casi più comuni:
- Contenuto accessibile con e senza www
- Link interni diversi che puntano allo stesso contenuto
- Pagine molto povere di contenuto: per esempio, un solo rigo di contenuto originale
- Link in entrata che contengono dei parametri (di tracking, per esempio)
- Creazione di sessioni da parte dei robot
La regola aurea da rispettare è che un documento sia visualizzabile attraverso un URL univoco. Tuttavia, non è sempre possibile osservare questa regola. In questo caso, bisognerà mettere in atto dei meccanismi affinché i robot non indicizzino un solo URL.
Ecco alcune soluzioni:
- Utilizzo del file robots.txt
- Inserimento di un meta tag robot noindex
- Inserimento di un reindirizzamento 301
- Eliminazione di un URL attraverso Google Search Console
- Meta tag canonical
Cercare il contenuto duplicato o rubato
L'utilizzo dei vostri contenuti su altri siti può influire negativamente sulla vostra visibilità nei motori di ricerca. I webmaster che agiscono in questo modo a volte sono in buona fede e non immaginano i problemi che possono arrecare. Per altri, il furto di contenuti è un vero e proprio business. Oggi, è possibile utilizzare un aggregatore per nascondere i propri misfatti ...
Il numero di annunci Adsense è spesso un modo per differenziare l'uomo onesto dal vile saccheggiatore.
L'uso massiccio del formato RSS rappresenta per alcuni una specie di autorizzazione al furto di contenuti.
Google è un ottimo strumento per individuare un plagio o qualsiasi altro uso dei vostri contenuti senza autorizzazione. Provate a digitare tra virgolette una frase presa a caso da uno dei vostri articoli online e osservate i risultati.
Anche il sito copyscape.com è un ottimo strumento per garantire l'originalità di un testo.
Google sui duplicate content
Prima di tutto, bisogna dire che Google non parla veramente di penalizzazione per i duplicate content, ma piuttosto di filtri. In realtà, a nostro parere, non c’è una vera e propria differenza… Google afferma anche di disporre di algoritmi efficaci capaci di distinguere un duplicate content dall’originale, soprattutto se la copia contiene un link che punta verso la fonte. In realtà, l’indice stesso di Google è la prova che una simile affermazione è ben lontana dall’essere completamente vera.
Inoltre, la nozione di indice complementare è scomparsa dalle SERP.
Google consiglia di non preoccuparsi troppo dei duplicate content. Sta a voi valutare…