Stefano Dindo Web & Technology Life Style

7Feb/102

Q&A Search Engine Optimization

Il post di questa settimana ha lo scopo di rispondere alle domande che mi vengono poste più frequentemente in merito all'argomento del Search Engine Optimization. Il post sarà strutturato in stile Q&A (Questions and Answers) in modo tale da rendere più chiara la comprensione degli argomenti. Passiamo subito a rispondere alle 9 domande:

1) Qual'è la procedura esatta perchè il sito sia correttamente indicizzato da Google?

Quando si esegue una ricerca in Google viene quasi immediatamente presentato un elenco di risultati. Questo è possibile poichè Google dispone di un'indice dove reperire le pagine web pertinenti al nostro argomento di ricerca. Per ottenere questo indice, e quindi visualizzare i risultati di ricerca, Google svolge tre passi chiave cono sono:

- Scansione della rete: Utilizzando molti computer, sui quali gira un software chiamto Googlebot, Spider o Crawler, vengono scansionate tutte le pagine World Wide Web. Questi algoritmi, in base a dei criteri non ben precisati, determinano la frequenza e quante e quali pagine scansionare di ogni sito. Il processo di scansione inizia da un URL di siti noti da precedenti scansioni dei Googlebot e da SiteMap fornite dagli utenti.
I Googlebot quando visitano una pagina rivelano i link presenti nella pagina e li aggiungono all'elenco delle pagine da scansionare. Terminata la scansione della pagina corrente, il Googlebot, accede all'elenco, estrae un nuovo link e ripete le operazioni precedenti.

- Indicizzazione: durante la scansione i Googlebot, oltre ai link, per ogni pagina web immagazzina le parole chiave, i tag title, il tag description e altre informazioni utili a creare un indice identificativo, il più accurato possibile, della pagina.
Per assicurarsi che il proprio sito sia correttamente indicizzato è consigliabile:

  • Inviare una SiteMap tramite gli Stumenti per Webmaster di Google.
  • Farsi conoscere nel web in modo tale che altri siti puntino al nostro sito rendendo così più facile l'individuazione delle nostre pagine da parte dei crawler di Google.

- Restituzione dei risultati: quando l'utente esegue una query Google accede all'indice, controlla le keywords inserite dall'utente con quelle estratte dalle varie pagine durante l'indicizzazione  e restituisce un elenco ordinato, per rilevanza, di pagine web. La rilevanza viene stabilita da BigG durante la fase di indicizzazione considerando oltre 200 fattori tra cui il famosissimo PageRank.

Durante la promozione del vostro sito vi consiglio di non inserire solo link che rimandano alla homepage del sito in quanto i Crawler durante la scansione sono configurati per accedere solo fino ad un certo livello di profondità della struttura del sito. Quindi è buona norma, quando si linkate in un articolo il vostro articolo, rimandare a pagine specifiche, diverse dalla homepage, in modo tale che i crawler possano iniziare la scansione da punti diversi della struttura gerarchica del vostro sito accedendo quindi a livelli di profondità diversi aumentando quindi la probabilità di indicizzare tutte le pagine da voi realizzate. Questo consiglio è principalmente rivolto a webmaster che realizzano siti di grandi dimensioni con oltre 400 pagine.

2) Che cos'è una Sitemap?

Durante la risposta precedente ho parlato di sottoporre a Google una Sitemap. Sapete che cos'è?
Una sitemap è una pagina web che elenca gerarchicamente tutte le pagine del proprio sito. Quando si usa il termine sitemap bisogna distinguere due significati a seconda di come viene scritto il termine:

  • sitemap ("s" minuscola): è una pagina web fruibile dai visitatori del sito per visualizzare un elenco di tutte le pagine del sito e per individuare più facilmente i contenuti che stanno ricercando.
  • Sitemap ("S" maiuscola): è un file xml da inviare ai motori di ricerca e che contiene la medesima struttura presente nella sitemap solamente che scritta in un linguaggio di facile comprendere ai crawler.

Un esempio di come deve essere scritta una Sitemap xml è  riportata nel seguito:

<url>
<loc>http://www.tuosito.com/index.php</loc>
<lastmod>2010-02-18</lastmod>
<changefreq>weekly</changefreq>
<priority>1</priority>
</url>
<url>
<loc>http://www.tuosito.com/chisiamo.php</loc>
<lastmod>2010-02-18</lastmod>
<changefreq>weekly</changefreq>
<priority>0.6</priority>
</url>
<url>
<loc>http://www.tuosito.com/dovesiamo.php</loc>
<lastmod>2010-02-18</lastmod>
<changefreq>weekly</changefreq>
<priority>0.9</priority>
</url>

come è possibile vedere  è presente un tag di apertura (<url> ) seguito da: un path che identifica la posizione fisica della pagina web (<loc> ), dalla frequenza di aggiornamento della pagina (<changefreq>) e dalla priorità della pagina <priority> espressa con un valore compreso tra 0 e 1.

Ovviamente sono disponibili molti strumento in internet per la realizzazione delle Sitemap, uno di questi è xml sitemap.

3)  Che cos'è il PageRank?E' l'unico fattore considerato da Google per definire il ranking delle pagine internet?

Come ho già detto svariate volte, il PageRank è stato il principale fattore per determinare l'ordinamento delle pagine web fino a qualche anno fa, al quale oggi, sono stati aggiunti circa 200 nuovi fattori per migliorare i risultati di ricerche. Il PageRank è un algoritmo che assegna un peso numerico ad ogni elemento di un insieme di documenti web ipertestuali con lo scopo di stabilire un ordinamento dei documenti in base alla loro importanza. Il comportamento del PageRank può essere sintetizzato attraverso la seguente formula:

dove:

PR[pi] è il valore di PageRank della pagina pi che vogliamo calcolare.
M(pi) è l'insieme delle pagine che puntano alla pagina pi.
PR[Pj] è il pageRank della j-esima pagina che punta ad Pi.
L[Pj] rappresenta il numero di link in uscita dalla pagina pj.
N è il numero totale di pagine che si stanno considerando per il calcolo: p1,p2, ... , pN
d è il dumping factor ed è deciso da Google.

In pratica la formula precedente esprime il fatto che una pagina web ha pagerank elevato tanto più è puntata da pagine web, preferibilmente con PageRank elevato.