Cellulare vincente!
3 Settembre 2010 – 06:47 | Nessun commento

 di Rita Occidente Lupo
Tanta voglia di…chiacchierare. Così Sabrina Ferilli, fino a qualche tempo fa, con smagliante sorriso, invitava alla conversazione senza limiti sul filo. Diventato sempre più inesistente, con tanto di rispetto per i cordless …

Leggi l'articolo completo »
Cronaca

Scuola e Giovani

Sport

Arte & Cultura

Video

Home » Scuola e Giovani

“Spazza-Google”

22 Maggio 2010 – 00:002 commenti

Alessio Ganci

Si sa che Google offre il motore di ricerca più utilizzato e apprezzato. Come si sa che offre anche innumerevoli altri servizi, tanto da essersi affermato nel web come la pagina più aperta. Google, tuttavia, nasconde molti segreti: per esempio, se vi chiedo quali sono gli strumenti che Google utilizza per bannare un sito web dal motore di ricerca che cosa mi rispondete? I webmasters mi risponderanno che Google utilizzerebbe (in via ipotetica) un pannello di controllo accessibile da username e password. Fin qui nulla di strano, dato che è usuale per i siti web utilizzare questo sistema. Però, dove si trova questo pannello? Vi rispondo che Google mantiene segreto l’indirizzo, il quale dovrebbe essere accessibile solo tramite convalida (per esempio convalidando l’indirizzo IP). Tale pratica è spesso utilizzata in alcuni siti web. Tuttavia è evidente che Google non ha saputo fare i conti con i contatori visite dei siti web. Per la precisazione, in siti web bannati dal motore di ricerca si è scoperto che venivano visionati da Google tramite il seguente indirizzo Internet: http://webspam.google.com/admin.php?user=googleuser&status=verified&length=364&type=ban   . Esattamente, il database dei siti web bannati da Google si trova in un sotto-dominio che dovrebbe essere perlopiù sconosciuto alla maggior parte degli utenti del web: http://webspam.google.com/. La variabile lenght nell’indirizzo di ban dovrebbe riguardare l’intervallo di controllo da parte di Google sul sito web, user dovrebbe riferirsi all’utente Google attualmente collegato, mentre status potrebbe riferirsi allo stato del sito web su Google. Da qui si può dedurre che: http://www.google.com/admin.php è il pannello principale. È evidente che, come ho avuto modo di sottolineare, i link non sono accessibili se non con determinate specifiche. Dalla scoperta del pannello di Google si giunge ad una considerazione particolarmente interessante: come si vede negli indirizzi, viene utilizzato il linguaggio PHP. Pertanto, a meno che Google non abbia volutamente camuffato un altro linguaggio con questa estensione mediante modifiche nel server (ma non ne vedrei il motivo), Google utilizza PHP esattamente come un qualsiasi altro sito basato su questo linguaggio. Ovviamente, evito accuratamente di analizzare le cosiddette “pagine senza estensione” (probabilmente delle applicazioni stile servlet o delle semplici variabili di pagine, forse in PHP, opportunamente riscritte e camuffate), poiché in questo caso, non vi sono certezze. Oltre al pannello di controllo di Google, un segreto aziendale riguarda GAIA: il sistema di autenticazione utilizzato per i cosiddetti Google Accounts. In poche parole, il sistema di autenticazione ai servizi di Google come GMail. Tale sistema è stato violato da hacker cinesi che si erano dunque intrufolati nelle caselle di posta GMail e si sono visti il famoso ultimatum “o rimuovete la censura o Google ritirerà le sue sedi dalla Cina”. L’algoritmo del motore di ricerca, infine, può essere spiegato sinteticamente: i risultati di ricerca, più che basati su un algoritmo semantico, sono organizzati a seconda della pertinenza del sito web (spesso correlata alla Google Popularity, la popolarità dettata soprattutto dai link in entrata da siti web abbastanza popolari). L’algoritmo che determina la posizione di una pagina web in Google è definito PageRank. Ad influire nella posizione ci sono anche Google Caffeine (che valuta la velocità di caricamento delle pagine web) e tanti altri fattori, che sono reperibili all’indirizzo http://www.impresapratica.com/seo/lalgoritmo-di-ranking-di-google-rivelato/ . E’ evidente che l’algoritmo esatto di Google non è reperibile, ma che comunque, non ci sono particolari segreti come si cerca di lasciar intendere.

2 commenti »

  • Sir Vester ha detto:

    Ciao Alessio, articolo molto interessante (non ero a conoscenza del sottodominio webspam). Vorrei solo fare alcune precisazioni:

    1) I siti non vengono bannati “a mano” da un operatore umano ma mediante opportuni algoritmi che verificano determinate circostanze.

    2) E’ però presente *anche* un controllo manuale e non è affatto un mistero in quanto se ne parla nella descrizione dell’algoritmo che determina il TrustRank (http://it.wikipedia.org/wiki/TrustRank)

    3) E’ vero che molti criteri sono stati individuati, ma la conoscenza al 100% degli algoritmi di ranking non c’è. Il punto è che tra “intuire” e “sapere esattamente” c’è differenza assai. Se così non fosse, Google sarebbe un cumulo di spam (cosa che per fortuna ancora non è).

    OT:

    Per quanto riguarda la sicurezza, non esiste sito web o computer inviolabile. Qualcuno diceva che un computer per essere sicuro al 100% dovrebbe essere scollegato dalla Rete, *spento* e il disco distrutto *fisicamente*. Questo perché volendo i dati sono reperibili a distanza leggendo le emanazioni elettromagnetiche degli schermi (tempest), i dischi si possono leggere anche se formattati (informatica forense), etc.
    Per i paranoici: esistono dei software che sovrascrivono i dati fino a 36 volte e riempiono il disco di 0 binari, ma se i dati “servono” a qualche agenzia governativa che ha i mezzi (es. NSA), allora per mantenerli riservati c’è solo un modo: prendere il disco a martellate (http://en.wikipedia.org/wiki/Data_remanence). :D

  • Alessio Ganci ha detto:

    Gentile Sir Vester,
    innanzitutto ringrazio per il commento e per l’interesse nei confronti del contenuto dell’articolo. Lei ha perfettamente ragione nelle sue precisazioni. Google ha automatizzato molte operazioni, per cui anche il ban è automatico. Il TrustRank, il controllo manuale, probabilmente viene effettuato tramite la pagina “admin.php” che avevo menzionato. Credo che se ne occupi per la maggior parte Matt Cutts, il portavoce di Google, dato che il link da me citato è stato sempre rinvenuto con la variabile “user” settata su “mcutts”. In effetti il sotto-dominio “webspam.google.com” sembra proprio non essere conosciuto in Rete, c’è chi addirittura parla di “domain spoofing”. Io credo che, invece, esista, non vedrei il perché Google dovrebbe fare dello spoofing. Dopotutto non penso che Google faccia sapere a tutto il mondo quali sono gli indirizzi dei suoi database. Infatti, se si prova ad accedere ad una qualsiasi pagina che ho linkato, si ottengono degli errori, come se i domini non esistessero. Se accedo ad “admin.php” nel sito principale di Google, c’è addirittura “404/not found”. Se l’accesso proviene dagli indirizzi IP dei dipendenti di Google, i pannelli, invece, si vedrebbero. Lo dico perché anch’io, nei siti web che gestisco, nascondo i pannelli di amministrazione con indirizzi lunghi chilometri e restituisco l’errore “404/not found” a chi non presenta le caratteristiche da me dichiarate per accedere.

    Non si conosce con certezza l’algoritmo del motore di ricerca di Google, in effetti, se lo si conoscesse al 100% gli spammer troverebbero sicuramente il modo per essere in alto nelle SERPs e per non essere rilevati dagli algoritmi di controllo dello spam. E’ anche vero che il motore di ricerca non è segreto al 100%, l’articolo che ho citato dal Suo sito lo dimostra pienamente (lei stesso ha fatto il parallelismo con la formula della Coca Cola e la Pepsi Cola). La guida SEO rilasciata dalla stessa Google lo dimostra anche.

    Per quanto riguarda la sicurezza, non esiste sito web o computer inviolabile. Qualcuno diceva che un computer per essere sicuro al 100% dovrebbe essere scollegato dalla Rete, *spento* e il disco distrutto *fisicamente*. Questo perché volendo i dati sono reperibili a distanza leggendo le emanazioni elettromagnetiche degli schermi (tempest), i dischi si possono leggere anche se formattati (informatica forense), etc.
    Per i paranoici: esistono dei software che sovrascrivono i dati fino a 36 volte e riempiono il disco di 0 binari, ma se i dati “servono” a qualche agenzia governativa che ha i mezzi (es. NSA), allora per mantenerli riservati c’è solo un modo: prendere il disco a martellate (http://en.wikipedia.org/wiki/Data_remanence). :D
    .

    Concordo sul fatto che non esista sistema inviolabile. Peraltro la violazione dei server di Google da parte di hackers cinesi ne è una dimostrazione. Dopotutto, credo che per la protezione di questi server si siano prese molte precauzioni.

    Con i migliori saluti,
    Alessio Ganci.

Lascia un commento!

Aggiungi il tuo commento qui sotto, oppure esegui un trackback dal tuo sito. Puoi anche iscriverti a questi commenti via RSS.

Sii gentile, rimani in argomento. Lo spam non sarà tollerato.

È possibile utilizzare questi tag:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Questo sito web supporta i Gravatar. Per ottenere il proprio globally-recognized-avatar, registra un account presso Gravatar.