L'angolo dei giovanissimi: il web salvato sul computer

 Alessio Ganci

Certe volte può essere necessario salvare un intero sito web su un supporto di archiviazione dati. Un esempio può riguardare la navigazione su Internet: esplorando un sito web off-line si può risparmiare sulla bolletta telefonica. Per scaricare un intero sito web sul computer si può fare ricorso ad un programma gratuito sotto licenza open-source: WinHTTrack per Windows, WebHTTrack per Linux. L’attività di esplorazione dei siti web off-line può essere utilizzata dagli hacker per scaricare informazioni sensibili (articoli di giornali on-line senza essere abbonati, database di login e password, pagine di riscatto dei voucher). Infatti il cosiddetto file robots.txt, insieme al meta-tag “robots” (identiche soluzioni per bloccare l’indicizzazione ed il download di alcuni file; la prima può bloccare più file e cartelle, la seconda delle specifiche pagine web contenenti il meta-tag) può essere by-passato tramite WinHTTrack/WebHTTrack. Inoltre, gli hacker, durante l’accesso al sito da scaricare, si fanno identificare spesso come googlebot o qualsiasi altro spider del web. Dopotutto lo stesso WinHTTrack/WebHTTrack è un crawler (con la differenza che, invece di trovare informazioni sul web, scarica i siti). Per cui bisogna agire lecitamente: si può scaricare un sito sul computer, però è un abuso scaricare anche file protetti da indicizzazione. Infatti altri estrattori di siti web rispettano le direttive di indicizzazione; solo  WinHTTrack/WebHTTrack permette di scegliere se seguire le direttive o meno. Seguiamole e si opererà nella legalità. Sarà pure vero che qualcuno si sogna di  scaricarsi tutte le pagine di ricerca di Google (protette da robots.txt), oppure scaricare tutto l’archivio web di Internet Archive; è anche vero che se sono informazioni protette da direttive di indicizzazione, ci sarà pure un motivo. WinHTTrack/WebHTTrack consente di applicare un notevole numero di modalità di download del sito sul computer: si può scegliere quali tipi di file scaricare e quali no, nonché la priorità di download (uso di banda del collegamento Internet). Si consiglia di scaricare con moderazione, poiché si potrebbe mandare in overload (sovraccarico) il server del sito. Questo vuol dire che nel frattempo, il sito si rallenta e diventa inesplorabile. Pertanto è consigliabile applicare i filtri di file, in modo che se ne scarichino soltanto alcuni. Inoltre, sempre per ottimizzare l’utilizzo del sito da parte degli altri utenti si consiglia di scaricare il sito nelle ore notturne (tanto ormai la moda del momento è: avvio un download, vado a letto, l’indomani trovo il file scaricato – a scapito della bolletta dell’elettricità).Da notare che, stranamente, i programmi gratuiti come  WinHTTrack/WebHTTrack sono più completi di tutti gli altri web extractor a pagamento. Chissà come mai.Queste informazioni sono a puro scopo divulgativo: scaricare file privati violando le direttive di http://www.robotstxt.org è un illecito La responsabilità dell’utilizzo di queste informazioni è a carico dell’utente finale.