A Doubletwist Inc. abbiamo lavorato con 40 4 che il CPU Sun ultra lavora con un RAM ciascuno di 4 GB per effettuare le annotazioni del genoma umano. Eravamo primi, davanti a Celera e a HGP.
A quel tempo (2000-2001) erano possibilmente il pi� grande schieramento in maniera massiccia regolato di tecnologia del Java. Il funzionamento umano di annotazione del genoma ha richiesto la prima volta circa 1.5 mesi. Con parecchie revisioni ha richiesto circa un mese anche con tutti quei fissaggi e una scatola supplementare di Sun ultra Sparc.

Oggi stavo leggendo schieramento del cingolo di fotoricettore di s su Become.com '. Esso forse piuttosto pi� grande nei dati che tratta e un esempio interessante di schieramento regolato voluminoso.

Schieramento del Java

la decisione di s di Become.com ' per schierare la tecnologia del Java ha seguito l'esperienza nel CTO, nel presidente e nel cofounder dell'azienda, YUN di Yeogirl, a Wisenut.com, dove Wisenut ha passare un anno che genera il cingolo di fotoricettore di corrente alternata ++ che ha avuto memoria significativa e problemi di filettatura.

Abbiamo dovuto farli pi� veloce questo volta, osserviamo il YUN. Cos� abbiamo preso la decisione radicale per realizzare un cingolo usando la tecnologia del Java. Nessuno hanno creduto che fosse possibile, ma potevamo costruire il cingolo del prototipo in tre mesi usando due sviluppatori, che era un successo importante. La biblioteca incorporata della rete, la struttura multifilo ed il RMI [invocazione a distanza di metodo] hanno salvato molto tempo di sviluppo.

i cingoli di s di Become.com ' sviluppano un indice di fotoricettore, una base di dati reperibile, approssimativamente ogni due settimane. Cerca informazioni acquisto-relative soltanto. Il fetcher, che in se non memorizza informazioni, classifica le informazioni facendo funzionare parecchi controlli ad ogni pagina che posizionano. Cerca il tipo e la lingua della pagina e filtra fuori i duplicati o lo Spam. Identifica i collegamenti, le guide di acquisto, le revisioni esperte, le tribune, gli articoli ed altri materiali relativi. Allora invia le informazioni di nuovo al regolatore di movimento strisciante, che guida il movimento strisciante. Una volta che il processo � rifinito, forma una base di dati di tutte le pagine visitate, nell'ordine dal URL. Anche se le ricerche attualmente sono limitate all'inglese, il cingolo � costruito in moda da poterlo regolare facilmente esso ad altre lingue.

Le informazioni riunite allora vanno ad un indice invertito, attualmente di 3.2 miliardo Web pagi, nell'ordine non da URLs ma dalle parole chiavi. Per concludere, l'indice fine-tuned sia a risposte esperte dall'analisi di connettivit� del gruppo di ricerca che di pagina-valore di Become.com, che nota la frequenza con cui altre pagine sullo stesso collegamento di soggetto ad una pagina. Il cingolo richiede circa una settimana per completare la relativa operazione. Per concludere, tutte questi informazioni entrano in movimento strisciante seguente.

Particolari

In cingolo di sviluppo B, Bart Niechwiej ha provato la biblioteca di java.nio (NIO) ed ha ottenuto la migliore prestazione che con una versione multithreaded. Purtroppo, alcuni codici categoria - quale il URL - non lo hanno sostenuto il NIO, in modo da hanno realizzato un collegamento del URL.

Ha usato il Tomcat per il suo assistente di statistiche ed ha richiesto 20 GB della memoria per i fetchers, che hanno funzionato su 10 macchine a 32 bits separate di 2 GB ciascuno.