Bij Inc. Doubletwist dat wij met 40 4 Machines met 4 GB RAM hebben gewerkt elk van de Zon van cpu ultra annotaties van menselijk genoom uit te voeren. Wij waren eerste, voor Celera en HGP.
Op dat ogenblik (2000-2001) het was misschien de grootste massaal geschraapte Plaatsing van de Technologie van Java. De menselijke looppas van de Annotatie van het Genoom vergde ongeveer 1.5 maanden de eerste keer. Met verscheidene revisies nam het over een maand zelfs met al dat hardware en een extra Ultradoos Sparc van de Zon.

Vandaag las ik over Become.com ' s de plaatsing van het Kruippakje van het Web. Het misschien enigszins groter in de gegevens het behandelt en een interessant voorbeeld van massieve geschraapte plaatsing.

De Plaatsing van Java

Become.com ' volgde het s- besluit om de technologie van Java in te voeren de ervaring van CTO van het bedrijf, voorzitter, en cofounder, Yun Yeogirl, in Wisenut.com, waar Wisenut een jaar doorbracht dat tot het kruippakje leidt van het a.c. ++ Web dat significant geheugen en het inpassen van problemen had.

Wij moesten het sneller doen dit keer, neemt Yun waar. Namen wij zo het radicale besluit om een kruippakje uit te voeren gebruikend de technologie van Java. Niemand geloofde het mogelijk was, maar wij konden het prototypekruippakje in drie maanden bouwen gebruikend twee ontwikkelaars, dat een belangrijke voltooiing was. De ingebouwde netwerkbibliotheek, multithreading kader, en RMI [verre methodeaanroeping] bespaarden heel wat ontwikkelingstijd.

Become.com ' s de kruippakjes bouwen een Webindex, een searchable gegevensbestand, ruwweg om de twee weken. Het is naar op winkelenbetrekking hebbende slechts informatie op zoek. Fetcher, die zelf geen informatie opslaat, classificeert informatie door verscheidene controles van elke pagina in werking te stellen het de plaats bepaalt van. Het zoekt paginatype en taal en filters uit duplicaten of spam. Het identificeert verbindingen, het kopen gidsen, deskundige overzichten, forums, artikelen, en andere relevante materialen. Dan verzendt het informatie terug naar kruipt controlemechanisme, dat kruipt leidt. Zodra het proces wordt gebe�indigd, vormt het een gegevensbestand van alle pagina's die, in orde door URL worden bezocht. Hoewel de onderzoeken momenteel beperkt tot het Engels zijn, wordt het kruippakje geconstrueerd zodat het gemakkelijk aan andere talen kan schrapen.

De verzamelde informatie gaat dan naar een omgekeerde index, momenteel van 3.2 miljard Web-pagina's, in orde niet door URLs maar door sleutelwoorden. Tot slot is de index verfijnd aan zowel deskundige terugkoppelt van de Become.com onderzoeksteam als pagina-waarde connectiviteitsanalyse, die van de frequentie nota neemt waarmee andere pagina's op het zelfde onderwerp met een pagina verbinden. Het kruippakje neemt over een week om zijn taak te voltooien. Tot slot gaat elk van deze informatie in volgende kruipt.

Details

Bij het ontwikkelen van Kruippakje B, probeerde de Baronet Niechwiej de bibliotheek java.nio uit (NIO) en kreeg betere prestaties dan met een multithreaded versie. Jammer genoeg, steunden sommige klassen - zoals URL - niet NIO, zodat voerde hij een verbinding URL uit.

Hij gebruikte Kater voor zijn statistiekenserver en vereiste 20 GB van geheugen voor fetchers, die op 10 scheiden machines met 32 bits van 2 GB elk liepen.