En Doubletwist Inc. trabajamos con 40 4 que la CPU Sun ultra trabaja a m�quina con el RAM cada uno de 4 GB para realizar anotaciones del genoma humano. �ramos primeros, delante de Celera y de HGP.
En aquel momento (2000-2001) eran posiblemente el despliegue masivo escalado m�s grande de la tecnolog�a de Java. El funcionamiento humano de la anotaci�n del genoma tard� cerca de 1.5 meses la primera vez. Con varias revisiones tard� alrededor de un mes incluso con todo ese hardware y una caja adicional de Sun ultra Sparc.

Le�a hoy sobre despliegue de la correa eslabonada de Web de s de Become.com '. �l quiz� algo m�s grande en los datos que maneja y un ejemplo interesante del despliegue escalado masivo.

Despliegue de Java

decisi�n de s de Become.com la ' para desplegar la tecnolog�a de Java sigui� la experiencia del CTO, del presidente, y del cofounder de la compa��a, YUN de Yeogirl, en Wisenut.com, donde Wisenut pas� un a�o que creaba la correa eslabonada de tela del A.C. ++ que ten�a memoria significativa y los problemas el roscar.

Necesitamos hacerla m�s r�pida este vez, observamos el YUN. Tomamos tan la decisi�n radical para ejecutar una correa eslabonada usando la tecnolog�a de Java. Nadie creyeron que era posible, pero pod�amos construir la correa eslabonada del prototipo en tres meses usando dos reveladores, que era un logro importante. La biblioteca incorporada de la red, el marco multithreading, y el RMI [invocaci�n alejada del m�todo] ahorraron mucha hora de desarrollo.

correas eslabonadas de s de Become.com las ' construyen un �ndice de la tela, una base de datos investigable, �spero cada dos semanas. Busca para la informaci�n compra-relacionada solamente. El fetcher, que s� mismo no almacena ninguna informaci�n, clasifica la informaci�n funcionando con varios cheques en cada p�gina que establece. Busca el tipo y la lengua de la p�gina y filtra hacia fuera los duplicados o Spam. Identifica acoplamientos, gu�as de compra, las revisiones expertas, los foros, los art�culos, y otros materiales relevantes. Entonces env�a la informaci�n de nuevo al regulador del arrastre, que dirige el arrastre. Una vez que se acaba el proceso, forma una base de datos de todas las p�ginas visitadas, en orden por el URL. Aunque las b�squedas se limiten actualmente al ingl�s, se construye la correa eslabonada de modo que pueda escalar f�cilmente a otras idiomas.

La informaci�n recopilada entonces va a un �ndice invertido, actualmente de 3.2 mil millones Web pages, en orden no por URLs pero por palabras claves. Finalmente, el �ndice fine-tuned a la regeneraci�n experta del an�lisis de la conectividad del equipo y del p�gina-valor de investigaci�n de Become.com, que observa la frecuencia con la cual otras p�ginas en el mismo acoplamiento del asunto a una p�gina. La correa eslabonada tarda alrededor de una semana para terminar su tarea. Finalmente, toda esta informaci�n entra el arrastre siguiente.

Detalles

En la correa eslabonada que se convert�a B, el baronet Niechwiej prob� la biblioteca de java.nio (NIO) y consigui� un mejor funcionamiento que con una versi�n con hilos m�ltiples. Desafortunadamente, algunas clases - tales como URL - no apoyaron el NIO, as� que lo ejecutaron una conexi�n del URL.

�l utiliz� el Tomcat para su servidor de las estad�sticas y requiri� 20 GB de la memoria para los fetchers, que funcionaron en 10 m�quinas de 32 bits separadas de 2 GB por cada uno.