Massively Scaled Java Technology Deployment Maciçamente escalados implantação da tecnologia Java
At Em Doubletwist Inc. DoubleTwist Inc. we nós worked trabalhados with 40 4 CPU Sun Ultra Machines with 4 GB RAM each to carry out com 40 4 CPU Sun Ultra máquinas com 4 GB de RAM cada um para levar a cabo annotations of human genome anotações do genoma humano . We were first, ahead of Celera and HGP. Não foi em primeiro lugar, à frente da Celera e HGP.
At that time (2000-2001) it was possibly the largest massively scaled Java Technology Deployment. Nessa época (2000-2001) foi possivelmente o maior maciçamente escalados tecnologia Java Deployment. Human Genome Annotation run took about 1.5 months the first time. Genoma Humano Anotação correr demorou cerca de 1,5 meses, a primeira vez. With several revisions it took about a month even with all that hardware and an additional Sun Ultra Sparc box. Com várias revisões que teve cerca de um mês, mesmo com todos os que hardware e um adicional Sun Ultra Sparc caixa.
Today I was reading about Become.com’s Web Crawler deployment. Hoje eu estava lendo sobre Become.com 's Web Crawler implantação. It maybe somewhat bigger in the data it handles and an interesting example of massive scaled deployment. É talvez um pouco maiores que os dados em cabos e um exemplo interessante de implantação massiva redimensionado. 
Become.com’s decision to deploy Java technology Become.com 's decisão de implantar a tecnologia Java followed the experience of the company’s CTO, chairman, and cofounder, Yeogirl Yun, at Wisenut.com, where Wisenut spent a year creating a C++ web crawler that had significant memory and threading problems. seguido da experiência com o CTO da companhia, presidente, eo cofounder, Yeogirl Yun, em Wisenut.com, onde passou um ano Wisenut criando um C + + crawler que tinha problemas significativos memória e encadeamento.
“ We needed to do it faster this time ,” observes Yun. "Precisávamos de fazê-lo mais rápido desta vez", observa Yun. “So we made the radical decision to implement a crawler using Java technology. "Então fizemos a radical decisão de implementar um rastreador utilizando a tecnologia Java. No one believed it was possible, but we were able to build the prototype crawler in three months using two developers, which was a major achievement. Ninguém acreditava que era possível, mas fomos capazes de construir o protótipo indexador no prazo de três meses usando dois desenvolvedores, que foi uma grande conquista. The built-in network library, multithreading framework, and RMI [remote method invocation] saved a lot of development time. O sistema de rede na biblioteca, multithreading quadro, e RMI [remotas método invocação] salvou um monte de tempo de desenvolvimento.
Become.com’s crawlers build a web index, a searchable database, roughly every two weeks. Become.com 's indexadores construir um índice da web, um banco de dados pesquisáveis, cerca de duas em duas semanas. It searches for shopping-related information only. Procura por compras relacionadas com a informação só. The fetcher, which itself stores no information, classifies information by running several checks on every page it locates. O fetcher, que ela própria não armazena informações, classifica a informação executando vários controlos em todas as páginas localiza-lo. It looks for page type and language and filters out duplicates or spam. Ela olha para o tipo de página e de língua e filtra duplicatas ou spam. It identifies links, buying guides, expert reviews, forums, articles, and other relevant materials. Identifica links, comprando guias, análises dos peritos, fóruns, artigos e outros materiais relevantes. Then it sends information back to the crawl controller, which guides the crawl. Em seguida, ele envia informação de volta para o rastreamento controlador, que orienta o rastreamento. Once the process is finished, it forms a database of all pages visited, in order by URL. Depois que o processo esteja concluído, ele faz uma base de dados de todas as páginas visitadas, tendo em vista a URL. Although searches are currently limited to English, the crawler is constructed so that it can scale easily to other languages. Embora as pesquisas são actualmente limitada a Inglês, o indexador é construído de forma a que possa facilmente escala para outros idiomas.
The gathered information then goes to an “inverted” index, currently of 3.2 billion web pages, in order not by URLs but by keywords. As informações recolhidas em seguida vai para uma "invertido" índice, actualmente de 3,2 mil milhões de páginas Web, de modo a não por URLs, mas por palavras-chave. Finally, the index is fine-tuned to both expert feedback from the Become.com research team and page-value connectivity analysis, which notes the frequency with which other pages on the same topic link to a page. Por último, o índice é aperfeiçoá-lo tanto para o feedback do perito Become.com equipa de investigação e de página de valor conectividade análise, que assinala a frequência com que as outras páginas sobre o mesmo tema um link para uma página. The crawler takes about a week to complete its task. O rastreador leva cerca de uma semana para completar a sua tarefa. Finally, all of this information goes into the next crawl. Finalmente, toda esta informação vai para a próxima indexação.
In developing Crawler B, Bart Niechwiej tried out the java.nio library (NIO) and got better performance than with a multithreaded version. No desenvolvimento do rastreador B, Bart Niechwiej experimentou o java.nio a biblioteca (NIO) e obteve um melhor desempenho do que com uma versão multithread. Unfortunately, some classes — such as URL — did not support the NIO, so he implemented a URL connection. Infelizmente, algumas categorias - como a URL - não tem suporte a NIO, de modo que ele implementou uma ligação URL.
He used Tomcat for his statistics server and required 20 GB of memory for fetchers, which ran on 10 separate 32-bit machines of 2 GB each. Ele Tomcat utilizados para o seu servidor e estatísticas exigidas 20 GB de memória para fetchers, que decorreu em separado 10 máquinas de 32 bits de 2 GB cada.
Filed under Arquivado em Headline News Headline News , De Java Software Java Software , De Web | |
| |
RSS 2.0 RSS 2,0 | |
Trackback this Article | este artigo |
Email this Article E-mail este artigo
You may also like to read Você pode também gosta de ler |




