At В Doubletwist Inc. Doubletwist инк we мы worked работал with 40 4 CPU Sun Ultra Machines with 4 GB RAM each to carry out с 40 4 CPU Sun Ultra машин с 4 ГБ ОЗУ каждого выполнять annotations of human genome аннотации генома человека . We were first, ahead of Celera and HGP. Мы были первым, опередив Celera и ПГЧ.
At that time (2000-2001) it was possibly the largest massively scaled Java Technology Deployment. В это время (2000-2001) было, возможно, крупнейшая массовые масштабы развертывания технологии Java. Human Genome Annotation run took about 1.5 months the first time. Геном человека Аннотирование запуска занимает около 1,5 месяцев первый раз. With several revisions it took about a month even with all that hardware and an additional Sun Ultra Sparc box. Что несколько изменений потребовалось около месяца, даже при том, что все оборудование и дополнительные Sun Ultra Sparc коробку.

Today I was reading about Become.com’s Web Crawler deployment. Сегодня я прочитал о Become.com "ы сканеры развертывания. It maybe somewhat bigger in the data it handles and an interesting example of massive scaled deployment. Она может быть несколько больше в данных она обрабатывает и интересный пример массовые масштабы развертывания.

Развертывание Java

Become.com’s decision to deploy Java technology Become.com "ы решение о развертывании технологии Java followed the experience of the company’s CTO, chairman, and cofounder, Yeogirl Yun, at Wisenut.com, where Wisenut spent a year creating a C++ web crawler that had significant memory and threading problems. затем опыт компании КТО, председатель и соучредитель, Yeogirl Юнь, на Wisenut.com, где провел Wisenut год создания C + + сканеры, которые имеют значительные памяти и резьбовые проблем.

We needed to do it faster this time ,” observes Yun. "Мы должны сделать это быстрее, на этот раз", отмечает, Юн. “So we made the radical decision to implement a crawler using Java technology. "Поэтому мы внесли радикальное решение ввести в сканер с использованием технологии Java. No one believed it was possible, but we were able to build the prototype crawler in three months using two developers, which was a major achievement. Никто не считает возможным, но мы смогли построить прототип сканера в три месяца с помощью двух разработчиков, которое было крупным достижением. The built-in network library, multithreading framework, and RMI [remote method invocation] saved a lot of development time. Встроенный в сетевой библиотеки, многопоточность рамок, и RMI [удаленного вызова метода] спасти множество время разработки.

Become.com’s crawlers build a web index, a searchable database, roughly every two weeks. Become.com "ы сканеры создания веб-индекс, базу данных, примерно каждые две недели. It searches for shopping-related information only. Он ищет для покупок, связанных информации. The fetcher, which itself stores no information, classifies information by running several checks on every page it locates. Получение, которая сама хранит никакой информации, классификация информации, запустив несколько проверок на каждой странице он находится. It looks for page type and language and filters out duplicates or spam. Она ищет тип страницы и языка и отфильтровывает дубликатов или спама. It identifies links, buying guides, expert reviews, forums, articles, and other relevant materials. В нем указываются ссылки, покупка гиды, экспертные обзоры, форумы, статьи, и другие соответствующие материалы. Then it sends information back to the crawl controller, which guides the crawl. Затем он отправляет информацию в контроллер сканирования, которая определяет сканирования. Once the process is finished, it forms a database of all pages visited, in order by URL. Как только процесс завершится, образует базу данных всех страниц, посещенных в порядке URL. Although searches are currently limited to English, the crawler is constructed so that it can scale easily to other languages. Хотя обыски в настоящее время ограничивается английском, сканер построена так, что она может легко шкале на другие языки.

The gathered information then goes to an “inverted” index, currently of 3.2 billion web pages, in order not by URLs but by keywords. Собрана информация затем идет в "перевернутом" индекса, который в настоящее время в 3,2 миллиарда веб-страниц, для того чтобы не по URL, но и по ключевым словам. Finally, the index is fine-tuned to both expert feedback from the Become.com research team and page-value connectivity analysis, which notes the frequency with which other pages on the same topic link to a page. Наконец, индекс доработать как эксперт обратной связи с Become.com научно-исследовательской группы и страниц стоимость подключения анализа, в котором отмечается, частота, с которой других страниц на одной теме ссылку на страницу. The crawler takes about a week to complete its task. Сканер занимает около недели для завершения ее задачи. Finally, all of this information goes into the next crawl. Наконец, все это информация попадает в следующем сканировании.

Подробности

In developing Crawler B, Bart Niechwiej tried out the java.nio library (NIO) and got better performance than with a multithreaded version. При разработке сканера B, Барт Niechwiej опробованы java.nio библиотеки (NIO) и получил лучшую производительность, чем с многопоточным версия. Unfortunately, some classes — such as URL — did not support the NIO, so he implemented a URL connection. К сожалению, некоторые классы - таких, как URL - не поддерживают NIO, поэтому он воплотил URL соединения.

He used Tomcat for his statistics server and required 20 GB of memory for fetchers, which ran on 10 separate 32-bit machines of 2 GB each. Он использовал его для Tomcat сервер статистики и требуют 20 ГБ памяти на fetchers, которая осуществлялась на 10 отдельных 32-битных машин 2 Гб каждый.