At 〜で Doubletwist Inc. DoubleTwistで株式会社 weわたしたち worked仕事 with 40 4 CPU Sun Ultra Machines with 4 GB RAM each to carry out 4つのCPUのSun Ultra 40マシンでは4 GB RAMの各を実施する annotations of human genomeヒトゲノムの注釈 .です。 We were first, ahead of Celera and HGP.私たちが第一に、セレラとhgpを控えています。
At that time (2000-2001) it was possibly the largest massively scaled Java Technology Deployment.その時( 2000-2001 )の可能性が大きいことは、大規模なスケーリング、 Javaテクノロジの展開します。 Human Genome Annotation run took about 1.5 months the first time.ヒトゲノムの塩基配列の最初の実行時間は約1.5カ月です。 With several revisions it took about a month even with all that hardware and an additional Sun Ultra Sparc box.いくつかの改正約一か月もかかったのすべてのハードウェアおよびその関連のSun Ultra SPARCのボックスをオンにします。

Today I was reading about Become.com’s Web Crawler deployment.今日の私は読書についてbecome.com 'のウェブクローラ展開します。 It maybe somewhat bigger in the data it handles and an interesting example of massive scaled deployment.やや大きいことかもしれないと、データを扱う大規模なスケーリング、興味深い例を展開します。

ジャワの展開

Become.com’s decision to deploy Java technology become.com 'の意思決定を展開するJavaテクノロジ followed the experience of the company’s CTO, chairman, and cofounder, Yeogirl Yun, at Wisenut.com, where Wisenut spent a year creating a C++ web crawler that had significant memory and threading problems.その後の経験を、同社のCTOである、委員長、およびcofounder 、 yeogirl潤、 wisenut.com 、ここで1年間Fast 、 Yahoo C + +のウェブクローラを作成するにはかなりのメモリとスレッド問題が発生します。

We needed to do it faster this time ,” observes Yun. "我々必要に応じてこれを行うに、これまでより迅速この時点で 、 "尹観察します。 “So we made the radical decision to implement a crawler using Java technology. "だから私たちは、過激な意思決定を実装するのクローラJavaテクノロジを使用しています。 No one believed it was possible, but we were able to build the prototype crawler in three months using two developers, which was a major achievement.いいえ1つの可能性を確信していたが、プロトタイプを構築することができたが、 3か月後のクローラを使用して2つの開発者が、これは、大きな成果です。 The built-in network library, multithreading framework, and RMI [remote method invocation] saved a lot of development time. 、ビルトインのネットワークライブラリは、マルチスレッドフレームワーク、およびrmi [リモートメソッド呼び出し] 、多くの開発時間を保存します。

Become.com’s crawlers build a web index, a searchable database, roughly every two weeks. become.comのウェブインデックスを構築するのクローラは、検索可能なデータベースは、約2週間ごとです。 It searches for shopping-related information only.ショッピングに関連した情報を検索することのみです。 The fetcher, which itself stores no information, classifies information by running several checks on every page it locates.の取得、これ自体店の情報については、いくつかのチェックを実行中の分類情報をすべてのページに位置します。 It looks for page type and language and filters out duplicates or spam.それを探しのページのタイプとする言語と重複や迷惑メールフィルタアウトします。 It identifies links, buying guides, expert reviews, forums, articles, and other relevant materials.それを識別リンク、買いガイド、専門家の評価、フォーラム、記事、およびその他の関連性の高い材料です。 Then it sends information back to the crawl controller, which guides the crawl.以下についての情報を入力し、それは、クロールコントローラを省略して、これは、クロールのガイドです。 Once the process is finished, it forms a database of all pages visited, in order by URL.一度の処理が完了したら、それを形成するデータベースのすべてのページを訪問は、オーダーを入力します。 Although searches are currently limited to English, the crawler is constructed so that it can scale easily to other languages.現在のところ限定されるものの検索は、英語の場合は、クローラが建設を行うことができます規模を他の言語に容易にします。

The gathered information then goes to an “inverted” index, currently of 3.2 billion web pages, in order not by URLs but by keywords.が、集まった情報を入力し、 "逆"指数は、現在のウェブページ3200000000ために、しかしのURLではなく、キーワードを使用します。 Finally, the index is fine-tuned to both expert feedback from the Become.com research team and page-value connectivity analysis, which notes the frequency with which other pages on the same topic link to a page.最後に、インデックスは微調整の両方に専門家からのフィードバックページ-値become.comの研究チームとの接続性の分析、どのノートの周波数と同じトピックに他のページにリンクしてページをご覧ください。 The crawler takes about a week to complete its task.クローラは、約1週間以内に完了するには、タスクです。 Finally, all of this information goes into the next crawl.最後に、すべてのこの情報の詳細は、次のクロールを注がれる。

詳細

In developing Crawler B, Bart Niechwiej tried out the java.nio library (NIO) and got better performance than with a multithreaded version.発展途上のクローラb 、バートniechwiejしようとしてjava.nioライブラリ( nio )とはマルチスレッド版に比べて、より良いパフォーマンスです。 Unfortunately, some classes — such as URL — did not support the NIO, so he implemented a URL connection.残念ながら、いくつかのクラス-などのU RL-のn i oサポートしていませんでしたので、彼のU R L接続を実装します。

He used Tomcat for his statistics server and required 20 GB of memory for fetchers, which ran on 10 separate 32-bit machines of 2 GB each.彼は彼の統計情報を使用されるサーバーとTomcatの20ギガバイトのメモリを必要となります。くみ、これが動作する10の個別の32ビットマシンの2 GBの各です。