Massively Scaled Java Technology Deployment توسيع نطاق واسع نشر تكنولوجيا جافا
At في Doubletwist Inc. شركة DoubleTwist we نحن worked عمل with 40 4 CPU Sun Ultra Machines with 4 GB RAM each to carry out 40 4 مع وحدة المعالجه المركزية الشمس آلات جدا مع 4 غيغابايت رام كل من الاضطلاع annotations of human genome الشروح من الجينوم البشرى . We were first, ahead of Celera and HGP. ونحن لأول مرة ، قبل celera وhgp.
At that time (2000-2001) it was possibly the largest massively scaled Java Technology Deployment. في ذلك الوقت (2000-2001) وربما كان اكبر حجم واسع نشر تكنولوجيا جافا. Human Genome Annotation run took about 1.5 months the first time. الجينوم البشري الشرح البعيد اشهر شارك بنحو 1،5 مرة الاولى. With several revisions it took about a month even with all that hardware and an additional Sun Ultra Sparc box. مع العديد من التنقيحات استغرق حوالى شهر وحتى مع ان جميع الاجهزه والشمس اضافي جدا SPARC مربع.
Today I was reading about Become.com’s Web Crawler deployment. اليوم الاول كان يقرأ عن become.com 'الزاحف نشر على الشبكه العالمية. It maybe somewhat bigger in the data it handles and an interesting example of massive scaled deployment. ولربما إلى حد أكبر في البيانات التي تتعامل مع واحد من الامثله المثيرة للاهتمام الكبير الذي نشر ضخمة. 
Become.com’s decision to deploy Java technology Become.com 'قرار نشر التكنولوجيا جافا followed the experience of the company’s CTO, chairman, and cofounder, Yeogirl Yun, at Wisenut.com, where Wisenut spent a year creating a C++ web crawler that had significant memory and threading problems. تجربة للتتبع الشركة cto ، رئيس المركز ، وcofounder ، yeogirl يون ، في wisenut.com ، حيث wisenut لمدة سنة انشاء شبكة سي + + الزاحف التي كانت الذاكرة كبيرة والتخييط المشاكل.
“ We needed to do it faster this time ,” observes Yun. "كنا في حاجة الى القيام بذلك بشكل اسرع هذه المرة ،" ويلاحظ يون. “So we made the radical decision to implement a crawler using Java technology. "حتى جعلنا جذريه لتنفيذ قرار الزاحف استخدام تكنولوجيا جافا. No one believed it was possible, but we were able to build the prototype crawler in three months using two developers, which was a major achievement. لم يصدق احد انه من الممكن ، ولكننا كنا قادرين على بناء نموذج الزاحف في ثلاثة اشهر باستخدام اثنين من المطورين ، الذي يعتبر انجازا كبيرا. The built-in network library, multithreading framework, and RMI [remote method invocation] saved a lot of development time. المدمج في شبكة المكتبه ، multithreading الاطار ، وجمهورية جزر مارشال [الناءيه طريقة الاحتجاج] انقذ الكثير من الوقت للتنمية.
Become.com’s crawlers build a web index, a searchable database, roughly every two weeks. Become.com 'الزواحف الرقم القياسي لبناء شبكة ، قاعدة بيانات يمكن البحث فيها ، تقريبا كل اسبوعين. It searches for shopping-related information only. انه يبحث عن المعلومات ذات الصلة التسوق فقط. The fetcher, which itself stores no information, classifies information by running several checks on every page it locates. الجالب ، وهي بحد ذاتها لا توجد معلومات مخازن ، ويصنف المعلومات عن طريق تشغيل عدة شيكات في كل صفحة انها مكان. It looks for page type and language and filters out duplicates or spam. إنها تتطلع لنوع الصفحه واللغة ومرشحات من اصل مكرره او البريد المزعج. It identifies links, buying guides, expert reviews, forums, articles, and other relevant materials. وهي تحدد وصلات ، ادلة شراء ، واستعراضات الخبراء ، والمنتديات ، والمقالات ، ومواد اخرى ذات صلة. Then it sends information back to the crawl controller, which guides the crawl. ثم ترسل المعلومات إلى الزحف المراقب المالي ، الذي يوجه الزحف. Once the process is finished, it forms a database of all pages visited, in order by URL. وبمجرد الانتهاء من هذه العملية ، وهو يشكل قاعدة بيانات لجميع الصفحات التي تمت زيارتها ، في موقع من قبل النظام. Although searches are currently limited to English, the crawler is constructed so that it can scale easily to other languages. ورغم ان عمليات البحث فى الوقت الحاضر تقتصر على الانكليزيه ، هي التي شيدت الزاحف حتى يمكن ان الجدول بسهولة الى لغات اخرى.
The gathered information then goes to an “inverted” index, currently of 3.2 billion web pages, in order not by URLs but by keywords. المعلومات المجمعه ثم تذهب ل"معكوس" الرقم القياسي ، 3،2 بليون دولار في الوقت الراهن من صفحات الويب ، وذلك من اجل عناوين ولكن ليس عن طريق الكلمات الرئيسية. Finally, the index is fine-tuned to both expert feedback from the Become.com research team and page-value connectivity analysis, which notes the frequency with which other pages on the same topic link to a page. واخيرا ، فان الرقم القياسي لصقل كل من خبراء التغذيه المرتده من فريق البحث وbecome.com الصفحه القيمه الربط التحليل ، والذي يشير الى الوتيره التي صفحات اخرى حول نفس الموضوع وصلة الى صفحة. The crawler takes about a week to complete its task. الزاحف يستغرق حوالي اسبوع لانجاز مهمتها. Finally, all of this information goes into the next crawl. واخيرا ، كل هذه المعلومات تذهب الى الزحف القادم.
In developing Crawler B, Bart Niechwiej tried out the java.nio library (NIO) and got better performance than with a multithreaded version. في البلدان الناميه ب الزاحف ، بارت niechwiej تجريب java.nio فان المكتبه (NIO) وحصلت على اداء افضل من النسخه مع multithreaded. Unfortunately, some classes — such as URL — did not support the NIO, so he implemented a URL connection. وللأسف ، فإن بعض فئات -- مثل عنوان -- لا يؤيد NIO ، ولذلك فإنه نفذ موقع الصدد.
He used Tomcat for his statistics server and required 20 GB of memory for fetchers, which ran on 10 separate 32-bit machines of 2 GB each. وقال انه يستخدم قط لخدمة بلده والاحصاءات المطلوبة 20 غيغابايت من الذاكرة لfetchers ، التي امتدت 10 منفصلة عن 32 بت للآلات 2 غيغابايت لكل منهما.
Filed under المقدم بمقتضى Headline News أهم الانباء , ، Java Software برنامج جافا , ، Web شبكة | |
| |
RSS 2.0 ار اس اس 2،0 | |
Trackback this Article | هذه المادة |
Email this Article ارسل هذه المادة
You may also like to read ويمكنك ايضا ان تقرأ |




