Massively Scaled Java Technology Deployment 스케일링 자바 기술을 대량 배포
At 에 Doubletwist Inc. DoubleTwist에 Inc. we 우리 worked 근무 with 40 4 CPU Sun Ultra Machines with 4 GB RAM each to carry out 울트라 기계와 40 4 cpu 일 각각 실시 4기가바이트 렘 annotations of human genome 인간의 게놈 주석 . 합니다. We were first, ahead of Celera and HGP. 우리는 첫째로, celera을 앞두고 hgp합니다.
At that time (2000-2001) it was possibly the largest massively scaled Java Technology Deployment. 그 당시 (2000-2001) 대규모의 최대 크기는 아마 자바 기술을 배포합니다. Human Genome Annotation run took about 1.5 months the first time. 약 1.5 개월 인간 게놈 주석 처음으로 데려를 실행합니다. With several revisions it took about a month even with all that hardware and an additional Sun Ultra Sparc box. 한 달 정도 걸린 여러 버전으로 모든 것을에도 불구하고 하드웨어와 별도 태양 울트라 sparc 박스합니다.
Today I was reading about Become.com’s Web Crawler deployment. 오늘은 독서에 대해 become.com의 웹 크롤 러 배포합니다. It maybe somewhat bigger in the data it handles and an interesting example of massive scaled deployment. 조금 더 큰에서 데이터 처리를했을 수도과 흥미로운 예제의 대량 배포 크기를 조정합니다. 
Become.com’s decision to deploy Java technology become.com 님의 자바 기술을 배포하는 결정을 followed the experience of the company’s CTO, chairman, and cofounder, Yeogirl Yun, at Wisenut.com, where Wisenut spent a year creating a C++ web crawler that had significant memory and threading problems. 이 회사의 기술 책임자 (CTO의 경험에 따라 회장, 그리고 cofounder, yeogirl 윤에서 wisenut.com, 어디 Yahoo, Fast 일년에 지출 c + + 웹 크롤 러를 만들기 메모리 및 스레딩 문제가 중요합니다.
“ We needed to do it faster this time ,” observes Yun. "우리는 이번에 더 빨리 할 필요가 좀있어,"관찰 윤합니다. “So we made the radical decision to implement a crawler using Java technology. "그래서 우리는 급진 크롤 러를 사용하여 자바 기술을 구현하는 결정을합니다. No one believed it was possible, but we were able to build the prototype crawler in three months using two developers, which was a major achievement. 아무도 믿을 수있습니다 그것은,하지만 우리를 만들 수 있었다 프로토 타입 크롤 러를 사용하여 3 개월 만에 두 개발자, 그것은 주요 업적합니다. The built-in network library, multithreading framework, and RMI [remote method invocation] saved a lot of development time. 네트워크의 기본 - 도서관, 멀티 스레딩 프레임 워크, 그리고 rmi [원격 메소드 호출] 개발 시간이 많이 저장합니다.
Become.com’s crawlers build a web index, a searchable database, roughly every two weeks. become.com 님의 빌드에서 웹 크롤 러가 색인, 검색 데이터베이스, 약 2 주 동안 매일합니다. It searches for shopping-related information only. 그것 쇼핑 - 관련 정보를 검색하는 경우에만합니다. The fetcher, which itself stores no information, classifies information by running several checks on every page it locates. the 가져오기, 이것은 이미 그 자체 매장 지역 정보, 분류 정보를 찾아 그것을 실행하여 모든 페이지에 여러 검사를합니다. It looks for page type and language and filters out duplicates or spam. 페이지 유형 및 언어를위한 것 중복 또는 스팸 메일을 걸러냅니다. It identifies links, buying guides, expert reviews, forums, articles, and other relevant materials. 그것을 식별 링크, 쇼핑 안내, 전문 리뷰, 포럼, 기사, 및 기타 관련 자료합니다. Then it sends information back to the crawl controller, which guides the crawl. 그러면 정보를 전송합니다 크롤 링 컨트롤러,이 크롤 링을 안내합니다. Once the process is finished, it forms a database of all pages visited, in order by URL. 한 번,이 과정이 끝나면,이 양식의 모든 페이지를 방문하는 데이터베이스의 순서를 가리 킵니다. Although searches are currently limited to English, the crawler is constructed so that it can scale easily to other languages. 비록로 제한 검색은 현재 영어, 크롤 러는 건설 수 있도록 규모를 다른 언어로 쉽게합니다.
The gathered information then goes to an “inverted” index, currently of 3.2 billion web pages, in order not by URLs but by keywords. 수집한 정보를 다음으로 간다 "반전"인덱스, 현재의 32 억 웹 페이지를 통하지 않고 키워드를하기 위해 URL을 통해 할 수는없습니다. Finally, the index is fine-tuned to both expert feedback from the Become.com research team and page-value connectivity analysis, which notes the frequency with which other pages on the same topic link to a page. 마지막으로, 지수는 모두에게 좋은 - 지켜봐 주시기 바랍니다 become.com 연구팀과 페이지에서 전문가 의견 - 값 연결을 분석,이 노트의 다른 페이지의 주파수를 동일한 주제가 포함된 페이지로 연결합니다. The crawler takes about a week to complete its task. 크롤 러를 완료할 수 있도록 1 주일 정도 소요 작업을합니다. Finally, all of this information goes into the next crawl. 마지막으로,이 정보의 모든 크롤 링의 다음 들어갑니다.
In developing Crawler B, Bart Niechwiej tried out the java.nio library (NIO) and got better performance than with a multithreaded version. 개발에 크롤 러 b, 바트 niechwiej 밖으로 시도 java.nio 도서관 (nio) 및 멀티 스레드 버전하고있는 것보다 더 나은 성능을가합니다. Unfortunately, some classes — such as URL — did not support the NIO, so he implemented a URL connection. 불행히도, 어떤 종류 - 예를 들어 구매 - 않았을 지원 nio, 그래서 url 연결을 구현합니다.
He used Tomcat for his statistics server and required 20 GB of memory for fetchers, which ran on 10 separate 32-bit machines of 2 GB each. 그는 그의 통계를 이용 서버와 tomcat 20기가바이트의 메모리를 요구하는 원인이 10 몫 2기가바이트 각각 별도의 32 - 비트 머신을합니다.
Filed under 밑에 Headline News 헤드 라인 뉴스 , Java Software 자바 소프트웨어 , Web 웹 | |
| |
RSS 2.0 rss 2.0 | |
Trackback 트랙백 this Article | 이 문서 |
Email this Article 전자 우편이 문서
You may also like to read 같은를 읽을 수있습니다 |




