5 Tips for Bulk Data Processing Programmingバルクデータ処理プログラミングの5つのヒント
We are currently processing huge amount of sensitive corporate data for a Fortune 500 company as the first phase of a project.我々は現在、膨大な量の処理に敏感な企業のデータを、フォーチュン500企業としての最初のフェーズでは、プロジェクトを作成します。 You have to be very careful in data processing, much more than any standard programming effort.非常に慎重にしなければならないデータ処理、標準プログラミングよりもはるかに努力します。 Here are few tips you may find useful when programming to process sensitive data in bulk.ここではいくつかのヒントをプログラミングするのが望ましい場合がありますときに便利機密性の高いデータをまとめて処理します。 Get your best (wo)men on the job.入手してベスト(を)仕事上の男性です。
Institute a policy of random manual check.研究所の方針をランダムにマニュアルを確認します。 It may not be feasible to manually verify all or even most of the data.それを手動で確認することができない可能性さえほとんどのデータの全部またはです。 However you must rigorously check a significant random subset of data from every batch.しかし厳密にチェックする必要があります。ランダムに重要なすべてのバッチからのデータのサブセットです。 You will be surprised how much you can discover about the data as well as any errors by this simple step.表示される驚きを発見することができますどれくらいのデータについては、すべてのエラーだけでなく、この単純なステップに進みます。
Program safely not optimally.プログラムを安全には最適です。 You must program safely; this is not the time to think about optimizations.プログラムを安全にする必要がありますが、これは特定の時間の最適化を考える。 Data accuracy is your primary concern.データの正確性はあなたの主な関心事です。 Performance isn’t normally an issue.通常のパフォーマンスの問題ではない。 Name the variables clearly and accurately to help with code review.名前の変数を支援するコードを正確にはっきりとした日です。
Write down your logic in pseudo-code.書き留めておいて、あなたのロジックを疑似コードです。 Code review yourself at least twice and get at least one other person to do it in details.コードを取得した日に、少なくとも2回、少なくとも1つの他の人とこれを行うにしてください。 It is very easy to miss little details while coding.リトルを見逃す手はないことは非常に簡単に詳細を符号化します。 Finding such errors are easy in normal application development.このようなエラーを見つける通常のアプリケーション開発が容易です。 Finding little logical errors in huge amount of data is next to impossible.ほとんどのエラーを見つけるの論理の横にある膨大な量のデータは不可能です。
Thoroughly code review your final code after you are done with at least one or more senior programmers.徹底的にコードを確認し、最終的なコードが実行した後に、少なくとも1つ以上のシニアプログラマーです。
Extensively test with a small subset of data.広範囲のテストのデータを小規模なサブセットとなっています。 Repeat the process with two or more of such set. 2つ以上のプロセスを繰り返すように設定します。
Get your data experts to manually review the generated data.データを取得して専門家を個別に確認し、生成したデータです。 They can find smell faster than anyone else.見つけることができますにおいを他の誰よりも速くします。
I cannot over-stress the importance of writing quality unit tests for such projects.私オーバーすることはできません書き込み品質の重要性を強調してこのようなプロジェクトユニットテストします。 However you should also write tests to independently verify the generated / uploaded data.しかしここのテストをする必要も個別に確認して生成/アップロードされたデータです。 Get input for such tests from the domain experts.入力を取得するドメインの専門家からこのようなテストです。 Do not compromise at all on testing.妥協ではありませんすべてをテスト中です。
Use a strongly typed language like Java.強く型付けされた言語のJavaを使用するようにします。
Last but not the least you should get your most experienced developers on the job.最後になりましたが、最低で最も経験豊富な開発者を取得するべきかをして仕事をする。 Bulk data processing and mining is a different ball-game than standard application development.バルクデータ処理、および鉱山は、別のボールゲームよりも標準アプリケーションの開発です。
Filed under提出されて Databaseデータベース , 、 Enterprise Softwareエンタープライズソフトウェア , 、 Headline Newsニュースの見出し , 、 How Toどのように , 、 J2EE J2EEの , 、 Java Software Javaソフトウェア , 、 Programmingプログラミング , 、 Software Outsourcingソフトウェアアウトソーシング | |
| |
RSS 2.0 RSS 2.0を | |
Trackbackトラックバック this Article |この記事|
Email this Article電子メールこの記事
You may also like to readを読むようにすることも可能 |





May 30th, 2007 at 11:19 am 2007年5月30日11:19アム
In addition to safety, one tip as a complementary is the use of high throughput package like GreenTea (http://www.GreenTeaTech.com) to speed up the data processing.安全性に加えて、 1つのヒントを補完するとしては、高スループットのようなパッケージを使用する天然茶( http://www.greenteatech.com )のデータ処理を高速化するためです。 We’ve used it extensively to process huge financial data sets to speed up the process.お客様の広範囲に使用されることを処理する巨大な金融データセットを高速化するためのプロセスです。 We’ve found it quite useful and would like to share it with your reader audiences.私たちが見つかったことに非常に有用と希望しておリーダーの観客を共有しています。
Johnジョン
May 30th, 2007 at 7:42 pm 2007年5月30日は7:42 pmの
Nice contextual advert, but I will let it through this timeニースコンテクスト広告は、しかし、私はそれをこの時点で