Tech Sketch Bucket of Technical Chips by TIS Inc.

Hadoop MapReduce、1ジョブで全体ソートする方法を考えた

Pocket

Hadoop MapReduceは、プログラマが何もしなくても処理結果をkey順にソートしてくれます。
ところが!処理結果全体はkey順になりません。

と、訳が分からないことを言いました。がんばって説明します。

Hadoop MapReduceは並列分散処理フレームワークなので、処理はふつう複数のタスクとして実行されます。処理結果はタスクごとに出力され、それぞれの中はkey順なのですが、タスクに割り当てられるkeyがマチマチなので全タスクの出力をつなぐとkeyが前後してしまいます。このように:

map-reduce.JPG

Hadoop MapReduceではタスクごとのソートを「部分ソート」、処理結果全体のソートを「全体ソート」といいますが、全体ソートの実現には一手間かかります。どんなやり方がいいか考えてみました。

Hadoopファミリーの人気投票

Pocket

といってもロゴのはなし。
kkawamuraさんの Hadoopと愉快な仲間たち ~おなじみのキャラクターを集めてみた~ にも

さてHadoopを使っている人が、みんな口を揃えて言うのが「ロゴ(キャラクター)がダサイ」ということです。果たして本当にそんなにダサいのか

と書かれていたり、Twitterなんかでもそういう空気。
 
そうなの?!Hadoopは結構かわいいよ!
援護射撃を期待して、社内SNSで聞いてみました。その結果は、、、