Tech Sketch Bucket of Technical Chips by TIS Inc.

【イベントレポート】アカデミッククラウドシンポジウム2015 (後編) (Cloud Week 2015@Hokkaido University)

Pocket

諸般の事情によりイベントから記事公開までの日程が空いてしまいました。申し訳ありません

2015年9月7日(月)~9月9日(水)の3日間、北海道大学にて開催されたCloud Week 2015内で行われたアカデミッククラウドシンポジウム2015 の後半部分をレポートさせて頂く。前半は各企業からの大学・研究所などの学術機関向けサービスの紹介だったが、後半は学術機関からの研究成果の発表が中心となっている。

事前にお詫びをさせて頂く。学術、研究機関の発表であったため、内容が非常に高度で、著者にとって専門外も部分が非常に多かった。その部分については正確なレポートが行えていない可能性があることをご容赦頂きたい。

京都大学におけるプライベートクラウド環境の現状と課題

京都大学情報環境研究機構 梶田 将司先生のご講演。
京都大学の学内に構築したアカデミッククラウド環境の現状の課題と目指すべき将来像についての述べられていた。まずは現状の説明で概要は以下となる。

  1. 京都大学情報環境研究機構では京都大学内に学内共有サービスとしてアカデミッククラウド環境を構築
  2. VMホスティングサービス、ホームページサービス、ストリーミング配信サービスなどを提供している
  3. VMware/KVMなどの仮想基盤を活用し、ニーズに対応できるフレキシブルな環境を提供している
  4. ホームページサービス(Webホスティング)ではWordPressをインストール済みで提供。利用も拡大中

現状発生している課題とその対策は以下となる。

  1. 利用の拡大により仮想化資源の必要量が増えている。資源と予算の確保が必要
  2. さらにリソース提供量を柔軟にするためにパブリッククラウドの利用も検討が必要
  3. HPCのニーズに対応する為、スーパーコンピュータとの連携も必要
  4. 新たなニーズである、「ビデオ基盤」「アナリティクス基盤」「研究公正」への対応が必要

特に「研究公正」は、某研究所であった某事案が発端で、研究データの公正さを確保する為に、研究に使用したデータや論文は10年間保存し、何等かの必要が発生した場合、追跡・開示が行える状態を実現することが必須となる。教員・学生の研究・論文が全て対象となる為、資源の確保や運用など課題が多くこれから大変になりそうとのことだった。


アプリケーション中心型オーバーレイクラウド

国立情報学研究所(NII) 合田 憲人先生のご講演。
インタークラウド(ハイブリッドクラウド)環境上でのビッグデータ解析サービス提供の事例のご紹介だ。述べられていた概要は以下である。

  1. NIIではビックデータ解析解析の基盤をインタークラウド上に構築し提供している
  2. 対象はビッグサイエンス(ゲノム解析、天文、素粒子物理 等)や社会データ(SNS等)のデータ
  3. アプリケーションごとに最適(占有)プラットフォームを自動的かつ高速に構築する基盤が必要
  4. アプリケーション中心型オーバーレイクラウドを構築し、提供している
  5. アプリケーションはDockerコンテナで提供し、Mesos、Flynn、Kubernetesを利用し自動構築している
  6. クラウドプラットフォームとしてプライベートクラウドに加えて、GCE・AWS・Softlayerも利用

現状では、インタークラウド上でプライベートクラウド、パブリッククラウドを利用して占有リソースを最適に配置する形での運用を実現している。利用するデータのサイズが非常に大きい為、データの移動自体は困難でどうしてもロケーションを固定ぜざるを得ないからだ。

ゲノム解析プロダクトのGalaxyのコンテナ対応の事例も紹介があった。各機能をコンテナ化し配置している。処理にはワークフローの制御が必要だが、MesosとAuroraを組み合わせて実現している。コンテナリポジトリからコンテナを自動配備し、解析を行うところまでは成功している。今後、インタークラウド上のサービスとして提供を予定している

さらに国内外のインタークラウドの状況についてもご紹介があった。国内では各大学・研究機関を全て40Gbpsで接続するSINET5がリリースされた。それにより各大学・研究機関のリソースを共同利用するマルチクラウド検証も北海道大学を中心に行われている。さらに海外の事例や製品について以下の紹介があった。

事例・製品 特徴 備考
GridARSインタークラウド資源管理フレームワーク 資源管理、アプリケーション実行管理、分散モニタリングを持ったマルチクラウドコントローラ 詳細はこちらを参照
NeCTAR Research Cloud オーストラリアの研究所・大学8拠点を結んだインタークラウド 2万コアを持ち、5000名以上が利用
Global Environment for Network Innovations (GENI) 全米の多数の研究所・大学を結んだインタークラウド上で構築されたテストベット ネットワーク、セキュリティ、アプリケーション技術に関する研究に利用可能
Future Grid コンピュータサイエンス(グリッド・クラウド等)研究用テストベット 認証や仮想化やミドルウェアのなどのIT技術に加えて、天文学や化学などの解析にも利用可能
CloudLab 研究者が独自の環境を構築して実験を行えるベアメタルクラウド ユタ大学、ウインスコン大学、カリフォルニア大学が参加。GEMIの資源も利用可能
Chameleon 同上 シカゴ大学、TACCが参加。Future Gridの資源も利用可能

インタークラウド側でアプリケーション中心型オーバーレイクラウドを実現するには以下が必要になる。

  1. ミドルウェア(最適化されてデータ解析フラットホームを自動的かつ高速に構築)
  2. 最適資源配置(アプリケーションの要求を満たす最適な資源群を自動選択)
  3. アプリケーションの応用(ゲノム解析や流体音解析など利用可能範囲を拡大)
  4. 基盤(インタークラウド上でのデータストア、アクセス方式、運用の改善)

これらを提供することで、プラットフォーム構築時間とアプリケーション実行時間の短縮を図り、データ解析サイクルの短縮の実現を図りたいとのことだった。


クラウドブローキングのための述語論理式によるシステム記述について

北見工業大学 三浦 克宣先生のご講演。
インフラの要件・設計を述語論理式による数式化し、要件定義、サイジング、設計、構築までの全ての自動化につなげるという発表だった。述べられていた概要は以下となる。

  1. クラウドブローカーの仕事は「クラウドサービスを選定」「新たなサービスを構築」「動的にサービスを選定」の3点
  2. 顧客からの要求を受けたクラウドブローカが要求を数式化することで、設計以降の工程を自動化する機能を実現する。最終的には、顧客の要求を直接数式化するところまで実現したい
  3. 数式化する対象は「インフラ性能」「サービス性能」「可用性」「運用コスト」「準拠法、ライセンス」「セキュリティポリシー」
  4. クラウドが提供できるリソースやサービスなどのバリエーションを原子論理式で定義、性能要件なども含めたシステム記述式を定義してシステムを記述する
  5. その作成されたシステム記述式を機械学習の推論エンジンにかけることで確定節に置き換える。※例:「リクエスト件数:50件、平均応答時間:0.03秒」⇒必要となるマシンスペックが決まる。

これらを実装することで、以下の利便性の向上を図ることができる。

  1. 内容の読みやすさ : システムの制約が原子論理式で記述され、内容がコンパクトである。
  2. 誤り検証 : 背反な制約条件の排除や制約条件の不十分な箇所の洗い出しが行える。
  3. 顧客要求に関する正当性の保証

これらの技術を活用することで、顧客の頭の中の要求を確実にシステムに反映することが可能となる。現在はAWSのシステム構成を元に、検証を実施している。


クラウドバーストバッファによるクラウド・スパコン間連携

東京工業大学 佐藤 仁先生のご講演。
スーパーコンピュータで利用する大容量ストレージにパブリッククラウドのストレージを利用して高速に転送を行うための技術の紹介だ。述べられた概要は以下となる。

最初にスーパーコンピュータについての概念の説明があった。「京」の写真と共に、某事業仕分けの写真も付けられるのはお約束。東京工業大学でもTSUBAME2というGPGPUの技術を活用したスーパーコンピュータを開発しており、TOP500で世界22位という実績も持っている。

スーパーコンピュータの世界でも計算能力だけではなく、大規模グラフ処理や人工知能・機械学習などと融合し、ビッグデータの処理を行う必要性が高まっている。システムの性能向上も早く、5年周期くらいでシステムの入れ替えが発生する。

パブリッククラウドはそのサービスが向上時、大容量のストレージを安価かつ柔軟に利用できるようになっている。最近は、スーパーコンピュータのデータをクラウドに配置することも多くなった。ただ、スーパーコンピュータとクラウドに間には、データへのI/O速度に大きな壁が存在する。スパーコンピュータの求めるデータセットアクセスの性能には通常の接続では対応できない。その為に採用したのが、バーストバッファによるインタークラウド間I/Oアクセラレーションだ。

クラウド上のデータはローカルのSSDのバーストバッファーにキャッシュされる。参照はキャッシュ上で行われ、更新はキャッシュ上に一旦、保存され、逐次書き込みが行われる。本方式は、分散ストレージベンダーの各社でも採用されている方式で、並列ファイルシステムの長所とシーケンシャル書き込みを両立している。

天文学の画像解析アプリのMontegaを利用し予備実験を実施したが、かなり良い結果が得られた。さらに従来のスーパーコンピュータのローカルストレージを利用し、直接のI/Oやバーストバッファーを使用した場合についての性能評価を予定しており、さらに、現在の検証環境はシングルノードのみだが、複数ノード対応、ファイル先読み、ファイル書出し機能開発するとともに、性能の最適化を行う予定である。


塩基配列データベースを中心とした生命・医学系研究の解析基盤の構築

国立遺伝学研究所 小笠原 理先生のご講演。
ゲノム解析における、国際塩基配列データベースの対応による影響とスーパーコンピュータの利用状況の変化についての紹介だ。述べられた内容は以下となる。

現在、国立遺伝学研究所で使用しているスーパーコンピュータはアーカイブストレージが5.5PBも搭載されている。これは遺伝子解析の技術とコンピュータの性能の進化によりゲノムの解析にかかる時間が大幅に短縮された。その為、今までは難しかったガン細胞の変化(遺伝学的には進化)を解析することも可能となった。ただ取得されるデータ量も膨大となり、それを格納する為に大容量のストレージが必要となった。 遺伝子研究における遺伝子情報の保存と共有を行うために国際塩基配列データベースコンソーシアムが設立された。日本からはDDBJ、アメリカからはNCBI(GenBank)、欧州からはENA/EBI(EMBL-Bank)が参加している。そのデータ量は膨大で、2010年には1PBを超え、2020年には1EBを超えることが予測されている。

塩基配列を読み込むシーケンサーも昔は目で見て手作業で入力していたが、それが自動読み込みとなり、さらに超並列で一気に読み込むことができるようになった。さらに116大学・研究所、利用者数も2000名を超え、コンピュータとして高い処理性能が要求されている。ユーザの要求にこたえるため、システムの入れ替えを実施したが、システム構造が非常に複雑なので、対応は非常に苦労した。ただ、 システムの改善を行ったが、利用の増加に対応しきれず、常に混雑が続いている状態だ。

直近の課題としては以下が挙げられる。

  1. OpenStack等を活用した運用の自動化
  2. 負荷増大や遅延に対する性能保証
  3. 災害や大規模障害に対する可用性保障
  4. 処理速度向上の為にハードウェアやアルゴリズムの改善
  5. 異なるシステムへの解析システムのデプロイと実行制御の実現

これらに対応したのが、前述の国立情報学研究所 会田先生、横田先生が実現したDockerを利用した大規模塩基配列データの解析フレームワークの開発である。

今後は上記の改善を図ると共に、延期情報の配列データの読み込み→DBへの登録→解析をシームレスにし、解析の効率を向上を図る予定である。現在は、8時間/件程度の時間がかかっている。方法としては生物種ごとにパイプラインを作るか、並列処理にするかを検討している。


ユーザー駆動型・大域アプリ連成フレームワーク

東京工業大学 實本 英之先生のご講演。
連成計算フレームワークRENKEI-VPEによる多拠点での実証検証についての紹介だ。述べられていた概要は以下となる。

成解析にはコンピュータの高い処理性能が要求される。1つの拠点では処理性能の向上に限界があるため、遠隔地に存在するリソースを1つのクラスターとして構成し、高速に処理を実現する方法を検証を実施した。

連成計算アプリの効果測定を東工大4コアのみと東工大4コア+九州1コア比較する検証を実施した。遠隔地の1コアが増えるだけで十分な性能向上が見られたが、通信負荷が飽和し一定レベルの上昇しか見られなかった。今後、さらに拡大して検証を行うが、その際には実行環境を最適化し、有効性を高める。

拠点連成計算アプリの制御ソフトウェアを利用する為には、現状では各拠点に合わせたシステムの改修と各拠点とのネットワーク接続や、サービスの構築に対する合意が不可欠となる。さらに現状では拠点間のジョブの実行順序の制御も行えておらず、他拠点での実行が行えない状態となっている。

その問題を解消する為には、多拠点連成計算アプリを実行する為のユーザ駆動型フレームワークを作成する必要がある。各拠点をSSHで接続し、処理もユーザ権限のみで実施でき、拠点運用にほとんど変更を与えない状況を実現する。さらに各拠点で受信データを保持することで、通信と計算、スケジューリングを保持する状態も実現する必要がある。

そのフレームワークとしてRENKEI-VPEを開発し、検証を行った。フレームワークにより連成計算の可視化を実現し、多拠点へのオフロードを行う検証を行ったところ、有効性が検証できた。効果を上げるためには通信を計算により隠ぺいすることと、システムによる実行環境の最適化を行うことが必要である。

フレームワーク設計の設計としては、既知のサービスのみで構成すること、各拠点のログインノード上から通信をリダイレクトすること、各拠点の環境差異は手動で対応する方針とした。EGCサーバは各拠点のログインノード上の監理サーバでメッセージの配信とバッファリングを行う。拠点間はP2P通信を行う。ただしログインノードはシングルポイントであり、ダウンした場合再起動が必要である。 拠点間のメッセージ転送はSSHトンネリングを使用する。多拠点へのジョブの投入はXruntime等を利用する。

処理を高速化する為にジョブは投機投入を実施する。全ての拠点に同一のジョブを投入し、どこかの拠点で処理が開始されたら、他拠点のジョブをキャンセルする方法をとることで、リソースの使用効率を高める工夫を行っている。


まとめ

アカデミッククラウドシンポジューム2015は、前半は各企業のアカデミック向けサービスの紹介で、後半が大学・研究機関などのアカデミックな発表と少しトーンが異なる発表となっていた。ただ、抱えている課題は共通しており、以下に集約されていると考えらる。

  1. 大学・研究機関での研究で使用する処理要求の量もデータ量も爆発的に肥大化している。
  2. 各大学・研究機関でのリソースはそれに答えらえるほど潤沢ではない。
  3. 分散コンピューティングの技術を活用し、他拠点やパブリッククラウドなどにオフロードの実現を目指して、システムの構築や実証検証を行っている。
  4. ただ、管理対象となるシステム規模が大きくかつ複雑になるため、設計、構築、運用、管理の省力化、自動化への取組がクラウドコンピューティングの世界では必須になっている。

この流れ自体は、産業界に学術機関のみではなく、産業界に波及するのも時間の問題だと考えられる。我々IT企業は学術機関と密接に連携し、お互いに技術を高めあうことで、社会貢献を果たす準備が必要となるであろう。

さらに、Cloud Week 2015@北海道大学で開催された、「オープンクラウドカンファレンス2015」「ITRC RCC 第8回地域間インターシップクラウドワークショップ」のレポートも公開する。 ご興味がある方は、ご一読頂きたい。

エンジニア採用中!私たちと一緒に働いてみませんか?