ビジネス TOP > 導入事例 > 国立研究開発法人 理化学研究所

国立研究開発法人 理化学研究所

  印刷用ページを表示する印刷用ページを閉じる

掲載日: 2017 年 5 月 12 日

国際競争の激しいゲノム研究に新たな活力を。オープンソース × Microsoft Azure 活用で、先進のデータ解析環境をより多くの大学・研究機関へ提供

国立研究開発法人 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニットでは、「インフォマティクスから始まるライフサイエンス」を標榜して、バイオインフォマティクスと実験生物学の融合を推進。1 つずつの細胞の性質を計測する「Quartz-Seq 法」という独自技術と大規模データ解析によって、再生医療の早期実現や臓器形成メカニズムの解明を目指しています。そして、2017 年、これらの技術を国内の大学・研究機関に展開し、日本のライフサイエンス研究を加速させる一助となるべく、再現性のあるデータ解析環境を自動的に展開できるソフトウェアを、パブリッククラウドを通じて提供する取り組みに着手しています。この重大なプロジェクトに相応しいクラウドサービスとして選ばれたのが、Microsoft Azure でした。

<背景とねらい>
一回の実験で数千から数万個の 1 細胞から得られる膨大な遺伝子データ解析に必要な計算を、クラウドで提供

写真:国立研究開発法人 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット ユニットリーダー 博士(理学) 二階堂 愛 氏

国立研究開発法人 理化学研究所
情報基盤センター
バイオインフォマティクス研究開発ユニット
ユニットリーダー
博士(理学)
二階堂 愛 氏

国立研究開発法人 理化学研究所 (以下、理研) の情報基盤センターに勤務する二階堂 愛 氏が率いるバイオインフォマティクス研究開発ユニットは、「インフォマティクスから始まるライフサイエンス」を標榜し、バイオインフォマティクスと実験生物学の融合を推し進めてきました。
同ユニットでは、1細胞内に含まれる mRNA (メッセンジャー RNA) を、非常に少ない手間で 80 ~ 90% も検出できる「Quartz-Seq 法」という RNA シーケンス技術を 2013 年に開発。従来の解析方法では複雑な作業を必要としながらも mRNA の 20 ~ 30% を検出するのが精一杯であったのに対して、圧倒的な精度の高さを見せつけ、細胞集団に含まれる細胞種類の分類だけでなく、1細胞ごと自然な遺伝子発現パターンの揺らぎを捉えることにまで成功し、ライフサイエンスの革新に大きな一歩を刻みました。

人間の1細胞内に含まれる RNA を解析することは、再生医療や創薬、がん治療など、医療分野の研究に幅広く貢献します。バイオインフォマティクス研究開発ユニットでは、日本国内におけるこの研究分野を加速させ、ライフサイエンス全般に貢献するべく、「Quartz-Seq 法」の研究・改良を継続。現在では一度の実験で数千から数万個もの 1 細胞 mRNA 解析を行えるようにまで改善させています。

二階堂 氏は次のように説明します。 「人間の体には、数百から数万種類の細胞があると言われ、それらが組み合さって約 37 兆の細胞がヒトを作りあげます。これらの細胞は、すべて同じゲノム DNA (設計図) を持っているにも関わらず、これだけの種類の細胞を作り出せます。これは、細胞によって設計図のどこを読み出して、細胞を作るかが異なるからです。細胞は設計図を読み出すときに、一旦、mRNA という分子に変換します。そのため、細胞ごとに mRNA の種類や量を計測できれば、細胞の性質を知ることができます。このように、生命のシステムは工学システムとは違い、非常に柔軟にできており、その働きは複雑精妙です。そうした生命の仕組みを解明し制御できれば、生命の神秘を明らかにし、医療に貢献できます。そのために、1 細胞ごとの細胞の性質を正確に解析できるように Quratz-Seq 法を開発してきました。」

この Quartz-Seq 法に必要なデータ解析環境は、2015 年から「Bayes Linux 外部サイトへ移動するため、別ウィンドウで開きます」(ベイズ:Bioinformatics AnalYsis Environment System の略) という名称で仮想化 / パッケージ化して、GitHub で公開されています。また、理研内のイントラネットにあるプライベートクラウドサービスでも、活用されています。

しかし、下記のような課題が壁となっていたと言います。

■ Bayes Linux の提供における主な課題

  1. 理研外にある大学、研究機関へのデータ解析環境の提供が困難
  2. 理研の発電設備の法令点検のため、年に 3 日ほど理研プライベートクラウドの一部が停止
  3. プライベートクラウドは、サービス提供側にオンプレミスの運用と変わらない負担が生じる

ライフサイエンスの世界は変化が早く、激しい国際競争が行われている研究分野です。二階堂 氏は「1 つのラボ、1 つの研究所で進められる研究ではない」と強調します。

「今、Bayes Linux は 理研プライベートクラウド上で、13 の理研内のラボで活用されています。現代の生命科学は、様々な分野の専門家がチームとなって研究しなければ、研究が進められません。そのためには、データとその解析結果を、理研内だけでなく、全国の大学や研究所と共有し、連携を広げていくことが必須になります。現在の理事長も、理研と大学との連携をとても大切にされており、国立研究所として、大学や研究機関、企業の研究ハブとなることを目指しています。このような背景から、理研プライベート クラウドの限界を超えて、より広く、より多くのユーザーにデータ解析環境を提供できる仕組みが必要でした。」

そして、2017 年。理研 情報基盤センター バイオインフォマティクス研究開発ユニットがたどり着いた答えが、“パブリック クラウドの活用” でした。そして、セキュリティや信頼性、運用の透明性など、さまざまな要素を考慮した上で新たなプラットフォームとして選ばれたのが、マイクロソフトが提供する Microsoft Azure でした。

図 1. 1細胞RNAシーケンスとデータ解析技術を用いて、生命現象や疾患を理解する。

図 1. 1細胞RNAシーケンスとデータ解析技術を用いて、生命現象や疾患を理解する。 [拡大図]

<Azure の採用理由と評価>
国内データセンターの存在と運用の透明性。 充実サポートで PoC を実施できる信頼性

二階堂 氏が Bayes Linux をさらに広く頒布する手段としてパブリック クラウドの活用に思い至ったのは、理研プライベート クラウドを通じて 2 年間サービス提供を行って得た経験によると言います。

「シーケンスデータ解析は、多数のソフトウェアやデータベースを組み合わせてデータ解析を行う必要がありまず。理研にはスーパーコンピューターがありますが、シーケンスデータ解析環境を他のユーザーに影響のないよう、自在にセットアップするには、多大な労力がかかります。さらに、次世代 DNA シーケンサーの進歩に対して計算機の性能が追い付かず、全国各地の研究所や大学が計算機の調達・構築をしていますが、大きな事務手続きや導入費用、エンジニアリングコストがかかります。また、調達した計算機を運用するのも大変です。そもそも、科学者はサイエンスを推進したいのに、エンジニアリングに多大な労力がかかります。そうした課題を解決するためには、まず何よりも、分散並列処理に必要となる大量の計算ノードを自在に確保して提供する仕組みが重要だと考えました。
そこで、理研理事長の裁量経費からサポートして頂き、理研プライベートクラウドサービスを、情報基盤センター和光ユニット (当時) と連携して構築し、その上で、データ解析環境を提供してきました。しかし、運用サイドから考えると、計算機の導入・運用コストは下がりません。さらに、データ解析のピーク時への対応…つまり、大量のデータが一気に出てくる時には、理研プライベートクラウドの限界を超えるリソースが必要とされることもあります。これらの問題を解決するために、パブリッククラウドの活用が浮上してきたのです。」

次世代 DNA シーケンサーの進歩によるゲノム解析コスト削減は、いわゆる “ムーアの法則” を超える速度で進んでいます。2013 年当時は、一度の実験で数十個の細胞しか解析できなかった、Quartz-Seq 法も、今では一度に数千から数万個の細胞を解析できるようになっており、膨大な量のデータが数日で得られるようになっています。
その分、データ解析環境に求められる性能も飛躍的に上昇しており、各地の研究所では、高価なハードウェアの調達と、複雑なデータ解析環境の構築に、多大な時間と労力を奪われていたのです。
しかし、パブリッククラウドであれば計算に必要なリソースの調達が、あっという間に完了します。後は、想定通りのスペックや料金でパブリッククラウドが活用できるかどうか検証するのみです。

こうして、次に進むべきビジョンの輪郭がはっきりと見えてきた 2016 年に、「Azure との幸運な出会いがあった」と二階堂 氏は続けます。
「Azure のデータセンターは、日本国内の東西 2か所に存在し、住所も明らかにされています。国の研究所が出力する研究データを国外のサーバーに置くリスクがありません。日本東西にデータを簡単にミラーできるため災害にも強いと思います。さらに、日本マイクロソフトには、研究機関を技術的にも営業的にもサポートするチームがあり、私たちが PoC (Proof Of Concept : 概念実証) を行うに必要な環境を提供いただき、親密にサポートしてもらえたことが、すべての始まりでした。」

■ Azure 活用に踏み切った 3 つの理由

  1. 東日本リージョンと西日本リージョンの 2 つのデータセンターで、日本の法律を遵守して運用されている
  2. Bayes Linux 活用の可否を検証する PoC に必要な環境がすべて提供された
  3. きちんとしたサイバーセキュリティ対策が施されている

写真:二階堂 愛 氏

特に、サイバーセキュリティの問題は重要だったと、二階堂 氏は言います。
「国の研究機関である理研にとって、国外からのサイバー攻撃は、ごく日常的に存在するリスクです。理研のネットワークを超えて、幅広い研究機関にリソースを提供することになった場合、必要とされるセキュリティの確保が、ユーザーと理研のどちらの責任になるのかを切り分けるのは困難です。また、医療データには、重要な個人情報も含まれているため、プライバシー保護に関するポリシーがきちんと整えられているサービスでなければ信頼に値しません。その点、マイクロソフトにはサイバーセキュリティの技術やノウハウが豊富でしょうし、プライバシー保護に関してもきちんと、データセンターの置かれた国の法律を遵守してくれます。実際に、米国の話ではありますが、FBI から顧客情報の提出を求められたマイクロソフトが異議を唱えて裁判で勝訴した事例も聞いています。そういった信頼感が、今回の取り組みを開始する大前提となっています。」

コードを一切書き換えることなく Bayes Linux を Azure 上に移行! オープンソースのエコシステムで BioDevOps を実践

そしてもう1点、重要なことがあります。それは、シーケンスデータ解析は非常に複雑である、ということです。日々進歩するオープンソースの解析ソフトウェアとデータベースを複雑に組み合わせて解析する必要があるため、データ解析の再現性が問題となります。我々は、これらのデータ解析環境構築を、ソフトウェアで自動的に行うこと (Infrastructure as Code) で、環境構築の再現性を向上させる取り組み (BioDevOps) を進めています。また構築したデータ環境は、コンテナ型仮想化によってオペレーティングシステム(OS) ごとイメージに変換しています。これでソフトウェアと OS バージョンを固定し、データ解析の再現性を担保できます。
これらのすべては、Linux や Chef のような構成管理ツール、Docker のようなコンテナ型の仮想化技術を始めとするオープンソースのエコシステムによって構築・運用されているということです。エンジニアではないサイエンティストでも手間なくデータ解析環境を構築できるようにプログラムされています。

今回のプロジェクトでは、こうした環境をすべてそのまま、Azure Virtual Machines 上へ移行させているのです。

写真:国立研究開発法人 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット テクニカルスタッフ 石井 学 氏

国立研究開発法人 理化学研究所
情報基盤センター
バイオインフォマティクス研究開発ユニット
テクニカルスタッフ
石井 学 氏

バイオインフォマティクス研究開発ユニット テクニカルスタッフ 石井 学 氏は、「移植に際して、元のコードには一切書き換えていない」と断言します。

「最初に日本マイクロソフトの方から『Chef も Docker もそのまま動きます』と説明された時は、半信半疑でした。Chef が動くと言っても、結局は PowerShell など、マイクロソフト特有のソフトウェアを覚えて、カスタマイズする必要があるのだろうな、と身構えていたのです。しかし、実際に検証を開始してみると、私たちが普段使用しているオープンソースのエコシステムがすべてそのまま使用でき、非常に驚きました。マイクロソフト特有のソフトウェアの利用を強要される場面もありませんでした。コードを一切書き直さなかったおかげで、Azure への移行テストが、Bayes Linux のデバッグ作業を兼ねる結果となり、3 月 24 日に ver.1.3.0 をリリースできました。」

さらに 石井 氏は、「Azure はドキュメントが充実しており、非常に役立った」と続けます。
「Azure に関するドキュメントが、英語版だけでなく、日本語版までとても充実していたことに驚きました。しかも、非常にクオリティが高かったのです。事前に複数のパブリック クラウドについて下調べをしている時、Amazon Web Services (AWS) を使っている人のブログ類が数多く存在するのに対して、Azure 関連のブログが少ないことに首をかしげていたのですが、ドキュメントがしっかり揃っているので、個人が労力を割いてブログを書く必要がなかったのだと思い至りました。さらに、ドキュメントには編集ボタンもついていて、クリックすると GitHub でページのソースが確認できます。記述の間違いを見つけた時などは、そこからプルリクエストを受け付けていました。実際に、私のプルリクエストも投稿後すぐに反映されていて驚きました。」

図 2. Infrastructure as Code (コードによるシステム構成管理)

図 2. Infrastructure as Code (コードによるシステム構成管理) [拡大図]

図 3. 計算に必要なノードのみを起動することで、余計なAzure消費を抑える

図 3. 計算に必要なノードのみを起動することで、余計なAzure消費を抑える [拡大図]

各図の出典:理化学研究所 バイオインフォマティクス研究開発ユニット

オープンソースのエコシステムをそのまま活用。GitHub にすべてのバージョン情報も開示

写真:国立研究開発法人 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット センター技師 松嶋 明宏 氏

国立研究開発法人 理化学研究所
情報基盤センター
バイオインフォマティクス研究開発ユニット
センター技師
松嶋 明宏 氏

同ユニット センター技師 松嶋 明宏 氏も、Azure の機能の充実が「予想以上だった」と話します。

「ARM (Azure Resource Manager) のデプロイ モデルでは、いつものように JSON (JavaScript Object Notation) を使用してインラフストラクチャを定義できます。当ラボ独自のクラスタ環境も、ARM を活用することでプログラムを一切変更することなく Azure 上に移行できました。その中には一部、コンテナ型の仮想化技術である Docker も活用しているのですが、これもまた Azure 上にそのまま移せます。さらに Azure コマンドライン インターフェイス (Azure CLI) というツールも用意されているのですが、ここでもLinux ライクにコマンドライン操作ができます。非常にありがたかったです。」

また、Azure に新機能 / サービスが追加されるペースも早く、「Azure Managed Disk」など課題解消に役立つ機能が次々とリリースされていることも心強いと、石井 氏は言います。
「データ解析中は、ランダムにストレージへのリード / ライトが繰り返されます。 現段階で I / O (Input / Output) の速度も期待値を満たしていますが、ピーク時の動作については今後しっかりと検証を重ねていく予定です。さらに、より良いパフォーマンスを引き出すために複数のストレージ アカウントを束ねてマネジメントすることを検討しています。当初は、この調整が難航しそうだったのですが、プロジェクト進行中に Azure Managed Disk がリリースされたおかげで円滑に進みそうです。」

このほか、さまざまな機能追加や改良を加えられている Azure ですが、「修正前の不具合も含めて、すべてのコードが GitHub に公開されていることも重要な評価ポイント」だと、松嶋 氏は言います。
「バイオインフォマティクス解析では、複数のツールを組み合わせて活用しますので、計算結果に狂いが生じないように、各ツールのバージョンを厳密に管理することがとても重要になります。そういう意味でも、Azure のコードがきちんと GitHub に公開されていて、切り捨てられた過去のバグまで残されていることはありがたかったです。」

<Azure 活用の効果と将来展望>
国内のライフサイエンス研究者の手をわずらわすことなく ボタン 1 つで Bayes Linux を展開できる環境へ

2017 年 1 月からスタートした Azure での PoC は 3 月に無事完了し、Bayes Linux を、より多くの大学や研究機関に提供する準備が整いつつあります。
しかも、このデータ解析環境を展開するにあたって、ユーザーは「ボタンを 1 つクリックするだけで、コマンドラインに触れる必要もない」と松嶋 氏は言います。

「研究者は、IT の専門家ではありません。サイエンティストの中には、コマンドラインに入力することさえ不安を覚える人もいます。そこで、ラボ内の誰もが気軽に Bayes Linux のデータ解析環境を Azure 上に展開できるように、Azure の機能を使って『デプロイボタン』を新たに作りました。Web ブラウザーでこれをクリックすると、コマンドラインを一度も見ることなく、展開が完了できるのです。こうして操作を簡略化することで、誰が展開しても等しく再現性のあるデータ解析環境を得られるようになることが重要でした。」

より高度なIT知識を持つバイオインフォマティクス研究者にとっても、Azure を使うメリットが大きいと二階堂氏は言います。
「バイオインフォマティクス研究の再現性を高めるためには、ソフトウェアやデータベースのバージョンを揃えたり、変更の影響を評価する必要があります。今回、我々が構築したシステムでは、コンテナ型仮想化システムを利用して、ソフトウェアと OS を Docker イメージとして固定することで解決しました。Azure 上に構築したパイプラインは、すべて Docker を経由して実行されます。先に述べた、Web ブラウザーを経由してデプロイしたり計算したりするシステムのバックエンドでも使われています。このような仕組みは、コマンドラインからジョブスケジューラーを利用して、複雑なパイプラインを実行するバイオインフォマティクス研究者も利用できます。これにより、ソフトウェアのセットアップなどエンジニアリングに悩まされずに、高度なデータ解析手法の開発など、本質的な問題、つまりサイエンスに取り組む時間を増やせます。」

今回の Azure 活用の最大の意義は、バイオインフォマティクス研究の現場で頑張っている人たちが、専門領域以外で強いられている負担を減らし、さらに研究に注力できる環境の創出を手伝っていくことにあると、二階堂 氏は強調します。

「バイオインフォマティクスの研究者は、自分の研究以外に、共同研究を少なくとも 2 ~ 3 件、大抵の場合は 10 ~ 20 も抱えています。さらに、データ解析に必要なデータ解析環境の調達・構築を自分たちで管理しなければなりません。大変な負担です。しかも、これはサイエンティストではなく、エンジニアリングの領域です。海外の研究機関では、研究者をサポートするエンジニアが研究室に配置され、研究者からも尊敬されており、高待遇です。しかし、日本の研究室では、予算的な問題で、エンジニアを抱えているところは、ほぼありません。
基本的な解析ツールを、クラウドを通じて、皆で活用することで、日本の研究者全体のエンジニアリングの負担は、かなり解消されていくでしょう。今後も、次世代 DNA シーケンサーの性能はどんどん向上していきますし、最近では、顕微鏡技術などの性能も大きく向上しており、大量の画像の解析が必要とされてきています。ライフサイエンスでのクラウドに対する需要は、ますます増していくでしょう。
そして、サイエンティストをエンジニアリングから解放し、エンジニアをマシン メンテナンスから解放し、研究の質と速度を向上させていくためには、プライベート クラウドよりも、パブリック クラウドの方が適している側面がはっきりと見えてきました。
限られた研究予算の中で最大限の成果を生み出していくために、クラウドが今後さらに重要な役割を担っていくことは間違いないと思います。」

写真:3 名様集合写真

ダウンロード

Download File 6130-WI1.pdf

PDF ファイル 1,009 KB
Adobe Reader のダウンロードはこちら 外部サイトへ移動するため、別ウィンドウで開きます

ソリューション概要

プロファイル

国立研究開発法人 理化学研究所 外部サイトへ移動するため、別ウィンドウで開きますは、日本で唯一の自然科学の総合研究所として、物理学、工学、化学、計算科学、生物学、医科学などに及ぶ広い分野で研究を進めています。 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット外部サイトへ移動するため、別ウィンドウで開きます は 2013 年 4 月に二階堂 愛 ユニットリーダーのもと発足しました。理研の基盤技術として、DNA シーケンサーデータ解析技術の研究開発をするために、理研和光地区に設置されました。

導入製品とサービス

オープン ソース

  • Docker
  • Chef
  • Git

導入メリット

  • 東日本・西日本の 2 リージョンで安心してデータを運用
  • 膨大な量のデータ解析の分散並列処理に求められる計算ノードを、簡単に調達可能
  • ハードウェア メンテナンスやデータ バックアップの管理など、プライベート クラウドの運用に求められる膨大な作業負荷から、ラボ メンバーを解放
  • 従来から活用してきたオープンソースのエコシステムが、Azure 上でそのまま活用可能

ユーザーコメント

「Azure は、日本国内に東西 2 か所存在するデータセンターを活用できますので、重要な研究データを国外のサーバーに置くリスクがありません。さらに、日本マイクロソフトに研究機関を担当するチームがあり、私たちが PoC (Proof Of Concept : 概念実証) を行うに必要な環境を提供いただき、親密にサポートしてもらえたことが、すべての始まりでした。」

国立研究開発法人 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット ユニットリーダー 博士(理学) 二階堂 愛 氏

  • 日本のデジタルトランスフォーメーション浸透度は? (新規ウィンドウで開きます)
  • IT 担当者向け Microsoft 365 オンライン セミナー公開中! (新規ウィンドウで開きます)

本ケーススタディに記載された情報は初掲載時のものであり、閲覧される時点では変更されている可能性があることをご了承ください。
本ケーススタディは情報提供のみを目的としています。Microsoft は、明示的または暗示的を問わず、本書にいかなる保証も与えるものではありません。

ページのトップへ