集合写真

System Software team

建部修見教授

  • HPC・ビッグデータ・AIのための並列分散システムソフトウェアに関する研究

超大規模ビッグデータ解析,データインテンシブコンピューティング, ハイパフォーマンスコンピューティングのためのシステムソフトウェアの研究を行っています.

より大規模なデータを扱うためには,データ規模,コンピュータの計算速度に応じたスケーラブルなI/Oの 仕組みが必要になります. そのために,分散ファイルシステム,並列I/O,アプリケーションフレームワークなどスケールアウトする 並列分散システムソフトウェアの研究を行っています.

HPC用大規模PCクラスタ、筑波大学のスーパーコンピュータPegasus、Cygnus等を利用して研究を進めて います。

スーパーコンピュータでは、並列ファイルシステムの性能と演算性能のギャップを埋めるため、 計算ノードのローカルストレージを用いて一時的に並列ファイルシステムを構築する アドホックファイルシステムが有望視されています。

アドホックファイルシステムとして、CHFS、FINCHFS を開発しています。CHFS は I/O性能の世界ランキングIO500の 2023年6月の10ノード研究部門 において21位となりました。

  • キャッシングファイルシステムの研究(CHFS/Cache)

アドホックファイルシステムはノードローカルストレージを用いた一時的な並列ファイルシステム ですが、並列ファイルシステムとの間のデータ移動を行う必要があります。このデータ移動を 自動的に行う仕組みとしてキャッシングファイルシステムがあります。

CHFS をキャッシングファイルシステムに対応させたシステムとして CHFS/Cache を開発しています。 従来のキャッシングファイルシステムでは、小さいファイルのアクセス性能が低い問題がありましたが、 CHFS/Cache では、並列ファイルシステムとの間の一貫性の条件を緩和することによりその問題解決を 図りました。

また、書換えたデータを並列ファイルシステムにフラッシュすると性能低下する問題もありましたが、 その問題については I/O-Aware フラッシング機構を提案することで解決を図りました。

  • 並列I/Oライブラリの研究

アドホックファイルシステムなどはユーザレベルで実装されており、各種アプリケーションから利用 するためには工夫が必要となります。アプリケーションを無修正で利用することができるよう、 MPI-IO、HDF5、Apache Arrow、TensorStore などのライブラリを拡張して、それらのライブラリ を利用するアプリケーションは無修正で利用できるようにする取り組みを進めています。

アプリケーションのI/Oの性能をより改善するための様々な工夫をしています。

  • 次期フラグシップマシンのストレージシステム調査研究

富岳の次の次期フラグシップマシンのストレージシステムの調査研究を進めています。以下はその中間報告です。

  • Gfarmファイルシステム

広域分散ファイルシステムとして Gfarmファイルシステム を 研究開発しています。 Gfarmファイルシステムは、インターネット経由で安全にアクセスが可能で、ストレージを広域に分散でき、 性能・容量がスケールアウトし、単一障害点がなく、データ完全性を保証し、サイレントデータ障害にも 対応可能なストレージシステムです。

GfarmはHPCI共用ストレージなどで実運用されています。HPCI共用ストレージは文部科学省がすすめる 富岳を中核とした国内のHPC基盤で利用される広域ストレージシステムで、全国のスーパーコンピュータ センターをはじめどこからでもマウントして利用可能なファイルシステムです。ファイルは自動的に 東拠点(柏)と西拠点(神戸)に複製され、障害が発生してもアクセス可能です。

日常生活

  • コロナウイルスが収束しつつあるため、ミーティングが対面になりました.チームミーティングは週に一回, 全体ミーティングは月に一回程です.
  • コアタイムはありません
  • 研究室内には, 電子レンジ, 冷蔵庫, 電気ポット, コーヒーメーカー,ソファ等の備品もあり, 所属している学生は自由に使用することができます.また,物販もあり,軽食・飲み物等が購入可能です.
  • 実装合宿など楽しいイベントがいくつかあります

メンバー

建部 修見

建部 修見 教授

  • 分散ファイルシステム
  • 並列システムソフトウェア

システムソフトウェアに興味がある人, 大きいことをやってみたい人は是非どうぞ. 好きなことをやってください.

平賀 弘平

平賀 弘平 研究員

分散メタデータサーバ、MPI-IO分散システムやシステムソフトウェアに興味のある方はぜひ一緒に研究しましょう。 不揮発性メモリを使ってみたい方もどうぞ!

前田 宗則

前田 宗則 主任研究員

産学連携プロジェクトで富士通株式会社から来ました研究員です. 高速な分散データストアの重要性は増しています. この研究室で一緒にやりましょう.

中谷 裕一

中谷 裕一 D3

負荷が均等となるコンシステントハッシングの研究をしています

小山 創平

小山 創平 D1

アドホックファイルシステムを開発しています。一緒にIO500上位を目指しましょう

杉原 航平

杉原 航平 D1

  • ノードローカルバーストバッファ

研究室の人数よりも計算機の方が多い研究室です。クラスタやスーパーコンピューターを使って研究してみたい人はぜひ!

兪明哲

兪明哲 D1

分散学習の耐障害性についての研究を考えています

丸山 泰史

丸山 泰史 M2

研究テーマを選ぶ自由を与えてくれる研究室です。やりたいことをやりましょう。

中野 将生

中野 将生 M1

  • 非同期ランタイム

HPCに限らず色々な分散システムの話をしましょう

宮内 遥楓

宮内 遥楓 B4

前田 椋祐

前田 椋祐 B4

分散システム・システムプログラムに興味があります。

近年の成果

  • Fast checkpointing of Large Language Models with TensorStore CHFS
    • Sohei Koyama
    • Kohei Hiraga
    • Osamu Tatebe
    S. Koyama, K. Hiraga and O.Tatebe, “Fast checkpointing of Large Language Models with TensorStore CHFS,” Supercomputing Conference (SC) 23, Poster, Nov. 2023.
  • I/O-Aware Flushing for HPC Caching Filesystem
    • Osamu Tatebe
    • Kohei Hiraga
    • Hiroki Ohtsuji,
    O. Tatebe, K. Hiraga and H. Ohtsuji, "I/O-Aware Flushing for HPC Caching Filesystem," in 2023 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops), Santa Fe, NM, USA, 2023 pp. 11-17.
  • Accelerating I/O in Distributed Data Processing Systems with Apache Arrow CHFS
    • Sohei Koyama
    • Kohei Hiraga
    • Osamu Tatebe,
    . Koyama, K. Hiraga and O. Tatebe, "Accelerating I/O in Distributed Data Processing Systems with Apache Arrow CHFS," in 2023 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops), Santa Fe, NM, USA, 2023 pp. 1-4.
  • Cygnus - World First Multihybrid Accelerated Cluster with GPU and FPGA Coupling
    • Boku Taisuke
    • Fujita Norihisa
    • Kobayashi Ryohei
    • Tatebe Osamu
    Taisuke Boku, Norihisa Fujita, Ryohei Kobayashi, and Osamu Tatebe. 2023. Cygnus - World First Multihybrid Accelerated Cluster with GPU and FPGA Coupling. In Workshop Proceedings of the 51st International Conference on Parallel Processing (ICPP Workshops '22). Association for Computing Machinery, New York, NY, USA, Article 8, 1–8. https://doi.org/10.1145/3547276.3548629
    • Sohei Koyama
    • Osamu Tatebe
    S. Koyama and O. Tatebe, "Scalable Data Parallel Distributed Training for Graph Neural Networks," 2022 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW), Lyon, France, 2022, pp. 699-707, doi: 10.1109/IPDPSW55747.2022.00121.
    • Osamu Tatebe
    • Hiroki Ohtsuji
    O. Tatebe and H. Ohtsuji, "Caching Support for CHFS Node-local Persistent Memory File System," 2022 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW), Lyon, France, 2022, pp. 1103-1110, doi: 10.1109/IPDPSW55747.2022.00182.
    • Osamu Tatebe
    • Kazuki Obata
    • Kohei Hiraga
    • Hiroki Ohtsuji
    Osamu Tatebe, Kazuki Obata, Kohei Hiraga, and Hiroki Ohtsuji. 2022. CHFS: Parallel Consistent Hashing File System for Node-local Persistent Memory. In International Conference on High Performance Computing in Asia-Pacific Region (HPCAsia '22). Association for Computing Machinery, New York, NY, USA, 115–124. https://doi.org/10.1145/3492805.3492807
    • 建部 修見
    • 平賀 弘平
    • 前田 宗則
    • 藤田 典久
    • 小林 諒平
    • 額田 彰
    建部 修見, 平賀 弘平, 前田 宗則, 藤田 典久, 小林 諒平, 額田 彰: “Pegasusビッグメモリスーパコンピュータの性能評価,” 情報処理学会 第190回HPC研究発表会(SWoPP2023), Aug 2023.
    • 小山 創平
    • 平賀 弘平
    • 建部 修見
    小山 創平, 平賀 弘平, 建部 修見: “Apache Arrow CHFSによるビッグデータ処理のI/O高速化,” 情報処理学会 第190回 HPC 研究会報告 (HPC190),
    • 笠井 大暉
    • 建部 修見
    笠井 大暉, 建部 修見: ”分散キャッシュファイルシステムの設計と実装,” 情報処理学会第186回HPC研究報告会, 2022-HPC-186, Jul 2022.
    • 平賀 弘平
    • 建部 修見
    平賀 弘平, 建部 修見: ”MPI-IO/CHFS:ノードローカル不揮発性メモリを活用するアドホック分散ファイルシステムのためのMPI-IOの設計,” 情報処理学会第185回HPC研究報告会, Vol. 2022-HPC-185, Jul 2022.
    • 建部 修見
    建部 修見: ”CHFSアドホック並列分散ファイルシステムのアクセス性能の評価,” 研究報告ハイパフォーマンスコンピューティング(HPC), Vol. 2022-HPC-185, No. 31, Jul 2022.
    • 巨畠 和樹
    • 小山 創平
    • 平賀 弘平
    • 建部 修見
    巨畠 和樹, 小山 創平, 平賀 弘平, 建部 修見: ”HPC環境を想定した探索的データ解析におけるノードローカルストレージの利用の検討,” 情報処理学会第185回HPC研究報告会, Vol. 2022-HPC-185, No. 19, Jul 2022.
    • 巨畠 和樹
    • 建部 修見
    巨畠 和樹, 建部 修見: ”不揮発性メモリを用いた分散オブジェクトストレージの設計,” 情報処理学会第184回HPC研究報告会, Vol. 2022-HPC-184, No. 3, May 2022.
    • 平賀 弘平
    • 建部 修見
    平賀 弘平, 建部 修見: "計算ノード上の不揮発性メモリを用いたMPI-IOバーストバッファの設計,” 情報処理学会第183回HPC研究報告会, Vol. 2022-HPC0183, No. 24, May 2022.
    • 建部 修見
    建部 修見: "計算ノードの不揮発性メモリを用いたキャッシュファイルシステムの設計,” 情報処理学会第183回HPC研究報告会, Vol. 2022-HPC-183, No. 8, May 2022.