マルチコアプロセッサシステム上で並列プログラムを高速・低消費電力で動作理工・笠原研、世界初のソフトウェア標準(OSCAR API ver.2.0)を開発・公開

　早稲田大学理工学術院の笠原博徳教授らのグループは、IT・半導体・ソフトウェア12社と3大学と共に、組み込み機器からスパコンまでに使われる各種のマルチコア（ホモジニアスマルチコア¹及びヘテロジニアスマルチコア²）、メニーコア及び共有メモリ型マルチプロセッササーバ上で、並列プログラムを高速かつ低消費電力で動作させることができるソフトウェア標準（OSCAR API ver. 2.0）を開発致しました。OSCAR API を用いて並列化されたプログラムは、CあるいはFortranプログラムからOSCAR並列化コンパイラを用いて自動生成可能なため、ソフトウェアの開発コスト・期間を飛躍的に低減できます。また各社の異なるマルチコア・メニーコア間でのソフトウェアの移植が簡単に行えるようになります。このAPIは、各社のマルチコアプロセッサ上で、情報家電（スマートフォン等）、自動車、医療、科学技術計算用の並列プログラムを短期間・低コストで開発することを可能とします。APIの詳細仕様は、2012年4月25日よりhttp://www.kasahara.cs.waseda.ac.jp/ で公開、無料でダウンロードできます。

OSCAR API ver. 2.0の概要

「OSCAR API ver. 2.0」は、早稲田大学理工学術院の笠原博徳教授らのグループが、早稲田大学グリーンコンピューティングシステム研究機構アドバンストチップマルチコアプロセッサ研究所内に設置されたマルチコア・メニーコア・アーキテクチャ・アプリケーションAPI委員会にて、イーソル（株）、オリンパス（株）、ガイオ・テクノロジー（株）、キャッツ（株）、（株）デンソー、（株）東芝、東邦大学、名古屋大学、日本電気（株）、（株）日立製作所、（株）富士通研究所、三菱電機（株）、ルネサスエレクトロニクス（株）、（株）ルネサスソリューションズ（社名五十音順）と共に開発致しました。このAPIは、各社のマルチコアプロセッサ上で、情報家電（スマートフォン等）、自動車、医療、科学技術計算用の並列プログラムを短期間・低コストで開発することを可能とします。

この標準は、NEDOプロジェクトで開発し、2008年11月14日に公開したホモジニアスマルチコア用 OSCAR API ver.1.0 を発展させたもので、C及びFortran言語用のコンパイラ指示文の集合体となっています。これにより、ホモジニアスマルチコアに加え、ヘテロジニアスマルチコア、キャッシュコヒーレンス制御機構を持たないメニーコア、共有メモリ型マルチプロセッササーバー上でも動作する高速・低消費電力の並列プログラムを、簡単に作成できます。この OSCAR API ver.2.0 で記述された並列プログラムは、早稲田大学OSCAR並列化コンパイラにより、逐次プログラムから自動生成することができ、マルチコアで問題となるソフトウェアの開発コスト・開発期間を大幅削減できます。またユーザによる、並列プログラムの手動作成も可能です。

120427_oscarapi2a

OSCAR API では電力制御指示文も用意しており、これを用いてCあるいはFortranプログラム中から、各プロセッサコア、メモリ、コネクションネットワークの動作周波数、電圧、電源遮断も行えるため、チップ消費電力の大幅削減が可能です。

さらに、自動車等の組込システムで要求されるハードリアルタイム処理も行えるように、タイマー管理機能、ローカルメモリ、DMAC（データ転送ハードウェア）制御指示文も用意されています。

このAPIとOSCARコンパイラを同時に用いることにより、スマートフォン、次世代カメラ、ゲーム機等の情報家電用マルチコア、自動車エンジン制御用ハードリアルタイム用マルチコア、医療用自然冷却（無冷却ファン）静音衛生的マルチコア、低消費電力クラウドサーバ用マルチコア、スーパーコンピュータ用ヘテロジニアスマルチコアあるいはメニーコアなどの低消費電力並列プログラムを、短期間・低コストで作成できます。

120427_oscarapi2c

また、本APIで記述された並列プログラムは、異なるメーカーのマルチコア間で簡単に移植が行えます。

これらにより、各種製品の開発サイクルの短縮、スマートフォン等の低消費電力化（充電頻度の軽減）が可能となり製品国際競争力を強化できます。マルチプラットフォーム化に関しては、現在までにSuperH、ARM、FR-V、V850、SPARC、Intelプロセッサ、AMDプロセッサ、IBM　Powerプロセッサ等、OSに関してもLinux、 AIX、 Solaris、 Windows、 eT-Kernel Multi-Core Edition、 LWOS³上での動作が確認されています。

120427_oscarapi2b

マルチコア/メニーコアチップあるいはマルチプロセッササーバ上で、APIで並列化されたプログラムを動作させるのは、当該プロセッサ用の逐次コンパイラと、早稲田大学より無料配布されるAPI解釈系があれば簡単に行えます。このため、巨額の費用が必要な当該チップ用並列化コンパイラの開発、あるいは並列APIをサポートするためのコンパイラの修正等が不要になります。サーバ上でも、逐次コンパイラが用意されていればプログラムの並列実行が可能です。また、OpenMPでは定義されていない電力制御あるいはDMACを用いたデータ転送などの指示文がコメント文として扱われるようになっているため、OSCAR APIで記述された並列プログラムは、OpenMPコンパイラを用いても簡単に実行できます。

生成された並列プログラムのデバッグには、各種市販ツールがそのまま利用できます。

OSCAR API ver. 2.0とOSCAR並列化コンパイラを用い、以下のような高速化及び電力削減が実現されています。

※携帯音楽プレーヤでも使用されるAACエンコード（オーディオ・データ圧縮）のSH4Aベース8コア・ホモジニアスマルチコアRP2（日立・ルネサス・早大開発）上でのリアルタイム処理時の消費電力を1/9に削減。

※デジタルテレビで使われるMPEG2デコードのRP2上でのリアルタイム処理で、電力を1/4に削減。

※ルネサスNaviEngine 4コア(ARM MPCore)Linux上でMPEG2エンコードを逐次に比べ3.6倍高速化。

※3コアNaviEngineリアルタイムOS eT-Kernel上でAACエンコードを逐次に比べ2.9倍高速化。

※ヘテロジニアスマルチコアRPX（日立・ルネサス・東工大・早大開発）上でのオプティカルフロー計算（動画像において移動する物体を追従するプログラム）において、8つのSH4Aプロセッサと4つのアクセラレータFEGA（動的再構成可能プロセッサ）利用時に逐次に比べ33倍高速化。

※RPX上で、リアルタイムオプティカルフロー計算の消費電力を1/3に削減。

※富士通FR-Vプロセッサベースの4コアマルチコアFR1000、及びルネサスSH4Aベースの4コアマルチコアRP1上で、各種マルチメディア処理を1コアに比べ平均3.4倍高速化。

※8コアRP2マルチコア上で、OSCAR並列化コンパイラによる自動ソフトウェアコヒーレンス制御により、MPEG2エンコードを逐次に比べ6.6倍高速化。

※富士通 SPARC Enterprise M9000 (SPARC64 VIIベース64コアSolaris SMP)上で、SPEC2000 171.swimベンチマークプログラムを逐次に比べ36倍高速化。

※日立SR16000（Power7ベース64コアLinux SMP）上でGMS⁴地震波伝搬シミュレーションを逐次に比べ41倍高速化。

※SR16000上で三菱電機重粒子線ガン治療装置用線量計算を、逐次に比較し55倍高速化。

註

*1　ホモジニアスマルチコア：同種のプロセッサコアから構成されるマルチコア

*2　ヘテロジニアスマルチコア：汎用プロセッサと特定の計算を低消費電力で高速実行することが可能なアクセラレータから構成されるマルチコア

*3　LWOS：NEDO“リアルタイム情報家電用マルチコアプロジェクト” での評価に使われたマルチコア用 Light Weight OS

*4　GMS:(独)防災科学技術研究所より公開されている Grand Motion Simulatorプログラム

リンク

理工学術院笠原博徳研究室

以　上

Global Research Center（GRC）早稲田大学研究活動 Research Activities

News

쀣 Tags