# 回線速度 40Gbps の 128×128 光パケットスイッチをサポートする 並列パイプライン制御によるバッファ管理方式

原井 洋明<sup>†</sup> 村田 正幸<sup>††</sup>

† 独立行政法人通信総合研究所 情報通信部門 〒184-8795 小金井市貫井北町 4-2-1
 †† 大阪大学 サイバーメディアセンター 〒 560-0043 豊中市待兼山町 1-30
 E-mail: †harai@crrl.go.jp, ††murata@crrc.osaka-u.ac.jp

あらまし 出力バッファ型光パケットスイッチにおける高速バッファ管理手法について検討する.並列処理とパイプライン処 理を組みあわせた複数プロセッサ構成による制御方式を提案する.各プロセッサにおいて,ポート数 N に依存しない計算量 O(1)の処理を行ない,従来の N 倍の高速化を図る.回線速度40Gbpsの8×8光パケットスイッチにおいて,最小64バイト の長さの異なるパケットを処理する機能をFPGAに実装できることをシミュレーションによって確認する.また,提案方式 と FPGA 技術を用いて回線速度40Gbpsの128×128光パケットスイッチをサポートできることを示す. キーワード 光パケットスイッチ,出力バッファ,並列パイプライン処理,非同期可変長パケット,FPGA

## Buffer Management based on a Parallel and Pipeline Mechanism to Support 128×128 Photonic Packet Switches with 40Gbps Ports

Hiroaki HARAI<sup>†</sup> and Masayuki MURATA<sup>††</sup>

† Communications Research Laboratory Koganei-shi, Tokyo 184-8795, Japan †† Osaka University Toyonaka-shi, Osaka 560-0043, Japan E-mail: †harai@crl.go.jp, ††murata@crc.osaka-u.ac.jp

Abstract We investigate a high-speed buffer management mechanism for output-buffered photonic packet switches. We propose a parallel and pipeline mechanism on multi-processing architecture for this purpose. The machanism provides N times faster processing than an existing O(N) mechanism does, where N is the number of ports. Through hardware simulation after place and route operation, we confirm feasibility of an FPGA-based buffer management hardware for  $8 \times 8$  photonic packet switches with 40Gbps ports, which is capable of asynchronously arriving variable-size packets, of which minimum is 64byte. A support of  $128 \times 128$  packet switch with 40Gbps ports is also feasible by using our mechanism and a latest FPGA technology.

**Key words** Photonic packet switch, Output buffer, Parallel and pipeline processing, Asynchronous variable-size packets, Field programmable gate array

## 1. はじめに

最近では 10Gbps 回線を 32 ポート備えた IP ルータ [1] があるが, 電子処理は限界に近付きつつあると言われて久しい.本稿では基幹 ネットワークへの適用を目指して,現状の光技術で実証されている 回線速度 40Gbps のポートを備えた光パケットスイッチ [2],[3] を対 象としたバッファ管理方式を検討する.ポート数のサポートがどこ まで実現できるかを明らかにし,それによって,電子処理のみのパ ケットスイッチに対する光パケットスイッチの優位性を示す.

光パケットスイッチの機能は大きくラベル検索(フォワーディング),交換,バッファ管理(スケジューリング),バッファリング,経路制御(ルーティング)の5機能にわけられる.40Gbpsや160Gbpsといった高速の光パケットをO/E/O変換なく転送するには,交換とバッファリングでは,パケットを光信号のまま扱わねばならない.

さらに,短時間で大量のパケットを転送するためには,ラベル検索 におけるメモリへのアクセス速度やバッファ管理における処理速度 がボトルネックになる.今後の光パケット交換技術の進展のために は,ラベル処理をメモリアクセスを伴なわない光技術で行なうこと が望ましい.実際,ラベル検索(多波長ラベル処理[4],光位相符号 ラベル処理[5]),交換,バッファ[6]などは光技術による実現性が確 認されている.これらの機能を備えたプロトタイプも開発されてい る[2].光バッファは光ファイバ遅延線(FDL; Fiber Delay Line)を 用いて構成できる一方,実用的な光論理や光メモリ(RAM)はまだ なく,バッファ管理は光パケットの遅延時間を決めるための電子処 理が必要である.電子処理性能が今後も向上し続けるとは限らず, 計算量が小さなバッファ管理アルゴリズムを開発する必要がある.

我々は出力バッファ型 N × N パケットスイッチを対象とする. 入力バッファ方式と比べ,出力バッファ方式は良好な遅延特性およ



図1  $N \times N$  光パケットスイッチ (N = 4)

びスループット特性を持つ.これは, HOL (Head of Line) ブロッキ ングが起らないためである.一方,入力バッファ方式よりも N 倍バ ス速度の大きなスイッチを必要とするので,実装が難しい.そこで, HOL プロッキングを回避し,出力バッファ方式と同等の論理性能を 得る複数入力バッファ方式 (MIQ; Multiple Input Queue) が考えられ ている.しかし,図1に示すように,我々が対象とする光パケットス イッチは,N 個の1×N スイッチを束ねた構成なので,単一出力 ポートにN本の回線を備える.これによりN倍バス速度が大きな スイッチを用いるのと同等の性能を得られる.さらに,出力ポート における衝突回避のために,MIQ はアービトレーション機能[7]を 必要とする.このアービトレーションは入力側にてメモリバッファ の使用を前提としたものであり,光ファイバ遅延線バッファを使用 しての実現は困難である.それゆえ,我々は出力バッファ方式をそ のまま実現するアーキテクチャに着目する.

光パケットの衝突回避には光ファイバ遅延線バッファを用いる. 光パケットを光バッファに保持するには,光パケットがパケットス イッチに到着後,出力バッファに到着するまでの固定時間で,光パ ケットの遅延時間を求めねばならない.したがって,連続して到着 する光パケットをすべて処理するには,パケット長に相当する時間 以内に最大 N パケットを処理するには,パケット長に相当する時間 以内に最大 N パケットを処理するバッファ管理が必要になる.単 純なラウンドロビンスケジューリング方式を用いる場合の計算量 はO(N) である.ポート数が大きくなると,処理が追いつかなくな ることがじゅうぶんに考えられる.高スループットの光パケットス イッチ実現には,電子処理によるボトルネックの回避が不可欠にも 関わらず,計算量O(N)より高速なバッファ管理方式は検討されて いない.

一方,既存の電子処理を駆使した,ルータやATM 交換機を代表と したパケットスイッチでは,段階を追って高速化が検討されてきた. 最初は伝統的な単一サーバ方式からの移行である.近年の基幹に用い られている装置では,複数プロセッサを用いたパイプライン処理が一 般的である.すなわち,入力回線ごとに宛先検索処理を行ない,出 線毎に用意したバッファにパケットを格納し,その後,別プロセッ サを用いて出線のアービトレーションを行なう[7],[8].本方式で は,プロセッサ (LSI 回路規模)は増加するが,単位時間により多く のパケットを処理でき,高スループット化が図れる.FPGA (Field Programmable Gate Array)やASIC (Application Specific Integrated Circuit)など大規模 LSI の進展により,このように複数のプロセッ サを用いて並列 / パイプライン処理を行ない,高スループットを実 現する.しかし,先述のように,複数入力バッファ方式の光パケッ トスイッチへの適用は困難である.

文献 [9] では、出力バッファ型パケットスイッチにおいて、メモ リバッファにパケットを格納するための計算量が $O((\log_2 N)^2)$ の バッファ管理方式を提案している.本方式では、時系列を周期にわ け、各周期に到着するパケットの出力時刻を求め、同一メモリから 同時に複数のパケットを出力する処理を避けるようにバッファにパ ケットを蓄積する処理を行なう、出力時刻を求めるために N プロ セッサによる並列プレフィクス演算 (Parallel Prefix Operation) とい う並列処理 [10],[11] を行ない、計算量 $O(\log_2 N)$ の高速化を達成 している.

文献[9] では対象とするパケットは固定長であり,同期到着する. しかし,インターネットを流れるパケットの長さは様々である[12]. 固定長同期パケットのためのバッファ管理方式を適用するためには, (1)対象とするネットワークの送信エッジノードにおいて可変長パ ケットを複数の固定長パケットに分割し,さらに受信エッジノード でもとのパケットに戻す処理が必要である.または,(2)ネットワー クの各ノードにおいて,入力時に可変長パケットを固定長に分割し, 出力時にもとのパケットに戻す処理が必要である.いずれもノード における光同期処理[13]~[15]が必要で,光システムがより複雑に なる.中継ノードの処理の負担を減らすには,同期処理を用いず長 さの異なるパケットを処理する機能が有用である.近年,非同期到 着する可変長パケットを扱う光パケットスイッチのためのパッファ 管理方式も提案されている[15]~[17].しかし,計算量はO(N)と 同等かそれより複雑である.

本稿では,出力バッファ型光パケットスイッチにおいて非同期到 着し長さの異なるパケットを処理する高速パッファ管理方式を検討 し,並列処理とパイプライン処理を組み合わせた複数プロセッサ構 成による制御方式を提案する.各プロセッサにおいて,パケットス イッチのポート数 N に依存しない計算量 O(1) の処理を行なう.複 数プロセッサ構成の装置規模は, $O(N \log_2 N)$  であるが,提案方式 は,従来の光パケットスイッチの管理方式よりも N 倍のスループッ トを達成する.従来のパケットスイッチの管理方式 [9] のスループッ トよりも  $(\log_2 N)^2$  倍大きい.

我々が提案する方式の装置規模は  $O(N \log_2 N)$  なので,集積性に ついて実現可能性を検討する必要がある.光パケットスイッチでは, 大規模なメモリを使わず,光遅延線バッファを用いるので,メモリ バッファを用いた構成よりも簡単に実現できる.我々は,FPGA へ の配置配線処理を施した後のハードウェアシミュレーションにより, 最小 64 バイトの長さの異なるパケットが非同期に到着する,回線 速度 40Gbps の 8×8 光パケットスイッチのバッファ管理装置を実現 できることを確認した.さらに,電子技術による最新の IP ルータの 少なくとも 16 倍の性能となる,回線速度 40Gbps の128×128光パ ケットスイッチにおけるバッファ管理装置のサポートが提案方式と 既存の FPGA 技術を用いてできる.

本稿の構成を以下に述べる.2.において,対象とする光パケット スイッチ構成を示し,基本バッファ管理方式を述べる.3.において, 並列パイプライン処理による高速バッファ管理方式を提案する. 4.ではハードウェアによる実現可能性を検証する.5.では光パケッ トスイッチのスケジューリング特性を示す.6.ではまとめを述べる.

## 2. 光パケットスイッチ

#### 2.1 出力バッファ構成

現在,入力バッファ型[13],周回型[13],出力バッファ型[2],[6], [15]の光パケットスイッチが提案されている.我々は出力バッファ 構成のスイッチを用い,波長変換を用いない.本稿におけるパケッ トスイッチ構成は,文献[2]のバッファ管理装置を非同期可変長パ ケット対応に置きかえた構成に近い.

先述の図 1に, バッファ管理手法を適用する光パケットスイッチ 構成を示す.  $N \times N$  パケットスイッチは, N 個の1 × N バッファ レスパケットスイッチと N 個の  $N \times 1$  光バッフの光学的フルメッ シュ接続から構成される.  $1 \times N$  パケットスイッチでは, [4], [5] 等 を用い超高速のラベル検索を行なう.可変長パケットは同一ラベル をペイロードの前後につけることでサポートできる[18].  $N \times 1$  光 ファイバ遅延線バッファは, 光スイッチと長さの異なる B 個のファ イバ遅延線  $d_0, d_1, \ldots, d_{B-1}$  からなる.遅延線の単位長は D であり, 遅延線  $d_k$  の長さは kD である.光バッファでは, 0 から (B-1)Dまでの離散時間の遅延を与える.図2(a) は, N = 4, B = 4 の光 ファイバ遅延線の構成を示す.

2.2 逐次制御によるバッファ管理装置の振舞い

ルータなど電子処理によるノードで用いられる RAM バッファと 異なり,光遅延線バッファでは,光の直進性のために光パケットを 蓄積できない.光遅延線バッファの実現は,到着するパケットを異



図 2 (a) 光ファイバ遅延線バッファ (N = 4, B = 4) とパケットの到着 (b) 割当てられる遅延線とパケットの相対位置 (c) 論理的なパケットの位置

なるファイバ遅延線に割当て、パケットの衝突を回避することで可能になる.選択される遅延線は各パケットがバッファに到着する前に与えねばならず、パッファ管理装置がその処理を行なう.出力バッファ型 $N \times N$ 光パケットスイッチでは、最大Nパケットが同時にある $N \times 1$ バッファに到着する.遅延線バッファを用いる場合、最小パケット長 $l_{\min}$ に相当する時間以内にNパケットに対して遅延を与えるバッファ管理装置が不可欠である.

次章で述べる並列パイプライン方式の理解のため,ここでは,その基となるラウンドロビンスケジューリング(逐次処理)によるバッファ管理装置の振舞いを述べる.4×4光パケットスイッチの一つのバッファに到着するパケットを書いた図2に再度注目する.非同期到着する可変長パケットを処理するバッファ管理装置は,逐次処理の周期時間を示す内部クロック(周波数1/T)を持つ.バッファ管理装置は,実際にパケットが光スイッチに到着するT前に,T時間後から2T時間後までに到着するパケットの情報を基にして,時間T以内にすべての到着パケットの遅延時間を求める.パケットの連続到着を許す場合,その周期Tは最小パケット長 $l_{\min}$ 以下でなければならない( $T \leq l_{\min}$ ).この制約は,パケットが光バッファの光スイッチに到着する前に遅延を求めるために必要である.

バッファ管理装置の処理を述べる.対象とする周期にポート n(n = 1, 2, ..., N)に到着するパケットの長さを $l_n$ ,周期開始 からパケット到着までの時間(到着ギャップと呼ぶ)を $t_n$ とする (図2(a)参照).バッファ管理装置はパケットの到着情報として,パ ケット長と到着ギャップを受取る.バッファ管理装置は,周期の開 始時刻を0として,バッファ内にある全パケットが出力される時刻 を表わす変数qを管理する.qをバッファ占有度と呼ぶ.また,バッ ファ管理装置は,周期時間Tでポート1,2,...,Nの順に,対象と するパケットが進む遅延線を求め,実際にパケットが到着した時に 適切に光スイッチを切替える.

パケットの衝突回避に十分な遅延時間は $q - t_n$ である.しかし, 光遅延線バッファの遅延の離散時間特性により,パケットの遅延は  $\Delta_n D$ ,ただし, $\Delta_n = \left[\frac{q-t_n}{D}\right]$ となる. $\Delta_n < B$ であれば,パケット に遅延線 $d_{\Delta_n}$ に転送され, $\Delta_n \ge B$ であれば,パケットは棄却される.パケットが遅延線に転送される場合,バッファ占有度qは次の パケットを適切に処理するために更新され, $q \leftarrow t_n + l_n + \Delta_n D$ となる. 全ポートのパケットの遅延を求めた後は,次周期に到着するパケットを適切に処理するために, $q \leftarrow \max(q-T,0)$ と更新する.図3に逐次処理を実現する擬似コードを示す.図中"packet n is given delay  $\Delta_n D$ "とは,パケットを遅延線  $d_{\Delta_n}$ に送ることを意味する.Nポートに到着する最大Nパケットを一周期で順に処理 するので,逐次処理方式の計算量はO(N)となる.

4パケットA~Dが同一周期に, Eがその次周期に光バッファ



図3 Nポートパケットスイッチにおいて逐次処理を実現する擬似コード

に到着する状態を想定する (図 2(a)). バッファ管理装置は, パケッ トA,B,Cをそれぞれ遅延線  $d_0, d_2, d_3$  に転送する. その時点でバッ ファあふれとなり, パケットDは棄却される. バッファリングと廃 棄処理は, 光スイッチを駆動することで実現する.図2(b)には,パ ケットAが遅延線 d<sub>0</sub>に格納された直後における出力ポートから見 たパケットの相対位置を示す.図に示すように,3パケットが衝突 なくバッファから出力される.図2(c)には,パケットが図2(b)の 状態の光バッファにおけるパケットの論理的な位置を示す.連続す るパケットの間には空き (Void) が存在する.光遅延線バッファの 離散特性のため,光バッファは新たなパケットとその直前に格納さ れたパケットの間に $\Delta_n D - q + t_n$ の空きを持つ.この空きを減ら しバッファ利用率を改善するために, Void Filling という手法があ る [16]. しかし, Void Filling の計算量は逐次処理の計算量よりも 大きく,回線速度を制限しがちである.さらに,パケットの到着順 と出力順が異なるかもしれない.逐次処理では,ポートごとに注目 すると,棄却されるパケットを除いて順序の一貫性が保たれる.例 えば,パケットEはパケットAより後に到着し,出力する.順序を 維持し高い回線速度を維持しながらパケット棄却率を小さくするに は,逐次処理を用いると共に遅延線の単位長Dの設定が重要である. 例えば, 文献 [15], [19] では, 負荷 0.8 において D を平均パケット 長の 0.3 倍程度にすると棄却率が最小になることが示されている.

#### ・並列 / パイプライン処理による高速バッファ管理

本章では,長さの異なるパケットが非同期に到着する光パケット スイッチのバッファ管理に用いる,並列処理とパイプライン処理を 組合せた複数プロセッサ構成による制御方式を提案する.文献 [20] に述べた固定長パケットが同期して到着する場合の管理よりも処理 が複雑になるが,光同期システムやパケットの分解/再構成という 処理が不要になる.

3.1 マルチプロセッサシステムとその機能分担

我々の提案する制御は,並列プレフィクス演算をパイプライン化 する機能を用いることで実現する.並列プレフィクス演算とは, N 個の要素< $a_1, a_2, \ldots, a_N$ >が与えられた時に,N 個のプロセッ サを用いて, $(s_n = \sum_{i=1}^n a_i)$ で定義されるN 個のプレフィクス 和 < $s_1, s_2, \ldots, s_N$ >を求める演算である[10],[11].本稿ではパイ プライン化した演算を並列パイプラインプレフィクス演算と呼ぶ.

図 4に, N = 8における制御を実現するプロセッサの配置を示す. 本構成は,  $(\log_2 N + 1)$ 段のパイプラインステージからなり,それ ぞれ複数のプロセッサ(図中丸)と複数のレジスタ(図中四角)から 構成される.第 k 段  $(k = 1, 2, \dots, \log_2 N)$ には,  $(N - 2^{k-1})$ 個の プロセッサ  $P_{k,n}$   $(n = 2^{k-1} + 1, \dots, N)$ が配置され,最終段には, (N + 1) 個のプロセッサが配置される.

前(log<sub>2</sub> N)段では、「到着時にバッファにパケットはなく、逐次 処理に従って、すべてのパケットがバッファに格納される」と仮定 して、到着パケットの相対遅延時間を求めるプレフィクス演算部を 構成する.例えば、ポート1へ到着するパケットの相対遅延は常に 0となる.ポート2へ到着するパケットの相対遅延は、同じ周期に ポート1にパケットが到着するなら、そのパケット長であり、到着



しなければ 0 となる.第 k 段のプロセッサは,並列プレフィクス演算の第 k 段の演算として用いられる.第  $(\log_2 N)$  段のプロセッサに後方にある第 n 番目のレジスタに格納された値は,ポート(n + 1)に到着するパケットに与えられる相対遅延を示す.ポート(n + 1)に到着するパケットの相対遅延は,ポート 1 から n に到着するパケットの連結パケット (3.2参照)の長さと到着ギャップから求める.最後方の第 $(\log_2 N + 1)$ 段に配置された(N + 1) 個のプロセッサが,遅延決定部を構成する.そのうち,N 個のプロセッサ $P_{\log_2 N+1,n}$  (n = 1, 2, ..., N)は,現在のバッファ占有量と,プレフィクス演算部より送られた相対遅延から,全Nポートに到着するパケットの遅延を並列的に求める.残りのプロセッサ $P_q$ では,バッファ占有量を更新する.図4において,実線は各プロセッサで計算した値を転送するバスを示す.

このマルチプロセッサシステムがバッファ管理装置となる.ポート に到着した各パケットの遅延は,  $(\log_2 N + 1)$ 個のプロセッサを経 由して求められる.したがって,本構成において到着するパケットの 遅延を求めるには,  $(\log_2 N + 1)$ 周期を要する.バッファ管理装置 は,パケットが光パッファ内の光スイッチに到着する  $(\log_2 N + 1)T$ 時間前に,そのパケットの情報を得るようにする.

図 4において INn で示された入力ポート  $n \land$ の到着情報は, ( $\log_2 N + 1$ )周期後にポート  $n \land$ パケットが到着する場合には その長さ  $l_n$  と到着ギャップ  $t_n$  であり,到着しない場合には"0"で ある.OUT n からは,ポート  $n \land$ 到着する光パケットの遅延が出 力される.その遅延を基に光バッファ内の光スイッチが適切に駆動 され,光パケットに遅延が与えられる.

3.2 連結パケットの導入

非同期到着かつ可変長パケットを処理するときのポイントは,パ ケットの相対遅延をいかに求めるかである.光同期を用いれば,単 に,パケット長を各要素としてプレフィクス和を求めればよい.し かし,光同期システムはなく,遅延線バッファの離散特性を考慮す ると,パケット長のみならずパケットの到着ギャップを考慮して相 対遅延を求めねばならない.2パケット間の間隔を適切に保つため に,我々は同一周期に異なるポートに到着した複数のパケットが仮 想的に接続された仮想連結パケットを導入する.2つのパケットか らなる連結パケットの長さ l'を以下に定義する.

$$l' = \left\lceil \frac{t_1 + l_1 - t_2}{D} \right\rceil D + t_2 + l_2 - t_1 \tag{1}$$

ここで  $t_1, l_1$  はそれぞれ,前方のパケットの長さと到着ギャップを 表わし, $t_2, l_2$  は後方のパケットのそれを表わす.到着ギャップt'は, $l_1 \neq 0$ ,すなわち,着目した2ポートのうち,前方のポートに パケットの到着がない時には $t' = t_2$ とし,到着があれば $t' = t_2$ と する.図5に連結パケットの例を示す.本章での並列パイプライン プレフィクス演算では,この定義を用いる.図6には,プレフィク





図7 並列パイプライン方式の第1ステージにおける処理

ス演算部における各ステージで発生する連結パケットの長さを示している. 各記号は 3.3で定義する. 2パケットの間隔を適切に保持することで,光パケット内および出力での衝突はない.この連結パケットを用い,「到着時にバッファにパケットはなく,逐次処理に従って,すべてのパケットがバッファに格納される」と仮定して到着パケットの相対遅延を計算する.

3.3 各プロセッサの内部処理

以下に本構成の各プロセッサが周期ごとに行なう処理を述べる. なお、いずれの処理においても反復処理を行なわないので、計算量O(1)が実現できる.

マルチプロセッサシステムの前  $(\log_2 N)$  段のプレフィクス演算部 では、そのパイプラインステージを用いて並列パイプラインプレフィ クス演算を行なう.以降では、各プロセッサの処理を述べる.第1 段は並列プレフィクス演算の第1回目の処理に用いられる.(N-1) 個のプロセッサ  $P_{1n}$   $(2 \le n \le N)$ において、 $(\log_2 N + 1)$ 周期に ポート n, (n-1)へ到着するパケットの情報が入力される.それら の情報を以下に示す.

*l<sub>n</sub>*, *t<sub>n</sub>*: ポート *n* に到着するパケットの長さと到着ギャップ
 (2.参照)

*l*<sub>n-1</sub>, *t*<sub>n-1</sub>: ポート (n - 1) に到着するパケットの長さと到着 ギャップ

ポート n にパケットが到着しなければ,  $l_n = t_n = 0$  とする. プロ セッサ  $P_{1n}$  では, 図 7に示す処理を行ない,着目した周期において 2 つのポートに到着するパケットの連結パケットの長さと到着ギャッ プを示す値  $f_{n,1}$ ,  $t_{n,1}$ を出力する.それらの値は直後のレジスタに 格納される.

プレフィクス演算部の第2段以降は一般化できる.これを 第k段 (2  $\leq k \leq \log_2 N$ ) としてその処理を述べる.第k段 の ( $N - 2^{k-1}$ ) 個のプロセッサでは,並列プレフィクス演算の

for each processor n, in parallel 
$$(n := 2^{k-1} + 1 \text{ to } N)$$
  
begin  
if  $(f_{n-2^{k-1},k-1} = 0)$  then  $t_{n,k} := t_{n,k-1}$   
else  $t_{n,k} := t_{n-2^{k-1},k-1}$ ;  
if  $(f_{n,k-1} = 0)$  then  $f_{n,k} := f_{n-2^{k-1},k-1}$   
else begin  
 $\Delta_n := \left[\frac{t_{n-2^{k-1},k-1} + f_{n-2^{k-1},k-1} - t_{n,k-1}}{D}\right];$   
 $f_{n,k} := t_{n,k-1} + f_{n,k-1} + \Delta_n D - t_{n-2^{k-1},k-1};$   
end;

図8 並列パイプライン方式の第 k ステージにおける処理

for each processor n, in parallel (n := 1 to N) begin if (l<sub>n</sub> = 0) then exit; if (f<sub>n-1,k</sub> = 0) then q' := q; else q' :=  $\left\lceil \frac{q - t_{n-1,k}}{D} \right\rceil + t_{n-1,k} + f_{n-1,k};$   $\Delta_n := \left\lceil \frac{q' - t_n}{D} \right\rceil;$ if ( $\Delta_n < B$ ) then Packet n is given delay  $\Delta_n D$ ; else Packet n is discarded; end

図9 並列パイプライン方式における遅延計算処理

第 k 回目の処理を行なう.プロセッサ  $P_{kn}$   $(2 \le k \le \log_2 N, 2^{k-1} + 1 \le n \le N)$ において,その入力部は,(k-1) 段目のプロセッサ  $P_{k-1,n}$  に接続するレジスタと  $P_{k-1,n-2^{k-1}}$  に接続するレジスタとに接続している.プロセッサ  $P_{kn}$ は,値 $f_{n,k-1}$  および  $t_{n,k-1}, f_{n-2^{k-1},k-1}, t_{n-2^{k-1},k-1}$ を受取り,図 8に示す処理に従ってポートmax $(n-2^k+1,1)$ からnに到着するパケットの連結パケットの長さと到着ギャップを表わす値 $f_{n,k}, t_{n,k}$ を出力する.それらの値は直後のレジスタに格納される.

前  $(\log_2 N)$  段において,上記の処理をパイプライン方式で行なう ことで,第  $(\log_2 N)$  段では,ポート1からn(n = 1, 2, ..., N)ま でのプレフィクス和を出力する.ここでのプレフィクス和は,ポー ト1からnに到着したパケットの連結パケットの長さと到着ギャッ プ,言いかえれば,ポート(n + 1)へ到着するパケットへ与える相 対遅延である.もともと入力されている情報 $(l_n, t_n)$ も遅延決定部 で用いるために,並行して別のレジスタに格納される.

次に,  $(\log_2 N + 1)$  段における遅延決定部の処理を述べる. N 個のプロセッサが遅延を求めるために使われる.プロセッ サ $P_{(\log_2 N+1),n}$  (1  $\leq n \leq N$ )の入力部は  $(\log_2 N)$  段のプロセッ サ $P_{\log_2 N,n-1}$ の直後のレジスタに接続しており,プロセッサ  $P_{(\log_2 N+1),n}$  は値  $f_{n-1,\log_2 N}$  および  $t_{n-1,\log_2 N}$  を受取る.同時 にプロセッサは到着情報  $l_n, t_n$  とバッファ占有度 q も受取る.着目 したポートにパケットが到着する場合,すなわち, $l_n \neq 0$ の場合, プロセッサ $P_{(\log_2 N+1),n}$  は,バッファ占有度と相対遅延を用いて, ポート1から(n-1)に到着した全パケットがバッファから出力する 時刻を表わす q'を求める.その後,ポートnへのパケットの遅延時 間 $\Delta_n D$ を求める.最後に, $\Delta_n < B$ であればパケットに対して遅 延時間  $\Delta_n D$ を与え,そうでなければパケットを棄却する.それら の処理を図 9に示す.

遅延決定部では、同時にプロセッサ  $P_q$ においてバッファ占有度 を更新する、プロセッサの入力は、プロセッサ  $P_{\log_2 N,N}$  の直後の レジスタに接続される、プロセッサは全ポートに到着するパケット の連結パケットの長さと到着ギャップを示す値  $f_{N,\log_2 N}$ ,  $t_{N,\log_2 N}$ を受取り、図 10に示す処理に従ってバッファ占有量 qを更新する、

並列パイプライン処理を用いると、図 3に示した逐次処理と比べて N 倍高速なバッファ管理を行えるが、一方、バッファ占有量を安全 側に見積る可能性がある、プロセッサ集合  $\{P_{(\log_2 N+1),n}\}$ がバッ ファあふれによりパケットの一部を棄却する場合でも、プロセッサ  $P_a$  はすべてのパケットがバッファに格納されると仮定してバッファ

$$\begin{aligned} & \text{if } (f_{N,k} = 0) \text{ then } q := \max(q - T, 0) \\ & \text{else begin} \\ & \Delta := \left\lceil \frac{q - t_{N,k}}{D} \right\rceil; \\ & \text{if } (\Delta < B) \text{ then} \\ & q := \max\left(t_{N,k} + f_{N,k} + \Delta D - T, 0\right); \\ & \text{else } q := q - T; \end{aligned}$$

図 10 並列パイプライン方式のバッファ占有度の更新処理

表1 バッファ管理装置の諸元

| 動作周波数   | (1/T)        | 78.2 MHz          |
|---------|--------------|-------------------|
| 回線速度    | (C)          | 40.0 Gbps         |
| 入力回線数   | (N)          | 8                 |
| 最小パケット長 | $(l_{\min})$ | バイト               |
| 最大パケット長 | (MTU)        | 2,047 バイト         |
| 遅延線数    | (B)          | 31                |
| 遅延線単位長  | ( <i>D</i> ) | 3.125m (64 バイト相当) |

占有量を更新するからである.例えば,図6において,最初の2つ のパケットが格納された後にバッファが一杯になった時でも,残り の6パケット分の長さがバッファ占有量として追加される.しかし, 上記の見積りによる性能の劣化は無視できる程度である[21].

### 4. ハードウェア実現性の検証

本章では,提案した並列パイプライン処理に基づきバッファ管理 装置回路を設計し,ハードウェア規模と速度の実現性を検証する. 実装のかわりに,設計したバッファ管理装置を0.22µm FPGA デバ イスに配置配線処理したイメージを用いてゲートレベルシミュレー ションを行なう.そのために提案アルゴリズムを,ハードウェア記 述言語(HDL)用に書き直している.表1にバッファ管理装置回路 の諸元を示す.表に示すとおり,バッファ管理装置回路は動作周波 数78.2MHzで動作する.これを回線速度(実行帯域)に換算すると 40Gbps になる.回線あたりの実効帯域*C*(Gbps)は,本装置の動作 周波数 f<sub>max</sub>(MHz)と最小パケット長 *l*<sub>min</sub>(バイト)を基にして,以 下の式(2)で与えた.

$$C = 8l_{\min} \times f_{\max} \times 10^{-3} \tag{2}$$

次に,光パケットスイッチのポート数をどこまで増やせるかを, パッファ管理装置回路実現性の面から検討する.ここでは 79,040 個の論理セルが集積された最新の 0.13 $\mu$ m FPGA デバイスを対象と する.論理合成ソフトウェアによってバッファ管理装置回路に必要 な論理セル数を見積り,その結果を図 11に示す.図中 "Parallel" で 示した特性が提案方式によるバッファ管理装置回路に必要な論理セ ル数である.マルチプロセッサシステムは装置規模  $O(N \log_2 N)$  な ので,参考のために関数  $(64N \log_2 N)$  もプロットした.

図より,Nの増加に対する論理セル数の増加の割合は,参考とし た関数の増加割合よりも小さく,また,その関数はN = 128におい ても,対象 FPGA の論理セル数より小さいことがわかる.したがっ て,我々が提案するバッファ管理装置回路は 128 ポートのパケット スイッチをサポートできる.0.13µm FPGA は 0.22µm FPGA より も高速動作するので,本バッファ管理装置も回線速度 40Gbps での 動作が期待できる.したがって,本結果はバッファ管理装置以外 の機能や動作速度を無視した結果ではあるが,回線速度 40Gbpsの 128×128 パケットスイッチのサポートができる.本バッファ管理装 置を用いることによって,光パケットスイッチは,最新の回線速度 10Gbpsの 32×32 IP ルータの 16 倍のスループットが得られる.ク リティカルパスの最適化や ASIC の導入によってさらに高速な回線 速度のポートや高スループットの光パケットスイッチをサポートす るバッファ管理装置の実現も期待できる.

## 5. スケジューリング特性

本章では,シミュレーションによって提案する並列パイプライン



(B = 25, D = 64 バイト)



図13 光遅延線バッファとRAM バッファにおけるパケット棄却率特性 (B = 25, D = 64 バイト)

処理方式の有効性を示す.比較の対象は,RAM バッファを有する 電子処理によるパケットスイッチのバッファ管理方式である.光遅 延線バッファを用いると Void 空間があるためにバッファの利用効率 が悪くなる.しかし,この効率劣化は高速バッファ管理によって無 視できることを示す.

シミュレーションでは,光パケットスイッチの一出力ポートに着 目する.そこに対して10<sup>6</sup> パケットを発生させた.パケットの到着 はポアソン過程に従う.パケット長は64 バイトから1500 バイトま でであり,平均長は141.6 バイトである.パケット長の分布はほぼ 指数的であり, 下記のように発生させた.まず, 平均128 バイトの 指数分布に従って変数を発生させ,最小(最大)パケット長よりも小 さな (大きな) 値は 64 バイト (1500 バイト) に変更した.提案方式で は,到着率0.45で負荷がほぼ1になる.

RAM バッファを用いた実行可能な方法は文献 [9] における計算量  $O((\log_2 N)^2)$ のスケジューリングであるが,それは,提案方式と比 べてかなり低速である.したがって, RAM バッファには架空のス ケジューリングである  $O(N^{0.194})$ ,  $O(N^{0.107})$ , O(1) の 3 方式も 参照のために用いた.ポート数はN = 8で評価する.

図 12, 13にそれぞれパケットの遅延と棄却率を示す. 遅延時間 はスケジューリングに要する時間とバッファ滞在時間の和とし,最 小パケット長 64 バイトで正規化した.回線速度 40Gbps における単 位時間は 12.8nsec に相当する. 図の横軸には提案方式における最小 パケット長相当の時間を単位としたパケットの到着率を示す.図中 "O(x)" とラベルされた方式によるパケットスイッチのポート速度 は、処理速度を考慮して提案する並列パイプライン方式の1/x倍に している.図からわかるように,光遅延線バッファであっても提案 方式によって,電子処理のパケットスイッチに既存の $O((\log_2 N)^2)$ スケジューリング方式を用いた場合の性能を上回る.電子処理のパ ケットスイッチが光パケットスイッチとほぼ同等の性能を示すのは,  $O(N^{0.107})$ スケジューリングを用いる場合である(低負荷における 遅延特性を除く).以上より,光遅延線バッファでは, Void 空間を 生じるが,提案方式によるスケジューリングを用いることで,電子

処理によるパケットスイッチよりも良好な性能を得ることがわかる.

## 6. まとめ

本稿では,出力バッファ型光パケットスイッチにおけるバッファ 管理を高速化するために, 並列処理とパイプライン処理を組みあわ せた制御方式を提案した.本方式は複数プロセッサ構成で,各プロ セッサの計算量は,ポート数に依存しないO(1)なので,従来の逐 次処理方式の N 倍の高速化を図れる.シミュレーションにより,回 線速度 40Gbps の 8×8 光パケットスイッチにおいて, 非同期到着す る最小 64 バイトの長さの異なるパケットを処理する機能を FPGA に実装できることを確認した.また,最新ルータの16倍のスルー プットとなる回線速度 40Gbps の 128×128 光パケットスイッチに おけるバッファ管理装置のサポートが提案方式と既存の FPGA 技術 を用いて可能であることを示した.

- 文 [1] Juniper Networks available from "http://www.juniper.net/".
- N. Wada et al., "40Gbit/s interface, optical code based photonic packet [2] switch prototype," OFC 2003, pp. 801-802, Mar. 2003.
- M. Duelk et al., "Fast packet routing in a 2.5 Tb/s optical switch fabric [3] with 40 Gb/s duobinary signals at 0.8 b/s/Hz spectral efficiency," OFC 2003 Post Deadline (PD8), Mar. 2003.
- [4] N. Wada et al., "Photonic packet routing based on multi-wavelength label switching using fiber Bragg gratings," ECOC 2000, pp. 71-72, Sep. 2000.
- K. Kitayama and N. Wada, "Photonic IP routing," IEEE Photonic Tech. [5] Letters, vol. 11, pp. 1689-1691, Dec. 1999.
- K. Habara et al., "Large-capacity photonic packet switch prototype us-[6] ing wavelength routing techniques," IEICE Trans. Commun., vol. E83-B, pp. 2304-2311, Oct. 2000.
- [7] N. McKeown, "The iSLIP scheduling algorithm for input-queued switches," IEEE/ACM Trans. Networking, vol. 7, pp. 188-201, Apr. 1999.
- [8] R. Sivaram et al., "HIPIQS: A high-performance switch architecture using input queueing," IEEE Trans. Parallel and Distributed Systems, vol. 13, pp. 275-289, Mar. 2002.
- [9] A. Prakash *et al.*, "An  $O(\log^2 N)$  parallel algorithm for output queueing," Proc. IEEE INFOCOM 2002, pp. 1623-1629, June 2002.
- [10] T. H. Cormen et al., "Algorithms for parallel computers," Introduction to Algorithms, ch. 30, MIT Press, 1989.
- [11] J. Jájá, An Introduction to Parallel Algorithms. Addison Wesley, 1992.
- "WAN packet size distribution." available from [12] "http://www.nlanr.net/NA/Learn/packetsizes.html".
- [13] D. Hunter and I. Andonovic, "Approaches to optical Internet packet switching," IEEE Commun. Mag., vol. 38, pp. 116-122, Sep. 2000.
- [14] T. Sakamoto et al., "Demonstration of an optical packet synchronizer for an optical packet switch," OFC 2002, pp. 762-763, Mar. 2002.
- [15] M. Murata and K. Kitayama, "Ultrafast photonic label switch for asynchronous packets of variable length," Proc. IEEE INFOCOM 2002, pp. 371-380, June 2002.
- [16] L. Tancevski et al., "Optical routing of asynchronous, variable length packets," IEEE J. Select. Areas in Commun., vol. 18, pp. 2084-2093, Oct. 2000.
- [17] A. Ge et al., "WDM fiber delay line buffer control for optical packet switching," SPIE Vol. 4233 (OptiComm 2000), pp. 247-256, Oct. 2000.
- [18] N. Wada et al., "Photonic variable length packet routing based on multiwavelength label switch using multi-section fiber Bragg gratings and supercontinuum light source," OAA/BGPP 2001, vol. JW4, July 2001.
- [19] F. Callegati et al., "Exploitation of DWDM for optical packet switching with quality of service guarantees," IEEE J. Select. Areas in Commun., vol. 20, pp. 190-201, Jan. 2002.
- [20] 原井,村田,"出力バッファ型光パケットスイッチにおける並列バッファ 管理方式,"信学技報 (IN2003-42), pp. 1-6, July 2003.
- [21] H. Harai and M. Murata, "An O(1) parallel and pipeline algorithm for output-buffer management in photonic packet switches," submitted to IEEE INFOCOM 2004, 2003.

-6-