プルーニングと量子化を使用した、制限されたハードウェアでのニューラルネットワーク光チャネルイコライザーの実験的実装

Scientific Reports volume 12、記事番号: 8713 (2022) この記事を引用

1355 アクセス

3 引用

1 オルトメトリック

メトリクスの詳細

人工ニューラルネットワークベースの光チャネルイコライザーをエッジコンピューティングデバイスに展開することは、次世代の光通信システムにとって非常に重要です。しかし、これは依然として非常に困難な問題であり、主に、大きな分散誘起メモリを備えた非線形光チャネルの効率的な等化に必要な人工ニューラルネットワーク (NN) の計算の複雑さが原因です。 NN ベースの光チャネルイコライザーをハードウェアに実装するには、単純化された NN モデルの許容可能なパフォーマンスレベルを維持する必要がある一方で、大幅な複雑さの軽減が必要です。この研究では、NN ベースの光チャネルイコライザーにプルーニングおよび量子化技術を適用することで、複雑さの軽減の問題に取り組みます。我々は、NN アーキテクチャの例である多層パーセプトロン (MLP) を使用して、標準的なシングルモードファイバーを介した 30 GBd 1000 km 伝送の障害を軽減し、イコライザーのメモリを最大 87.12% 削減できることを実証します。、顕著なパフォーマンスの低下なしに、その複雑さは最大 78.34% 軽減されます。これに加えて、デジタル信号処理 (DSP) の観点から、圧縮された NN ベースのイコライザーの計算の複雑さを正確に定義します。さらに、異なる CPU および GPU 機能を備えたハードウェアを使用した場合の、圧縮イコライザーの消費電力と遅延への影響を調べます。また、2 つの標準的なエッジコンピューティングハードウェアユニット (Raspberry Pi 4 と Nvidia Jetson Nano) に縮小 NN イコライザーを実装することにより、開発された技術を実験的に検証します。これらのハードウェアユニットは、光ファイバーシステムを通る信号の伝播をシミュレートすることで生成されたデータを処理するために使用されます。。

光通信は、世界的なデジタルインフラストラクチャのバックボーンを形成します。現在、光ネットワークは世界的なデータトラフィックの主要なプロバイダーであり、何十億もの人々を相互接続するだけでなく、膨大な数の異なる自律デバイス、機械、制御システムのライフサイクルもサポートしています。現在の光ファイバー通信システムのスループットを制限する主な要因の 1 つは、ファイバーメディアの非線形応答とシステムのコンポーネントの両方から生じる非線形性による伝送障害 1、2 です。この問題に対する既存および潜在的な解決策には、いくつかの注目すべき方法を挙げると、たとえば、ミッドスパン光位相共役、デジタル逆伝播 (DBP)、および逆ボルテラ級数伝達関数が含まれます 2、3、4。ただし、電気通信業界では、考えられるソリューション間の競争がパフォーマンスの点だけでなく、ハードウェア展開のオプション、運用コスト、電力消費の点でも発生していることを強調しておく必要があります。

ここ数年、機械学習技術に基づくアプローチ、特に NN を利用したアプローチは、NN が繊維とコンポーネントに起因する障害の両方を効率的に展開できるため、ますます人気の研究テーマになっています 5、6、7、8。 9、10、11、12、13、14、15。光伝送システムで信号の破損を補償するために NN を使用する簡単な方法の 1 つは、悪影響を打ち消すことを目的とした、受信側の特別な信号処理デバイスであるポストイコライザー 7,10,14 としてシステムに NN を接続することです。データ送信中に出現する16。多くの先行研究が、このタイプの解決策の可能性を実証しています7、8。多くの NN アーキテクチャが、さまざまなタイプの光学システム (海底、長距離、地下鉄、アクセス) ですでに分析されています。これらのアーキテクチャには、現在の研究で検討されている MLP7、10、14、15 などのフィードフォワード NN 設計、またはより洗練されたリカレント型 NN 構造 10、11、12、17 が含まれます。しかし、リアルタイム NN ベースのチャネルイコライザーの実際的な展開は、その計算複雑さが既存の従来のデジタル信号処理 (DSP) ソリューションと少なくとも同等、または望ましくはそれよりも低いことを意味しており、依然として議論の余地があります。 NN によって達成される優れたパフォーマンスは通常、多数のパラメーターと浮動小数点演算の使用に関連しているため、これは重要な側面です10。計算の複雑さが高いため、メモリと計算能力の要件が高くなり、エネルギーとリソースの消費量が増加します19,20。したがって、NN ベースの手法の使用は、間違いなく有望で魅力的ではありますが、光チャネル等化において大きな課題に直面しており、計算の複雑さがリアルタイム展開を制限する重要な要因として浮上しています 10、12、20、21。ここで、もちろん、一部の NN アーキテクチャは、枝刈りや量子化などの戦略のおかげで、パフォーマンスに大きな影響を与えることなく簡素化できることがよく知られていることに注目します19、20、22、23、24、25。ただし、リソースが制限されたハードウェアの実験環境でのそれらのアプリケーションは、コヒーレント光チャネル等化の観点ではまだ十分に研究されていません。また、複雑さの軽減とシステムパフォーマンスの低下の間のトレードオフ、および複雑さの軽減がエンドデバイスのエネルギー消費に及ぼす影響を理解し、さらに分析することも必要です。

この論文では、プルーニングおよび量子化技術を適用して、NN ベースのコヒーレント光チャネルイコライザーのハードウェア要件を軽減しながら、そのパフォーマンスを高レベルに維持します。また、DSP の観点からイコライザーの計算の複雑さを正確に評価することの重要性も強調します。複雑さと推論時間の研究とは別に、私たちの研究のさらなる新規性と進歩は、エネルギー消費分析と、ハードウェアとモデルの両方の特性がこれらの指標に与える影響の研究にあります。

私たちは、リソースに制約のあるハードウェアに導入でき、同時にシミュレートされた光通信システムにおける非線形伝送障害を首尾よく軽減できる、低複雑性の NN ベースのイコライザーの性能を開発し、実験的に評価します。これは、NN23 に枝刈りおよび量子化技術を適用し、NN ソリューションの複雑さとそのパフォーマンスの間の最適なトレードオフを研究することによって実現されます。得られた結果は 3 つの主なカテゴリに分類できます。

まず、複雑さの軽減技術が NN モデルのパフォーマンスにどのような影響を与えるかを定量化し、最適なパフォーマンスと複雑さのトレードオフのための圧縮制限を確立します。次に、DSP の観点から、プルーニングおよび量子化された NN ベースのイコライザーの計算の複雑さを分析します。最後に、ハードウェアと NN モデルの特性が信号処理時間とエネルギー消費に与える影響を、後者を Raspberry Pi 4 と Nvidia Jetson Nano の両方にデプロイすることで実験的に評価します。

ここで、現在のアプローチの新規性を強調するために、光リンクの NN ベースのイコライザーに適用された圧縮技術の分野における以前の結果を簡単にレビューします。光学システムにおける NN の複雑さを軽減するためにこれらの技術を使用することは、明らかに新しい概念ではありません 25。しかし、最近、光伝送システムにおける NN ベースのイコライザーのハードウェア実装がどれほど現実的であるかという問題により、この圧縮方法が新たな注目を集めています。直接検出伝送システムでは、100 Gbps PAM-4 リンク用の並列プルーニング NN イコライザーが、ワンショットプルーニング手法の拡張バージョン 26 を使用して実験的にテストされました。これにより、パフォーマンスが大幅に低下することなく、リソース消費が 50% 削減されました。コヒーレント光伝送を考慮する場合、いわゆる学習済み DBP 非線形性緩和法の複雑さは、有限インパルス応答フィルター 27 の係数を枝刈りすることによって軽減されました (以下の「方法」セクションの技術的な説明を参照してください)。その場合、3 つのフィルターのカスケードを使用すると、全体的なパフォーマンスへの影響を無視して、約 92% のスパース性レベルを達成できます。最近、加法的な 2 の累乗量子化を使用して、このようなイコライザーでの乗算を回避するいくつかの高度な技術がテストされました 28。後者の作業では、高度な枝刈り技術を使用して重みの 99% を削除でき、乗算の代わりに必要なのはビットシフト演算だけでした。ただし、これらの研究はいずれもハードウェア実装の実験的デモンストレーションを扱っておらず、私たちの研究はまさに後者の問題に取り組んでいます。

したがって、以前の研究とは異なり、現在の研究では、コヒーレント光チャネル用の圧縮 NN ベースのイコライザーを、Raspberry Pi 4 と Nvidia Jetson Nano の 2 つの異なるハードウェアプラットフォームに実装します。また、ハードウェアタイプごとにシステムの遅延に対する圧縮技術の影響を評価し、パフォーマンスと複雑さのトレードオフを調査します。最後に、エネルギー消費と、ハードウェアの特性と NN モデルがそれに与える影響の分析を実行します。

NN ベースのイコライザーとしての MLP の使用に対処するために、Raspberry Pi と Nvidia Jetson Nano の両方で、推論時間と消費電力の両方を正確に測定するシステムが設計されました。量子化はこれらのメトリクスに基づいて特徴付けることができます (詳細な説明については、以下の「方法」セクションを参照してください)。参考文献 10、14 では、非圧縮 MLP ポストイコライザが検討され、コヒーレント光通信システムにおける非線形性によって引き起こされる障害をうまく補償できることが示されました。 30 GBd および 64-QAM 変調を使用した 0.1 ルートレイズドコサイン (RRC) 二重偏波信号のシミュレーションデータを使用して、20 回線にわたる伝送での標準達成 Q 値の観点からイコライザーの性能を分析します。 \(\times\) 標準シングルモードファイバー (SSMF) の 50 km リンク。参考文献 10、29 で説明されているのと同じシミュレータを使用してトレーニングおよびテストデータセットを生成し、同じ手順で NN ベースのイコライザーをトレーニングしました (詳細については、「方法」の「数値セットアップとニューラルネットワークモデル」サブセクションを参照してください)詳細）。この構成では、NN は、統合コヒーレント受信機 (ICR)、アナログデジタルコンバーター (ADC)、および DSP ブロックの後の受信機 (Rx) 側に配置されます。この最後のブロックは、整合フィルターと線形イコライザーで構成されます。整合フィルタに関しては、送信機で使用されているのと同じ RRC フィルタです。さらに、線形イコライザーは、完全な電子波長分散補償 (CDC) ステージと正規化ステップで構成されています (図 1 を参照)。CDC は、周波数領域イコライザーとシンボルレートへのダウンサンプリングを使用し、その後に位相/振幅ノーマライザーを使用します。伝わるものへ。この正規化プロセスは、次の方程式を使用して学習された定数 \(K_\text {DSP}\) による正規化として見ることができます。

ここで、定数 \({\mathcal {K}}, \, {\mathcal {K}}_\text {DSP} \in {\mathbb {C}}\) および \(x_{h\!/\!v }\) は、h 偏光または v 偏光の信号です。トランシーバー内のコンポーネントに関連する他の歪みは考慮されていません。

このシステムでは、図 2 からわかるように、Q 値が 7.8 に近い、-1 dBm で最高の最適パワーが得られました。次に、次の 3 つのパワー (例: 0 dBm、1 dBm、および 2 dBm) は、NN のタスクがより複雑になる、より高次の非線形領域に移行します。

リソースが制限されたハードウェア (Raspberry Pi 4 や Nvidia Jetson Nano など) にデプロイされた、プルーニングおよび量子化されたニューラルネットワークを使用してイコライズされる通信チャネルの構造。

NN の構造を定義するハイパーパラメータは、ベイジアンオプティマイザ (BO)10,30 を使用して取得されます。この最適化では、信号の復元品質のパフォーマンスに関して実行されます (「方法」の「数値設定とニューラルネットワークモデル」のサブセクションを参照) ")。結果として最適化された MLP には 3 つの隠れ層 (層の数ではなく、ニューロンの数と活性化関数のタイプが最適化されました) があり、それぞれ 500、10、および 500 のニューロンがあります。 (これらの数値は、BO アルゴリズムが最適な構成を検索する最小および最大の重み数値制限として設定されました)。アクティベーション関数 "\(\tanh\)" はオプティマイザによって選択され、バイアスは使用されません。 NN は、ダウンサンプリングされた信号 (シンボルごとに 1 サンプル) を取得し、イコライザー \(N = 10\) に隣接するシンボル (タップ数) を入力して、中央のシンボルを復元します。このメモリサイズは BO プロシージャによって定義されました。 NN は、トレーニングおよびテスト後に枝刈りおよび量子化を受けました。私たちは、スパース性レベルに応じてさまざまな NN モデルのパフォーマンスを分析しました。後者は 20 ～ 90% の範囲で、10% 刻みでした。重みとアクティベーションは量子化され、データ型が 32 ビット単精度浮動小数点 (FP32) から 8 ビット整数 (INT8) に変換されます。量子化は、モデルのリアルタイム使用と、リソースに制約のあるハードウェアへの展開を可能にするために実行されました。最終的なシステムを図 1 に示します。最初に、Intel® CoreTM i9-10870H プロセッサ、32 GB の RAM、および GPU Nvidia RTX2070 を搭載した MSI GP76 Leopard パーソナルコンピュータを使用して推論プロセス (信号イコライゼーション) を実行しました。。このコンピューターで得られた結果はベンチマークとして使用され、2 つの小型シングルボードコンピューター (Raspberry Pi 4 と Nvidia Jetson Nano) で得られた結果と比較されました。

最後に、NN は TensorFlow を使用して開発されました。プルーニングと量子化の手法は、TensorFlow モデル最適化ツールキット - プルーニング API と TensorFlow Lite31 を使用して実装されました。

通常の DSP に対する NN ベースのイコライザーのパフォーマンスの比較。

特定の目的のために NN を設計する場合、従来のアプローチは、多くの場合、優れたモデルのパフォーマンスと学習機能を提供できる限り、高密度で過剰にパラメータ化されたモデルを使用することにあります 32,33。これは、損失関数に対するオーバーパラメータ化の平滑化効果によるもので、これはモデルの最適化に使用される勾配降下法の収束に役立ちます32。ただし、過剰パラメータ化されたモデルをトレーニングする際には、いくつかの予防策を講じる必要があります。そのようなモデルは、多くの場合、過剰適合する傾向があり、一般化能力が低下する可能性があるためです 32,34。

過剰なパラメータ化によって良好なパフォーマンスが達成されると、より大きな計算リソースとメモリリソースが犠牲になります。これにより、推論時間が長くなり (レイテンシーの増加)、エネルギー消費が増加します。これらのコストは、パラメータの冗長性と多数の浮動小数点演算の結果であることに注意してください20、23。したがって、複雑性の高い NN ベースのイコライザーの機能は、リソースに制約のあるハードウェア上のエンドユーザーアプリケーションにはまだ反映されていません。したがって、アルゴリズムによる解決策と実験的な現実世界の実装との間のギャップを減らすことは、ますます活発な研究テーマとなっています。過去数年間、NN のパフォーマンスを大幅に低下させることなく NN を簡素化する技術の開発に多大な努力が費やされてきました。これらの技術は「NN 圧縮方法」という用語でグループ化されており、最も一般的なアプローチは、モデルのダウンサイジング、演算子の因数分解、量子化、パラメータの共有または枝刈りです20、23、24。これらの手法を適用すると、通常、最終モデルの複雑さが大幅に軽減され、そのため、レイテンシ、つまり予測にかかる時間が短縮され、エネルギー消費も削減されます20。この研究では、NN イコライザーを圧縮するためのプルーニングと量子化の両方に焦点を当て、複雑さの軽減とシステムパフォーマンスの間のトレードオフを定量化します。両方のアプローチの詳細については、「方法」セクションを参照してください。

まず、イコライザーの複雑さの軽減がそのパフォーマンスに大幅な影響を与えてはいけないことに注意してください。つまり、システムのパフォーマンスは依然として許容範囲内にある必要があります。図 3a では、NN イコライザーによって達成される Q 値が、3 つの発射パワーレベル、0 dBm、青、0 dBm、青、0 dBm、青、青の 3 つの発射パワーレベルについて、さまざまなスパーシティ値と対比して示されています。 1 dBm、赤。 2 dBm、緑色。結果は、点線と星印を使用して示されています。これは、プルーニングおよび量子化されたモデルを使用して、PC、Raspberry Pi、および Nvidia Jetson Nano で得られた結果です。これらの発射パワーごとに、Q ファクターの 2 つのベースラインが示されています。1 つは非圧縮モデルによって達成されるレベルに対応し、直線で定義されます。もう 1 つは、NN イコライゼーションを使用せず、NN イコライゼーションを使用しない場合のベンチマークを提供します。標準の線形波長分散補償と位相/振幅正規化 (LE、線形等化) のみ。 3 つの異なる発射力の後者のレベルは、適切な色の点線でマークされています。

図 3b は、各圧縮技術がパフォーマンスに与える影響を定量化しています。この図では、1 dBm の起動パワーに対して、NN イコライザーによって達成される Q ファクターとさまざまなスパーシティ値をプロットしました。青と赤の直線は、元のモデルの Q ファクターと、量子化後にそのモデルによって達成された Q ファクターを表します。アスタリスク付きの点線は、プルーニングのみが行われたモデルのパフォーマンス (青) と、プルーニングと量子化の両方を行った場合のパフォーマンス (赤) を示します。パフォーマンスを大幅に低下させることなく、複雑さの大幅な軽減を達成できることがわかります。この図には、パフォーマンスの急速な低下が発生するスパース性レベルも明確に示されています。

(a) プルーニングおよび量子化されたモデルで達成された Q ファクターと、3 つの発射パワー: 0 dBm、1 dBm、および 2 dBm に対応するデータセットのスパース性のレベル。実線は、元のモデルによって達成された Q ファクターに対応します。破線は、線形等化 (LE) のみが実装されている場合の Q ファクターを示しています。 (b) さまざまなレベルのスパース性および 1 dBm の発射パワーに対応するデータセットでの、プルーニング後に達成された Q ファクターと、プルーニングと量子化の両方の後に達成された Q ファクターとの比較。青と赤の実線は、それぞれ元のモデルによって達成された Q ファクターと、量子化後にこのモデルによって達成された Q ファクターに対応します。

まず、図 3a からわかるように、量子化と枝刈りのプロセスは、スパース性レベルが 60% に達するまでは、パフォーマンスが \(4\%\) 低下するだけで、重大なパフォーマンス低下を引き起こさないことがわかります。ただし、約 90% のスパースレベルに移行すると、パフォーマンスは線形イコライゼーションを使用して達成されるパフォーマンスに近くなります (つまり、Q ファクター曲線は同じ色の破線でマークされたレベルまで低下します)。

スパース性のレベルが 60% を超える場合、パフォーマンスの低下は主に量子化プロセスの影響であると結論付けることができます。すでに枝刈りされたモデルを量子化すると、Q ファクター値が 2.5% 近く低下することも観察されました。スパース性のレベルが 60% を超えると、量子化によるパフォーマンスの低下が加速します。さらに、ある程度のスパース化によって、枝刈りされていないモデルと比較してモデルのパフォーマンスが向上する可能性さえあることが観察されています。この動作は他の研究ですでに報告されており、特に過剰パラメータ化されたモデルに関連していることが判明しました。したがって、構造がそれほど複雑でない NN では、低スパース性枝刈りによるパフォーマンスの向上は見られず、そのような優れたパフォーマンスと複雑さの比率を達成することは不可能になります 32、33、35、36。

図 4 は、量子化を適用した後のモデルのサイズの縮小と、さまざまなスパーシティ値に対するモデルの計算の複雑さを示しています。計算の複雑さとモデルのサイズの計算に使用されるメトリックの定義については、「方法」のサブセクション「計算の複雑さのメトリックとメモリサイズのメトリック」を参照してください。全体として、NN イコライザーの重みの 60% をプルーニングし、残りの重みを量子化した後、メモリサイズの 87.12% の削減を達成しました。その結果、モデルのサイズは 201.4 キロバイトから 25.9 キロバイトに減少しました。モデルの計算量が減少するため、同じ圧縮戦略を適用すると、ビット演算数 (BoP) が 75,960,427.38 から 16,447,962 に減少します。これは \(78.34\%\) 削減されます (「方法」セクションの BoP の明示的な定義を参照してください) ）。パフォーマンスを大幅に低下させることなく、スパース性レベル \(60\%\) に到達できることをもう一度指摘しておきます。したがって、初期の NN 構造よりもはるかに複雑でないモデルを使用して、ほぼ同じ高レベルのパフォーマンスを達成できます。これは、私たちの研究の主な発見の 1 つです。

さまざまなレベルのスパース性の枝刈りおよび量子化によって、複雑さとサイズの削減が実現します。黒い破線は、量子化のみが適用された場合の基準複雑さを表します。

量子化と枝刈りがモデルの計算の複雑さに与える個々の影響については言及する価値があります。量子化されているが枝刈りされていないモデルの計算複雑さを計算すると、BOP の数は 23,321,563 に等しくなります。したがって、この値を、枝刈りも量子化もされていない NN のすでに述べた 75,960,427 BoP と比較すると、量子化のおかげで複雑さは 69.3% 削減されます。図 4 からわかるように、残りのゲインは枝刈り手法から得られ、式 4 に示すように線形に増加します。 (5)。

多くの深層学習アプリケーションは遅延が重要であるため、推論時間はサービスレベル目標で指定された範囲内に収まる必要があります。深層学習技術を採用した光通信アプリケーションはその好例です。レイテンシーは、NN モデルの実装と使用されるハードウェア (FPGA、CPU、GPU など) に大きく依存することに注意してください。デバイスの推論時間の測定の詳細については、「方法」セクションを参照してください。

さまざまなタイプのハードウェアと、重みの 60% が除去された量子化モデルの推論時間を測定すると、結果は次のようになります。

Raspberry Pi のレイテンシ: \(\mu = 0.81~s\) および \(\sigma = \pm 0.035\)

Nvidia Jetson Nano 遅延: \(\mu=0.53~s\) および \(\sigma=\pm 0.022\)

レイテンシ PC: \(\mu = 0.1~s\) および \(\sigma =0.006\)

枝刈りも量子化もされていないモデルの場合:

Raspberry Pi のレイテンシ: \(\mu = 1.84~s\) および \(\sigma = \pm 0.08\)

Nvidia Jetson Nano 遅延: \(\mu = 1.22~s\) および \(\sigma=\pm 0.052 s\)

レイテンシ PC: \(\mu = 0.18~s\) および \(\sigma = \pm 0.008\)

図 5 は、考慮した NN モデルの量子化前後のレイテンシを示しています。結果は、当面のタスクにより適した方法で表現されていることがわかります。したがって、レイテンシは 1 つのシンボルを処理するのにかかる時間として定義されます。30,000 個のシンボルの平均値をとりました。量子化モデルでは、元のモデルと比較して、3 つの電力値すべてでレイテンシが約 56% 減少していることがわかります。 Tensorflow Lite はまだスパース推論をサポートしていないため、プルーニングはこのメトリクスに影響を与えず、アルゴリズムが依然として同じ量のキャッシュメモリを使用するため、プルーニングは考慮されていないことに注意する必要があります。また、Raspberry Pi の推論時間が当社のデバイスの中で最も長いことがわかりました。これは、Raspberry が低コストの汎用シングルボードコンピュータとして設計されているという事実と一致しています37。一方、Nvidia Jetson Nano は GPU 機能を備えて開発されているため、ディープラーニングアプリケーションにより適しており、より低いレイテンシーを実現できます。

評価中の 3 つのデバイス (Raspberry Pi 4、Nvidia Jetson Nano、および標準 PC) の圧縮 NN モデル (枝刈りおよび量子化後) と元のモデルのシンボル処理 (推論) 時間の概要。

エッジコンピューティングのコンテキストでは、速度だけでなく電力効率も重要な要素です。この研究では、エネルギー消費を評価し、コヒーレント光チャネル等化タスクのさまざまなタイプのハードウェアを比較するために使用される指標は、回復されたシンボルあたりのエネルギーです。 60% のプルーニングレベルで量子化モデルを使用する場合、Raspberry Pi 4 と Nvidia Jetson Nano の推論中に消費される平均エネルギーは 2.98 W (\(\sigma = \pm 0.012\) ) と 3.03 W (\( \sigma = \pm 0.017\))、それぞれ。一方、元のモデルを使用すると、エネルギー消費量が約 3% 増加します。これは、以前の研究で得られた結果と一致しています 23。したがって、推論中に、Raspberry Pi 4 は 3.06 W (\(\sigma = \pm 0.011\) )、Nvidia Jetson Nano 3.13 W (\(\sigma = \pm 0.015\)) をそれぞれ消費します。これらの値に、図 5 で報告された回復シンボルあたりの NN 処理時間を乗算すると、図 6 に示す結果が得られます。Raspberry Pi が回復シンボルあたりのエネルギー消費量が最も高いことがわかります。これは GPU がないため、推論時間が長くなります。したがって、Nvidia Jetson Nano は、Raspberry Pi 4 よりもエネルギー消費が 33.78% 少なくなります。プルーニングと量子化に関して、これらの技術を使用すると、Raspberry Pi 4 では 56.98%、Nvidia Jetson Nano では 57.76% のエネルギー節約が可能になります。

TensorFlow Lite はスパース推論をサポートしていないため、プルーニングは推論時間の短縮には役立ちませんが、モデルのサイズに影響を与えることに注意する必要があります。これは、リソースの使用量が減少するため、デバイスの電力消費に直接影響します。対照的に、量子化は、精度の低い形式を採用し、モデルのサイズを削減するため、これらのパラメータの両方にプラスの効果をもたらします。したがって、エネルギー消費に対してより強い影響を及ぼします。これは、このセクションで公開される結果に反映されています。さらに、これは以前の研究で報告された結果と一致しています23,38。

エネルギー消費量の測定の詳細については、「方法」セクションを参照してください。

Raspberry Pi 4 および Nvidia Jetson Nano のエネルギー消費量。青色のセクションは、圧縮モデルを使用した場合の復元されたシンボルごとのエネルギー消費量を表し、その相対的なエネルギーコストは、元のモデルと圧縮モデルの両方で消費されるエネルギーの合計に対するパーセンテージで表されます。同様に、赤いセクションでは、元のモデルを使用した場合の復元されたシンボルごとのエネルギー消費とその相対的なエネルギーコストを説明します。

私たちの研究では、コヒーレント光伝送システムにおける NN ベースのチャネルイコライザーのハードウェア実装の複雑さを軽減するために、プルーニングと量子化をどのように使用できるかを調査しました。これにより、Raspberry Pi 4 と Nvidia Jetson Nano を使用して、設計したイコライザーの実装を実験的にテストしました。前述の 2 つの圧縮手法のおかげで、パフォーマンスに重大な影響を与えることなく、NN のメモリ使用量を \(87.12\%\) 削減し、NN の計算量を \(78.34\%\) 削減できることが実証されました。

さらに、異なるタイプのハードウェアを使用する効果は、Raspberry Pi 4 と Nvidia Jetson Nano の両方で推論時間とエネルギー消費を測定することによって実験的に特徴付けられました。ただし、実験したのはエッジデバイスのみであり、通信システムからのデータはシミュレーションを通じて取得したものであることに注意してください。しかし、実際の光学システムのプルーニングと量子化のおかげで達成される性能と複雑さのトレードオフに関する結果が大きく異なるとは予想していません。 Nvidia Jetson Nano では、Raspberry Pi よりも推論時間が 34% 高速になり、量子化プロセスのおかげで推論時間の 56% の削減が達成できることが実証されています。最後に、プルーニングと量子化技術の使用により、Raspberry Pi 4 では 56.98%、Nvidia Jetson Nano では 57.76% のエネルギー節約を達成しました。また、後者のデバイスの消費エネルギーが 33.78% 少ないこともわかりました。

全体として、我々の調査結果は、プルーニングと量子化の使用が、リソースが制限されたハードウェアに導入された高速光伝送システムで効率的な NN ベースのイコライザーの実装に適した戦略となり得ることを示しています。これらのモデル圧縮技術は、実際の光通信システムにおける NN ベースのイコライザーの展開や、新しいオンライン光信号処理ツールの開発に使用できると考えています。私たちは、フィールド処理と特性評価のための機械学習の応用が急速に発展している研究分野であるセンシングおよびレーザーシステムを開発している研究者にとっても、私たちの結果が興味深いものとなることを願っています39。

30 GBd での単一チャネル信号の二重偏波 (DP) 伝送を数値的にシミュレートしました。信号は、シンボルあたり 8 サンプルのサンプリングレートで 0.1 ロールオフのルートレイズドコサイン (RRC) フィルターを使用して事前に整形されます。また、信号変調方式は64-QAMです。 SMF の 20 \(\times\) の 50 km リンクを介した伝送の場合を検討しました。ファイバーに沿った光信号の伝播は、ステップごとに 1 km の分解能で分割ステップフーリエ法 40 を介してマナコフ方程式を解くことによってシミュレートされました。 TWC ファイバーの考慮されるパラメーターは次のとおりです。減衰パラメーター \(\alpha = 0.23 dB/km\)、分散係数 \(D = 2.8\) ps/(nm \(\times\) km)、および実効非線形係数 \(\gamma = 2.5\) (W \(\times\) km)\(^{-1}\)。 SSMF パラメーターは次のとおりです: \(\alpha = 0.2\) dB/km、\(D = 17\) ps/(nm \(\times\) km)、および \(\gamma = 1.2\) (W \( \times\) km)\(^{-1}\)。さらに、各スパンの後に、雑音指数 NF = 4.5 dB の光増幅器を配置して、ファイバ損失を完全に補償し、増幅自然放出 (ASE) 雑音を追加しました。受信機では、標準の Rx-DSP が採用されました。これは、周波数領域イコライザーを使用した完全な電子波長分散補償 (CDC)、整合フィルターの適用、およびシンボルレートへのダウンサンプリングで構成されています。最後に、受信シンボルは送信シンボルに対して (位相と振幅によって) 正規化されました。この作業では、追加のトランシーバー歪みは考慮されていません。 Rx-DSP の後、送信シンボル、受信ソフトシンボル、および等化後の硬判定を使用してビット誤り率 (BER) が推定されます。

NN は、3 次元 (B, M, 4) で定義された形状を持つテンソルを入力として受け取ります。ここで、B はミニバッチサイズ、M は近傍数 N によって \(M = 2N として決定される) メモリサイズです。 + 1\)、4 は各シンボルの特徴の数であり、2 つの偏光成分の実数部と虚数部に対応します。 NN は、偏波の 1 つの k 番目のシンボルの実部と虚部を復元する必要があります。したがって、NN 出力バッチの形状は (B, 2) として表すことができます。このタスクは、回帰または分類として扱うことができます。この側面は以前の研究で考慮されており、回帰アルゴリズムと分類アルゴリズムによって得られる結果は類似しているが、回帰の場合には必要なエポックが少なくなることが述べられています。したがって、回帰タスクで使用される標準の損失関数である平均二乗誤差 (MSE) 損失推定量がこの論文で使用されます 41。損失関数は、デフォルトの学習率が 0.001 である Adam アルゴリズム 42 を使用して最適化されます。損失関数の値が 150 エポックを超えて変化しない場合はトレーニングプロセスが早期に停止されるため、トレーニングプロセス中の最大エポック数は 1000 でした。トレーニングエポックごとに、テストデータセットを使用して取得された BER を計算しました。 NN の各層のニューロンと活性化関数の最適な数、およびシステムのメモリ (入力) は、ベイジアン最適化アルゴリズム (BO) を使用して推測されました。ニューロンの数についてテストされた値は \(n \in [10, 500]\) でした。活性化関数の場合、BO は「\(\tanh\)」、「ReLu」、「sigmoid」、「LeackyReLu」の中から選択する必要がありました。システムのメモリ (入力) についてテストされた値は \(N \in [5, 50]\) でした。BO のメトリックは BER で、検証によって BER を可能な限り削減するのに役立つハイパーパラメータが見つかりました。 \(2^{17}\) データ点のデータセット。最終的な解決策は、活性化関数として "\(\tanh\)" を使用し、第 1 層、第 2 層、および第 3 層にそれぞれ 500、10、および 500 個のニューロンを使用することでした。トレーニングデータセットとテストデータセットは、それぞれ長さが \(2^{18}\) の独立して生成されたシンボルで構成されていました。データの周期性と過大評価を防ぐために、次数 32 の擬似ランダムビットシーケンス (PRBS) を使用して、それぞれに異なるランダムシードを持つデータセットが生成されました。したがって、データの周期性はトレーニングデータセットのサイズの \(2^{12}\) 倍になります。シミュレーションでは、メルセンヌツイスタージェネレーター 45 をさまざまなランダムシードとともに使用しました。さらに、トレーニングデータは NN への入力として使用される前にシャッフルされました。

最後に、現実的な送信においてイコライザーを定期的に再トレーニングする必要があるという重要な点に注意してください。この場合、気になる点になるかもしれません。この問題は以前の研究 29 ですでに解決されており、転送学習を使用すると、送信設定の変更が発生した場合のトレーニング時間とトレーニングデータ要件を大幅に削減できることが実証されています。

プルーニングを使用すると、必要なタスクを実行する能力を大幅に制限することなく、冗長な NN 要素を削除してネットワークをスパース化できます 24、32、46。したがって、サイズと計算の複雑さが削減されたネットワークが得られ、その結果、ハードウェア要件が低くなり、予測時間が短縮されます 23,24。さらに、枝刈りは正則化手法として機能し、過学習を軽減することでモデルの品質を向上させます32。さらに、既に枝刈りされた NN を再トレーニングすると、局所損失関数の最小値を回避するのに役立ち、予測精度の向上につながる可能性があります 24。したがって、多くの場合、NN のパフォーマンスに顕著な影響を与えることなく、それほど複雑ではないモデルを実現できます32。

何をプルーニングするかに応じて、スパース化手法は、モデルスパース化と一時的スパース化の 2 つのタイプに分類できます32。最初のケースでは、スパース化はモデルに永続的に適用されますが、2 番目のケースでは、スパース化は計算プロセス中にのみ発生します。私たちの作業では、モデルのスパース化が最終的な NN のコンピューティングおよびメモリのハードウェア要件に影響を与えるため、モデルのスパース化を使用します。これに加えて、モデルのスパース化では、重みだけでなく、ニューロンや畳み込みフィルターなどのより大きな構成要素も削除することができます32。ここでは、簡素化のために、考慮されている NN 構造 (MLP) と一致する限り、ネットワークの重みだけに枝刈りを適用します。

何を剪定するかを定義した後、いつ剪定を行うかを定義する必要があります。これに基づいて、枝刈りには静的枝刈りと動的枝刈りの 2 つの主なタイプがあります24。静的な場合、要素はトレーニング後に NN から削除されます。この作業では、その効果を実証するために、その単純さから静的な枝刈りバリアントを使用します。

静的枝刈りは通常 3 つのステップで実行されます。まず、何を剪定する必要があるかを決定します。枝刈りオブジェクトを定義する簡単な方法は、特定の (枝刈りされた) 要素を使用した場合と使用しない場合の NN のパフォーマンスを評価することです。ただし、これはスケーラビリティの問題を引き起こします。特定の NN パラメータをそれぞれプルーニングするときにパフォーマンスを評価する必要があり、これらのパラメータは数百万ある可能性があります。

あるいは、削除する要素をランダムに選択することも可能であり、これにより高速に実行できます32、47、48。この後者のアプローチに従って、重みを取り除くことを事前に決定しました。どの要素をプルーニングするかを決定したら、パフォーマンスを大幅に低下させることなく高レベルのスパース性を確実に達成するために、NN から要素を削除する方法の基準を確立する必要があります。 NN の重みを枝刈りするとき、さまざまな側面に基づいてそれらを削除することができます。つまり、その大きさを考慮して (つまり、ゼロに近い値を持つ重みが枝刈りされます。枝刈りのパーセンテージは、目的のスパース性レベルによって定義されます)達成）、またはそれらの類似性（2 つの重みが同様の値を持つ場合、そのうちの 1 つだけが保持されます）。他の選択手順も存在することに言及します 32,48。ここでは、その大きさに基づいて比較的単純な重み枝刈り戦略を選択します。図 7 に、NN イコライザーを 40% 削減した場合の影響を示します。元のモデルと枝刈りされたモデルの重み分布を比較すると、疎性レベルによって枝刈りが必要な重みの数が定義されることが明らかです。したがって、枝刈りプロセスは最小の重みを削除することから始まり、目的の疎性レベルに達するまで継続されます。最後に、修正された NN のパフォーマンスの低下を軽減するために、再トレーニングまたは微調整フェーズを実行する必要があります24。

Tensorflow Model Optimization API を使用して枝刈りを実行する場合、各ステップで層を枝刈りするレベルを通知することでこのプロセスを制御する枝刈りスケジュールを定義する必要があります49。この作業では、多項式減衰として知られるスケジュールが使用されます。このタイプのスケジュールの主な特徴は、多項式のスパース関数が構築されることです。この場合、関数の累乗は 3 に等しく、枝刈りは 50 ステップごとに行われます。これは、最後のステップでより高い割合のスパース化が採用され (たとえば、より多くのウェイトが削除され)、枝刈りプロセスが高速化されることを意味します。一方、関数の累乗が負の場合、枝刈りは遅くなります。モデルは 0% のスパース性から開始され、プロセスは 300 エポックの間に実行されます。これは、元のモデルのトレーニングに必要な反復回数の約 35 % です。今後の作業の目的は、枝刈りプロセスのハイパーパラメータを最適化し、その効率を向上させ、多数の反復に関連するコストを削減することです。

スパースレベルが 40% に設定されている場合の、プルーニングなしおよびプルーニングありの NN ベースの MLP イコライザーの重みの一般的な分布。

NN 信号処理に関与する演算数の削減に加えて、このような算術演算の精度は、モデルの複雑さ、したがって推論レイテンシー、イコライザーのメモリとエネルギー要件を決定する際のもう 1 つの重要な要素です23,50,51。、52。連続変数を指定された一連の離散値で近似するプロセスは、量子化として知られています。離散値の数によって、データを表すのに必要なビット数が決まります。したがって、深層学習のコンテキストでこの手法を適用する場合、目的は、モデルの重みとアクティベーションのエンコードに使用される数値精度を下げ、NN のパフォーマンスの顕著な低下を回避することです20,52。

低精度フォーマットを使用すると、畳み込みや行列の乗算など、数学を多用する演算を高速化できます52。一方、推論 (信号処理) 時間は、数学演算に含まれる数字の形式表現だけでなく、メモリから計算要素へのデータの転送にも影響されます 23,38。さらに、後者のプロセス中に熱が発生するため、低精度の表現を使用するとエネルギーの節約につながる可能性があります23。最後に、低精度フォーマットを使用するもう 1 つの利点は、データを保存するために必要なビット数が減り、メモリフットプリントとサイズ要件が軽減されることです 23,52。

FP32 は、より広いダイナミックレンジを活用するために、NN で重みとアクティベーション (ニューロンの出力) をエンコードするための数値形式として伝統的に使用されてきました。ただし、すでに述べたように、これにより推論時間が長くなり、リアルタイム信号処理を考慮する場合に重要な要素となります20。推論時間を短縮し、ハードウェア要件を軽減するために、NN の要素表現の FP32 数値形式に代わるさまざまな代替案が最近提案されています。たとえば、FP16 形式で NN をトレーニングすることは、ほとんどの深層学習アクセラレータでサポートされているため、一般的になりつつあります20。一方、INT8 型で実行される数学集中型のテンソル演算では、FP32 の同じ演算と比較して最大 16\(\times\) の高速化が見られます。さらに、メモリ制限のある操作では、FP32 バージョンと比較して最大 4\(\times\) の高速化が見られます22、23、24、52。したがって、プルーニングに加えて、整数量子化として知られる技術を使用して、イコライザーの計算の複雑さをさらに軽減するために重みとアクティベーションの精度を下げます52。

整数量子化では、浮動小数点値 \(x\in [\alpha ,\,\beta ]\) をビット整数 \(x_{q}\in [\alpha _{q},\,\beta _{ q} ]\)。このマッピングは、次の式を使用して数学的に定義できます: \(x_{q} = \mathrm {round} \left( \frac{1}{s}x + z\right)\)、ここで s (正の浮動小数点)数値) はスケールとして知られており、z はゼロ点 (整数) です。スケーリング係数は基本的に、実数値の範囲 (この場合はクリッピング範囲 \([\alpha ,\,\beta ]\) 内の値) をいくつかのパーティションに分割します。したがって、これは \(s = \frac{\beta - \alpha }{2^{b}-1}\) と表すことができます。ここで b は量子化ビット幅です。一方、ゼロ点は \(z = \frac{\alpha (1 - 2^{b} )}{\beta - \alpha }\) と定義できます。したがって、対称量子化の場合は0となります。さらに、x が範囲 \([\alpha ,\,\beta ]\) の外にある場合、 \(x_{q}\) は \( [\alpha _{q}, \, \beta _{q}]\)。したがって、これが発生した場合は値をクリップする必要があります。その結果、マッピング式は次のようになります: \(x_{q} = \mathrm {clip}(\mathrm {round} \left[ \frac{1}{s}x + z \right] , \alpha _{q }, \beta _{q})\)、\(\mathrm {clip}\) 関数は値 24,53 を受け取ります。

整数量子化は、量子化レベル間の間隔とクリッピング範囲の対称性 (ゼロ点 z の値によって決定される) に応じて、さまざまな形式を取ることができます53。簡単にするために、この作業では対称的かつ均一な整数量子化を使用しました。

量子化プロセスは、トレーニング後またはトレーニング中に実行できます。最初のケースはポストトレーニング量子化 (PTQ) として知られ、2 番目のケースは量子化対応トレーニングです22、23、24。 PTQ では、トレーニングされたモデルの重みとアクティベーションが定量化されます。この後、小さなラベルのないキャリブレーションセットを使用して、アクティベーションのダイナミックレンジが決定されます23、52、53、54。再トレーニングは必要なく、そのシンプルさとデータ要件の低さにより、この方法は非常に人気があります53,54。それにもかかわらず、トレーニングされたモデルが直接量子化されると、トレーニングされたパラメーターが混乱し、浮動小数点精度でトレーニング中に到達した収束点からモデルが遠ざかる可能性があります。言い換えれば、PTQ には精度関連の問題が存在する可能性があることがわかります53。

この作業では、量子化はトレーニング段階の後に実行されます。つまり、PTQ を使用します。モデル内のアクティベーションの範囲 (最小、最大) を推定するために必要なキャリブレーションプロセスは、テストデータセットの小さな部分を使用していくつかの推論を実行することによって実行されます。私たちの場合、それは 100 個のサンプルで構成されていました。 Tensorflow Lite API を使用する場合、キャリブレーションは自動的に実行され、推論の数を選択することはできません。

最後に、そのようなモデルの計算の複雑さを正しく評価する方法を議論することが重要です。これに関して、プルーニングと量子化を適用し、推論ステップで使用されるビット数を計算することによって達成される計算量の削減を定量的に評価します。 NN で最も一般的な演算は、積和演算 (MAC) です。これらは \(a = a + w \times x\) の形式の演算であり、3 つの項が関係します。まず、x はニューロンの入力信号に対応します。次に、w は重みを指します。そして最後に、累積変数 a55 です。従来、ネットワークの複雑さの計算は、MAC 操作の数を使用して測定されてきました。ただし、DSP 処理の観点からは、BoP の数がモデルの計算量を表すより適切な指標です。整数演算で構成される低精度ネットワークの場合、FLOPS22 を使用して計算量を測定することはできません。 56. したがって、この研究では、BoP を使用してイコライザーの複雑さを定量化します。光チャネルの非線形補償の文脈では、NN ベースのチャネルイコライザーの複雑さは従来、乗算の数のみを考慮して測定されてきたことに注意することが重要です 12、44、57。したがって、アキュムレータの寄与は無視されました。ただし、このプロジェクトでは、より一般的な複雑さのメトリクスを取得することを目指しており、それを計算に含めます。

BOPs 尺度は 56 年に初めて提案され、量子化された畳み込み層に対して次のように定義されました。

式では、 (2)、\(b_{w}\) と \(b_{a}\) はそれぞれ重みとアクティベーションビット幅です。 n は入力チャンネルの数、m は出力チャンネルの数、k はフィルターのサイズを定義します (例: \(k\times k\) フィルター)58。 MAC 演算が \(a = a + w \times x\) の形式をとることを考慮すると、上の方程式の 2 つの寄与を区別することができます。1 つは \(nk^{2}\times b_ に対応します) {0}\) 加算回数、\(b_{0} = b_{a} +b_{w} + \log _{2}(nk^{2})\) (例: MAC 演算のアキュムレータ幅) )、もう 1 つは乗算の数に対応します (例: \(nk^{2}(b_{a}b_{w})\)56)。

式 (2) は、枝刈りと量子化の両方が行われた高密度層の場合にさらに適応されました 59。したがって、MLP は次々に配置された一連の緻密な層で構成されているため、このケースに当てはまります。

式では、 (3) n と m はそれぞれ入力と出力の数に対応します。 \(b_{w}\) と \(b_{a}\) は、重みとアクティベーションのビット幅です。追加の項 \(f_{p_{i}}\) は、枝刈りされた層の重みの一部であり、枝刈りによる乗算演算の削減を考慮できるようになります。 \(b_{a}b_{w}\)59 という用語のみに関連するのはこのためです。

したがって、3 つの隠れ層を持つ MLP の場合、BOP の総数は次のようになります。

ここで、\(i\in [1,2,3]\)、\(\mathrm {BoPs_{input}}\)、および \(\mathrm {BoPs_{output}}\) は入力と出力の寄与に対応します。層。式 (4) は、次のようにそれほどコンパクトではない方法で書くことができます。

ここで、 \(n_{i}\)、 \(n_{1}\)、 \(n_{2}\)、 \(n_{3}\)、 \(n_{o}\) は次の数です。それぞれ入力層、第 1 層、第 2 層、第 3 層、出力層のニューロン。 \(b_{w}\)、\(b_{a}\)、\(b_{o}\)、\(b_{i}\) は、それぞれ重み、アクティベーション、出力、入力のビット幅です。 ; \(f_{p}\) は、層内で枝刈りされた重みの一部であり、この場合、すべての層で同じです。

この作業では、モデルのサイズはメモリ内で占有されるバイト数として定義されます。さらに、このメトリクスの値とモデルを表すために使用される形式との間に直接の相関関係があることがわかります。したがって、Tensorflow で使用される従来の形式 (例: .h5 または HDF5 バイナリデータ形式、および .pb または protobuf) とは対照的に、TensorFlow Lite モデルは、.tflite ファイル拡張子によって識別される特別な効率的なポータブル形式で表されます。これにより、モデルのサイズの縮小と推論時間の短縮という 2 つの主な利点が得られます。したがって、リソースが制限されたハードウェア上で NN モデルを展開することが可能になります。結果として、従来の Tensorflow 形式で保存されたモデルと、プルーニングおよび量子化され、Tensorflow Lite に変換されたモデルとを比較することは意味がありません。私たちは手順の実現中にこの状況を認識していたので、枝刈りと量子化の利点を過大評価しないように、枝刈りも量子化もされていないモデルを .tflite 形式に変換しました。このステップが持つ意味をよりよく理解するために、.h5 形式の元のモデルのサイズを .tflite 形式に変換し、量子化してプルーニング (60% のスパース性) した後、96.22% のサイズ縮小を実験します。一方、元のモデルがすでに .tflite に変換されている場合、サイズは 87.12% 削減されます。もちろん、これに基づくと、他の従来の形式ではなく常に .tflite 形式を使用することが最善の戦略であると思われます。これを行わない主な理由は、.tflite 形式のグラフはオンライン推論モードのみをサポートしているため、再度トレーニングできないことです。それにもかかわらず、たとえば .h5 形式のモデルはオフラインでトレーニングできます。したがって、.tflite はエッジコンピューティングのコンテキストでのみ使用することを目的としています。

多くの深層学習アプリケーションでは、低消費電力と推論時間の短縮が特に望まれています。さらに、高性能を達成するためのグラフィックスプロセッシングユニット (GPU) の使用には、最終的に解決されるには程遠いコスト関連の問題がいくつかあります 37,60。したがって、この問題を解決するには、小型でポータブル、低コストのハードウェアが必要です。その結果、シングルボードコンピュータが普及し、Raspberry Pi 4 と Nvidia Jetson Nano が最もよく使用されています 37。したがって、ここでは、前述の 2 つの一般的なハードウェアタイプを使用して、NN ベースのイコライザーの機能を分析します。

Raspberry Pi は小型のシングルボードコンピューターです。 Broadcom Video Core VI (32 ビット) GPU、クアッドコア ARM CortexA72 64 ビット 1.5 GHz CPU、2 つの USB 2.0 ポート、および 2 つの USB 3.0 ポートが装備されています。データの保存にはMicroSDカードを使用します。さらに、接続はギガビットイーサネット/WiFi 802.11ac を通じて提供されます。 Raspbian として知られる OS を使用しており、GPU 機能や特殊なハードウェアアクセラレータはありません 37,61。

Nvidia Jetson Nano は、複数の NN の並列動作を可能にする小型の GPU ベースのシングルボードコンピューターです。サイズが縮小され (100 mm \(\times\) 80 mm \(\times\) 29 mm)、Maxwell 128 コア GPU、クアッドコア ARM A57 64 ビット 1.4 GHz CPU を搭載しています。 Raspberry Piの場合と同様に、データの保存にはMicroSDカードが使用されます。最後に、接続はギガビットイーサネット経由で確立され、使用される OS は Ubuntu 18.0437,60 ベースの Linux4Tegra です。

この研究では、各モデルの処理に起因する遅延と精度とともに、Nvidia Jetson Nano と Raspberry Pi 4 に実装された NN イコライザーの消費電力の問題にも対処します。

Nvidia Jetson Nano と Raspberry Pi の両方の消費電力をさまざまな方法で測定できます。 Nvidia Jetson Nano に関しては、電源入力、GPU、CPU に 3 つのオンボードセンサーがあります。したがって、測定の精度はこれらのセンサーによって制限されます。これらのセンサーの記録を読み取るには、tegrastats ツールを使用して自動的に行うことも、Linux 上の疑似ファイルシステムである .sys ファイルを読み取ることによって手動で行うこともできます。両方のアプローチを使用することにより、電力、電圧、電流の測定情報を容易に収集できます62。対照的に、Raspberry Pi 4 には、消費電力の数値を簡単に提供するシステムがありません。いくつかのソフトウェアベースの方法が開発されており、いくつかの経験的推定も行われている63。しかし、前述のソフトウェア手法のほとんどは近似値を与えるだけであり、非常に正確な結果が必要な場合には使用できない可能性があることが実証されています63。一方、Raspberry Pi の消費電力を測定する 2 番目の経験的な戦略は、このタイプのハードウェアに固有のものであり、Nvidia Jetson Nano では使用できません。

これら 2 種類のハードウェアのイコライザーの消費電力を比較するには、機器のバイアスを避けるために、両方で同じ方法を使用することがより正確であり、望ましいです。この論文では、デジタル USB マルチメーターを使用して、プラットフォームに依存しない方法を開発しました。提案された消費電力測定システムは、オンボードシャント抵抗を持たないこれらのデバイスの問題に対処します。このようなアプローチにより、外部エネルギープローブを使用して電力を簡単に測定できるようになります。測定セットアップの概略図を図 8 に示します。

(a) Nivida Jetson Nano の電力測定セットアップ、(b) - Raspberry Pi の場合と同じ。

Raspberry Pi の場合、電力は 5.1 V ～ 2.5 A の電源アダプターを介して USB タイプ C ポートから供給されます。 Nvidia Jetson Nano の場合、5.1 V ～ 2.5 A 電源アダプターまたはバレルジャック 5 V ～ 4 A (20 W) 電源供給装置を使用して、Micro-USB コネクタを通じて電力を供給できます。ジャンパを設定し、5 W モードから 10 W モードに移行することにより、ある構成から別の構成に変更することができます。 Raspberry Pi と同じ電源を使用するには、Micro-USB 構成が使用されます。

USB接続により電力を供給するため、USBデジタルマルチメータを使用して電力を測定することが可能です。今回使用したモデルはInnovateking-EU社製のA3-B/A3です。電圧、電流、インピーダンス、消費電力を記録します。入力電圧範囲と入力電流範囲はそれぞれ 4.5 V ～ 24 V と 0 A ～ 3 A です。さらに、0～99,999mWhの範囲でエネルギーを測定できます。電圧および電流の測定分解能は0.01 Vおよび0.001 Aで、測定精度はそれぞれ±0.2%および±0.8%です。

USB デジタルマルチメータ A3-B/A3 には、図 8a、b に示すように、測定データをリアルタイムでコンピュータに送信できる UM24C PC ソフトウェア V1.3 というソフトウェアが付属しています。測定プロセス中、イーサネットポートを除き、周辺機器は Raspberry Pi または Nvidia Jetson Nano に接続されません。これはSSH経由の通信に使用されます（図8）。また、デバイスごとに25の対策が講じられました。それぞれの推論で 100 回の推論が実行され、初期化フェーズで消費される電力は考慮せずに、消費電力が平均化されました。

各モデルの推論時間を評価するために、セキュアシェルプロトコルを介した通信を確立するために使用されるイーサネットポートを除き、周辺機器は Raspberry Pi にも Nvidia Jetson Nano にも接続されません。さらに、初期化時間 (ライブラリのロード、データ生成、モデルの重みロードなど) は、デバイスのセットアップ中に発生する 1 回限りのコストであるため、無視されます。さらに、デバイスごとに 25 の対策が講じられました。それぞれの推論で 100 回の推論が実行され (各推論で 30,000 個のシンボルが回復されます)、初期化フェーズを考慮せずに推論時間が平均されました。

この論文で示した結果の基礎となるデータは現時点では公開されていませんが、要求に応じて著者から入手できます。

Winzer、PJ、Neilson、DT & Chraplyvy、AR 光ファイバー伝送とネットワーキング: 過去 20 年と今後の 20 年。オプション。エクスプレス 26、24190 ～ 24239。 https://doi.org/10.1364/OE.26.024190 (2018)。

論文 ADS CAS PubMed Google Scholar

Cartledge、JC、Guiomar、FP、Kschischang、FR、Liga、G. & Yankov、MP ファイバー非線形性のためのデジタル信号処理。オプション。エクスプレス 25、1916 ～ 1936 年。 https://doi.org/10.1364/OE.25.001916 (2017)。

論文 ADS PubMed Google Scholar

Rafique, D. ファイバー非線形性補償: 商用アプリケーションと複雑さの分析。 J. ライトテクノロジー。 34、544–553。 https://doi.org/10.1109/JLT.2015.2461512 (2016)。

記事 ADS Google Scholar

Dar、R. & Winzer、PJ 非線形干渉の軽減: 方法と潜在的な利益。 J. ライトテクノロジー。 35、903–930。 https://doi.org/10.1109/JLT.2016.2646752 (2017)。

記事 CAS Google Scholar

Musumeci, F. et al. 光ネットワークにおける機械学習技術の応用に関する概要。 IEEE コミューン。生き残る。家庭教師。 21、1383–1408。 https://doi.org/10.1109/COMST.2018.2880039 (2019)。

記事 Google Scholar

ネビン、JW et al. 光ファイバー通信システムの機械学習: 概要と概要。 APL Photon.https://doi.org/10.1063/5.0070838 (2021)。

記事 Google Scholar

マサチューセッツ州ジャラジレら。コヒーレント光 OFDM 用の人工ニューラルネットワーク非線形イコライザー。 IEEEフォトン。テクノロジー。レット。 27、387–390。 https://doi.org/10.1109/LPT.2014.2375960 (2015)。

記事 ADS Google Scholar

Häger, C. & Pfister, HD ディープニューラルネットワークによる非線形干渉の軽減。 2018 光ファイバー通信会議および展示会 (OFC)、1–3 (IEEE) (2018)。

Zhang, S. et al. ニューラルネットワークを使用した非線形障害補償のフィールドおよびラボでの実験的デモンストレーション。ナット。共通。 10、3033。https://doi.org/10.1038/s41467-019-10911-9 (2019)。

論文 ADS CAS PubMed PubMed Central Google Scholar

フレイレ、PJ et al. コヒーレント光学システムにおけるニューラルネットワークイコライザーのパフォーマンスと複雑さの研究。 J. ライトテクノロジー。 39、6085–6096。 https://doi.org/10.1109/JLT.2021.3096286 (2021)。

記事 ADS Google Scholar

Deligiannidis, S.、Bogris, A.、Mesaritakis, C.、Kopsinis, Y. 長期短期記憶ニューラルネットワークを活用したデジタルコヒーレントシステムにおけるファイバーの非線形性の補償。 J. ライトテクノロジー。 38、5991–5999。 https://doi.org/10.1109/JLT.2020.3007919 (2020)。

記事 ADS Google Scholar

Deligiannidis, S.、Mesaritakis, C. & Bogris, A. デジタルコヒーレントシステムにおける双方向リカレントニューラルネットワークモデルとボルテラ非線形イコライザーのパフォーマンスと複雑さの分析。 J. ライトテクノロジー。 39、5791–5798。 https://doi.org/10.1109/JLT.2021.3092415 (2021)。

記事 ADS Google Scholar

フレイレ、PJ et al. 光リンクにおけるディープニューラルネットワークイコライザーのパフォーマンスの実験的研究。 2021 年の光ファイバー通信カンファレンスおよび展示会 (OFC)、1 ～ 3 (2021)。

Sidelnikov, O.、Redyuk, A. & Sygletos, S. 長距離伝送システムにおける動的ディープニューラルネットワークの等化パフォーマンスと複雑さの分析。オプション。エクスプレス 26、32765 ～ 32776。 https://doi.org/10.1364/OE.26.032765 (2018)。

論文 ADS PubMed Google Scholar

Sidelnikov、OS、Redyuk、AA、Sygletos、S.、Fedoruk、MP 動的ニューラルネットワークに基づくマルチチャネルデータ転送システムにおける非線形効果の補償方法。量子電子。 49、1154。https://doi.org/10.1070/QEL17158 (2019)。

記事 ADS Google Scholar

バリー、JR、リー、EA & メッサーシュミット、DG デジタルコミュニケーション第 3 版 (Springer、***、2004)。

Google Scholar を予約する

ミン、H.ら。コヒーレント光通信システムにおけるファイバーの非線形性を軽減するための、超低複雑性の長期短期メモリネットワーク。 arXiv:2108.10212 (arXiv プレプリント) (2021)。

金田直也ほか高速 pon 用のディープニューラルネットワークベースのイコライザーの Fpga 実装。光ファイバー通信カンファレンス (OFC) 2020 では、T4D.2。 https://doi.org/10.1364/OFC.2020.T4D.2 (米国光学協会、2020) (2020)。

Blalock, D.、Ortiz, JJG、Frankle, J.、Guttag, J. ニューラルネットワークの枝刈りはどのような状態ですか? （2020年）。 arXiv:2003.03033。

Han, S.、Mao, H. & Dally、WJ 深層圧縮: 枝刈り、トレーニングされた量子化、およびハフマンコーディングを使用した深層ニューラルネットワークの圧縮 (2016)。 arXiv:1510.00149。

Srinivas, S.、Subramanya, A.、Babu, RV のスパースニューラルネットワークのトレーニング。 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) 455–462 (2017)。

ホークス、B.ら。 Ps と qs: 効率的な低遅延ニューラルネットワーク推論のための量子化を意識した枝刈り。フロント。アーティフ。 Intell.https://doi.org/10.3389/frai.2021.676564 (2021)。

記事 PubMed PubMed Central Google Scholar

Sze、V.、Chen、Y.-H.、Yang、T.-J. & Emer, JS ディープニューラルネットワークの効率的な処理: チュートリアルと調査。手順 IEEE 105、2295 ～ 2329。 https://doi.org/10.1109/JPROC.2017.2761740 (2017)。

記事 Google Scholar

Liang, T.、Glossner, J.、Wang, L.、Shi, S. & Zhang, X. ディープニューラルネットワークの高速化のための枝刈りと量子化: 調査。ニューロコンピューティング 2101、09671 (2021)。

Google スカラー

藤澤晋ほかニューラルネットワークを使用した非線形障害補償のフォトニック実装に向けた重み枝刈り技術。 J. ライト Technol.https://doi.org/10.1109/JLT.2021.3117609 (2021)。

記事 Google Scholar

Li, M.、Zhang, W.、Chen, Q.、He, Z. 100 gbps 短距離光インターコネクト向けのプルーニングされたニューラルネットワークベースの非線形等化の高スループットハードウェア展開。オプション。レット。 46、4980–4983 (2021)。

記事 ADS Google Scholar

オリアリ、V. et al. 機械学習を使用した効率的なマルチステップ非線形性補償の再検討: 実験によるデモンストレーション。 J. ライトテクノロジー。 38、3114–3124 (2020)。

記事 ADS CAS Google Scholar

Koike-Akino, T.、Wang, Y.、Kojima, K.、Parsons, K. & 吉田, T. 確率的振幅整形による光ファイバー qam システム向けのゼロ乗数スパース dnn 等化。 2021 年欧州光通信会議 (ECOC)、1–4 (IEEE) (2021)。

フレイレ、PJ et al. コヒーレント光学システムにおけるニューラルネットワークベースのイコライザーの転移学習。 J. ライトテクノロジー。 39、6733–6745。 https://doi.org/10.1109/JLT.2021.3108006 (2021)。

記事 ADS Google Scholar

Pelikan, M.、Goldberg, DE、Cantú-Paz, E. 他 Boa: ベイジアン最適化アルゴリズム。遺伝進化計算会議 GECCO-99 の議事録、vol. 1、525–532 (Citeseer) (1999)。

アバディ、M.ら。 TensorFlow: 異種システム上の大規模機械学習 (2015)。ソフトウェアは tensorflow.org から入手できます。

Hoefler, T.、Alistarh, D.、Ben-Nun, T.、Dryden, N.、Peste, A. コヒーレント光学システムにおけるニューラルネットワークベースのイコライザーの転移学習。 J.マッハ。学ぶ。解像度 2102、00554 (2021)。

Google スカラー

Allen-Zhu, Z.、Li, Y.、Song, Z. 過剰パラメータ化による深層学習の収束理論。機械学習に関する国際会議、242–252 (PMLR) (2019)。

Neill, JO ニューラルネットワーク圧縮の概要。 arXiv:2006.03669 (2020)。

Neyshabur, B.、Li, Z.、Bhojanapalli, S.、LeCun, Y. & Srebro, N. ニューラルネットワークの一般化におけるオーバーパラメータ化の役割の理解に向けて。 arXiv:1805.12076 (arXiv プレプリント) (2018)。

Zhu, M. & Gupta, S. 枝刈りをするかしないか: モデル圧縮における枝刈りの有効性を探る。 arXiv:1710.01878 (arXiv プレプリント) (2017)。

ハディディ、R. 他商用エッジデバイス上のディープニューラルネットワークの展開を特徴づけます。 2019 年のワークロード特性評価に関する IEEE 国際シンポジウム (IISWC)、35–48 (IEEE) (2019)。

Yang, T.-J.、Chen, Y.-H.、Emer, J. & Sze, V. ディープニューラルネットワークのエネルギー消費を推定する方法。 2017 年、信号、システム、およびコンピューターに関する第 51 回アシロマ会議、1916 ～ 1920 年 (IEEE) (2017)。

Närhi, M. et al. 光ファイバーの変調不安定性における極端な現象の機械学習分析。ナット。共通。 9、4923。https://doi.org/10.1038/s41467-018-07355-y (2018)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Agrawal、G. 第 2 章 - ファイバー内のパルス伝播。 Nonlinear Fiber Optics (Fifth Edition)、Optics and Photonics (ed. Agrawal, G.) 27–56 (Academic Press、Bost***on、2013)。 https://doi.org/10.1016/B978-0-12-397023-7.00002-4。

Google Scholar の章

Freire, PJ、Prilepsky, JE、Osadchuk, Y.、Turitsyn, SK & Aref, V. コヒーレント光学システムにおける後等化に基づくニューラルネットワーク: 回帰と分類。 arXiv:2109.13843 (arXiv プレプリント) (2021)。

Kingma, DP & Ba, J. Adam: 確率的最適化の手法。 arXiv:1412.6980 (arXiv プレプリント) (2014)。

Eriksson, TA、Bülow, H. & Leven, A. 光通信システムへのニューラルネットワークの適用: 起こり得る落とし穴。 IEEEフォトン。テクノロジー。レット。 29、2091–2094 (2017)。

記事 ADS Google Scholar

フレイレ、PJ et al. コヒーレント光伝送用のニューラルネットワークベースのイコライザー: 注意点と落とし穴。 arXiv:2109.14942 (arXiv プレプリント) (2021)。

松本 M. & 西村 T. Mersenne ツイスター: 623 次元に等分布した一様擬似乱数生成器。 ACMトランス。モデル。計算します。サイマル。 8、3–30 (1998)。

記事 Google Scholar

Dong, X. & Zhou, L. 幾何化による過剰パラメータ化された深層ネットワークの理解。 arXiv:1902.03793 (2019)。

Bondarenko, A.、Borisov, A.、Alekseeva, L. 人工ニューラルネットワークにおけるニューロンと重み枝刈り。環境において。テクノロジー。リソース。国際科学実践会議議事録、vol. 3、22–28 (2015)。

Hu, H.、Peng, R.、Tai, Y. & Tang, C. ネットワークトリミング: 効率的なディープアーキテクチャに向けたデータ駆動型のニューロンプルーニングアプローチ。 arXiv:1607.03250CoRR (2016)。

Bartoldson, B.、Morcos, A.、Barbu, A. & Erlebacher, G. ニューラルネットワークの枝刈りにおける汎化と安定性のトレードオフ。上級ニューラル。情報プロセス。システム。 33、20852–20864 (2020)。

Google スカラー

Choukroun, Y.、Kravchik, E.、Yang, F. & Kisilev, P. 効率的な推論のためのニューラルネットワークの低ビット量子化。 arXiv:1902.06822 (2019)。

ヤン、Ｊ．ら。量子化ネットワーク。 arXiv:1911.09464 (2019)。

Wu, H.、Judd, P.、Zhang, X.、Isaev, M. & Micikevicius, P. 深層学習推論のための整数量子化: 原理と経験的評価。 arXiv:2004.09602 (arXiv プレプリント) (2020)。

ゴラミ、A.ら。効率的なニューラルネットワーク推論のための量子化手法の調査。 arXiv:2103.13630 (arXiv プレプリント) (2021)。

Hubara, I.、Nahshan, Y.、hanani, Y.、Banner, R. & Soudry, D. 小さなキャリブレーションセットによる正確なトレーニング後の量子化。機械学習に関する国際会議、4466–4475 (PMLR) (2021)。

デリマ、TF 他。ニューロモーフィックフォトニクスを使用した機械学習。 J. ライトテクノロジー。 37、1515–1534 (2019)。

記事 ADS Google Scholar

Baskin, C. et al. Uniq: ニューラルネットワークの不均一な量子化のための均一なノイズ注入。 ACMトランス。計算します。システム https://doi.org/10.1145/3444943 (2021)。

記事 Google Scholar

フレイレ、PJ et al. 光リンクにおける信号歪みを軽減するための複素数値ニューラルネットワーク設計。 J. ライトテクノロジー。 39、1696–1705。 https://doi.org/10.1109/JLT.2020.3042414 (2021)。

記事 ADS Google Scholar

Albawi, S.、Mohammed, TA、Al-Zawi, S. 畳み込みニューラルネットワークの理解。 2017 年国際工学技術会議 (ICET)、1-6 (Ieee) (2017)。

トラン、N.ら。 Ps と qs: 効率的な低遅延ニューラルネットワーク推論のための量子化を意識した枝刈り。フロント。アーティフ。知性。 4、94（2021）。

記事 Google Scholar

Valladares, S.、Toscano, M.、Tufiño, R.、Morillo, P.、Vallejo-Huanga, D. リアルタイム機械学習アプリケーションによる nvidia Jetson nano のパフォーマンス評価。インテリジェント・ヒューマン・システム統合に関する国際会議、343–349 (Springer) (2021)。

Tang, R.、Wang, W.、Tu, Z.、Lin, J. キーワードスポッティングのための畳み込みニューラルネットワークの消費電力の実験的分析。 2018 年の IEEE 音響、音声および信号処理に関する国際会議 (ICASSP)、5479–5483 (IEEE) (2018)。

Holly, S.、Wendt, A.、Lechner, M. nvidia Jetson nano でのディープニューラルネットワークのエネルギー消費のプロファイリング。 2020 年、第 11 回国際グリーンおよび持続可能なコンピューティングワークショップ (IGSC)、1–6 (IEEE) (2020)。

Kaup, F.、Gottschling, P. & Hausheer, D. Powerpi: ラズベリーパイの消費電力の測定とモデル化。第 39 回ローカルコンピュータネットワークに関する IEEE 年次会議、236–243 (IEEE) (2014)。

リファレンスをダウンロードする

SKT と MKK は、EPSRC プログラム Grant TRANSNET、EP/R035342/1 によって部分的にサポートされています。 PJF と DAR は、それぞれ EU Horizon 2020 Marie Skodowska-Curie Action プロジェクト No. 813144 (REAL-NET) と 860360 (POST-DIGITAL) からの支援に感謝します。 JEP と SKT は、レバーフルムトラストプロジェクト RPG-2018-063 のサポートを認めます。

アストン光技術研究所、アストン大学、バーミンガム、B4 7ET、英国

ディエゴ・アルゲッロ・ロン、ピーター・J・フレイレ、ヤロスワフ・E・プリレプスキー、モルテザ・カマリアン＝コパエ、セルゲイ・K・トゥリツィン

インフィネラ、セントマーチンズストリート 76 , 81541 , ミュンヘン , ドイツ

ピーター・J・フレイレ＆アンソニー・ナポリ

PubMed Google Scholar でこの著者を検索することもできます

DAR、PJF、および JEP がこの研究を発案しました。 DAR と PJF はニューラルネットワークモデルを提案しました。 DAR は数値シミュレーションを実行し、実験装置を設計し、実験結果を得ました。 PJF はデータを生成し、アーキテクチャの最適化を実行しました。 DAR と PJF は図と表を設計しました。 DAR、PJF、および JEP が MKK および SKT の支援を受けて原稿を執筆しました。著者全員が原稿をレビューしました。 DAR の作業は MKK および SKT によって監督されました PJF の作業は JEP、AN および SKT によって監督されました

Diego Arguello Ron または Sergei K. Turitsyn への通信。

著者らは競合する利害関係を宣言していません。

シュプリンガーネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープンアクセスこの記事はクリエイティブコモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブコモンズライセンスへのリンクを提供し、変更が加えられたかどうかを示します。この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブコモンズライセンスに含まれています。素材が記事のクリエイティブコモンズライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

ロン、DA、フレイレ、PJ、プリレプスキー、JE 他プルーニングと量子化を使用した、制限されたハードウェアでのニューラルネットワーク光チャネルイコライザーの実験的実装。 Sci Rep 12、8713 (2022)。 https://doi.org/10.1038/s41598-022-12563-0

引用をダウンロード

受信日: 2022 年 1 月 6 日

受理日: 2022 年 5 月 3 日

公開日: 2022 年 5 月 24 日

DOI: https://doi.org/10.1038/s41598-022-12563-0

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティガイドラインに従うことに同意したことになります。虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

ニュース

プルーニングと量子化を使用した、制限されたハードウェアでのニューラル ネットワーク光チャネル イコライザーの実験的実装

プルーニングと量子化を使用した、制限されたハードウェアでのニューラルネットワーク光チャネルイコライザーの実験的実装