コルモゴロフ・アーノルド・ネットワーク(2)
比較的単純な物体がすれ違う速度等の単純な物理法則を用いた入力データを生成し、データの一部でネットワークを訓練し、残りでKANのテストを行ったところ、KANのサイズを大きくすると、MLPのサイズを大きくするよりも速い速度で性能が向上することが分かった。偏微分方程式を解く場合は、KANはMLPの100倍の精度を示した。
また、トポロジカル・ノットのシグネチャーと呼ばれる1つの属性を、ノットの他の属性に基づいて予測するネットワークを訓練した。この結果、MLPは約30万個のパラメータを使って78%のテスト精度を達成したことに対し、KANは約200個のパラメータだけで81.6%のテスト精度を達成した。
さらに、KANを視覚的にマッピングし、活性化関数の形状や各接続の重要性を見たところ、手動または自動で弱い接続を削除し、いくつかの活性化関数を正弦関数や指数関数のような単純なものに置き換えることができた。そして、KAN全体を直感的な1行関数(すべての構成活性化関数を含む)にまとめることができ、場合によっては、データセットを作成した物理関数を完全に再構築することができたのである。
KANを画像処理によく使われる畳み込みニューラルネットワーク(CNN)と組み合わせ、手書きの数字や洋服を分類する能力について畳み込みKANをテストしたところ、従来のCNNの性能にほぼ匹敵するものだった。使用するパラメータはCNNだけに比べて約60%少なかった。KANの欠点のひとつは、GPUを活用できないことで、1パラメータあたりの学習に時間がかかることである。しかし、必要なパラメータは少ない。KANが画像や言語を処理するための巨大なCNNや変換器に取って代わることはないとしても、訓練時間は問題にならないだろう。
最近のコメント