畳み込みニューラルネットワーク(CNN)とは何ですか?

Image credit:

この記事は、AIを取り巻く専門用語や神話を曖昧にする(しようとする)一連の投稿であるAIを解き明かす

1950年代、人工知能の初期の頃から、コンピュータ科学者は、視覚的なデータの意味を理解することができるコンピュータを構築しようとしてきました。, その後の数十年で、コンピュータビジョンとして知られるようになったフィールドは、漸進的な進歩を見た。 2012年、トロント大学の研究者グループが、最高の画像認識アルゴリズムを大きなマージンで上回るAIモデルを開発したとき、コンピュータビジョンは飛躍的に飛躍しました。

AiシステムはAlexNet(その主な作成者、Alex Krizhevskyにちなんで名付けられた)として知られるようになり、2012ImageNetコンピュータビジョンコンテストで驚くべき85パーセントの 準優勝はテストで74パーセントの控えめな得点を決めました。,

AlexNetの中心には、人間の視覚システムを大まかに模倣する特殊なタイプの人工ニューラルネットワークである畳み込みニューラルネットワーク(CNN)がありました。 近年、Cnnは多くのコンピュータビジョンアプリケーショ Cnnの歴史と仕組みについて知っておく必要があることは次のとおりです。

畳み込みニューラルネットワークの簡単な歴史

畳み込みニューラルネットワークは、畳み込みニューラルネットワークとも呼ばれ、1980年代にポスドクのコンピュータサイエンス研究者であるYann LeCunによって初めて導入された。, LeCunは、数年前に、neocognitron、非常に基本的な画像認識ニューラルネットワークを発明した日本の科学者、福島邦彦によって行われた作業に基づいて構築されていま

Cnnの初期バージョンはLeNet(LeCunの後)と呼ばれ、手書きの数字を認識することができました。 CNNsは、銀行と郵便サービスと銀行でニッチな市場を見つけました、そこで、彼らは封筒の郵便番号と小切手の数字を読みました。

しかし、彼らの創意工夫にもかかわらず、ConvNetsは深刻な問題に直面していたため、コンピュータビジョンと人工知能の傍観者にとどまりました。, Cnnは、大きな画像で効率的に動作するために多くのデータと計算リソースを必要としました。 当時、この技術は低解像度の画像にのみ適用できました。

2012年、AlexNetはおそらく、多層ニューラルネットワークを使用するAIの枝である深層学習を再訪する時が来たことを示しました。 大規模なデータセット、すなわち数百万のラベル付き画像を含むImageNetデータセット、および広大な計算リソースの可用性により、研究者は以前は不可能だったコ

Cnnはどのように機能しますか?,

畳み込みニューラルネットワークは、人工ニューロンの複数の層で構成されています。 人工ニューロン、それらの生物学的対応の大まかな模倣は、複数の入力の重み付け和を計算し、活性化値を出力する数学的関数です。

人工ニューラルネットワークの基本的なコンポーネントである人工ニューロンの構造(出典:Wikipedia)

各ニューロンの動作は、その重みによって定義されます。, ピクセル値を与えると、CNNの人工ニューロンは様々な視覚的特徴を選び出します。

画像をConvNetに入力すると、その各レイヤーはいくつかのアクティベーションマップを生成します。 活性化マップは、画像の関連する特徴を強調表示します。 各ニューロンは、入力としてピクセルのパッチを取り、その色の値にその重みを乗算し、それらを合計し、活性化関数を介してそれらを実行します。CNNの最初の(または下の)層は、通常、水平、垂直、および対角エッジなどの基本的な特徴を検出します。, 最初のレイヤーの出力は次のレイヤーの入力として供給され、コーナーやエッジの組み合わせなど、より複雑なフィーチャが抽出されます。 たたみ込みニューラルネットワークの奥深くに移動すると、レイヤーはオブジェクト、顔などのより高いレベルのフィーチャを検出し始めます。

ニューラルネットワークの各レイヤーは、入力画像から特定の特徴を抽出します。,

ピクセル値に重みを掛けて合計する操作は、”畳み込み”と呼ばれます(したがって、畳み込みニューラルネットワークと呼ばれます)。 CNNは通常、いくつかの畳み込み層で構成されますが、他の成分も含まれています。 CNNの最終層は分類層であり、最終たたみ込み層の出力を入力として受け取ります(上位のたたみ込み層は複雑なオブジェクトを検出します)。,

最終たたみ込み層の活性化マップに基づいて、分類層は、画像が”クラス”に属する可能性を指定する一連の信頼スコア(0と1の間の値)を出力します。”たとえば、猫、犬、馬を検出するConvNetがある場合、最終レイヤーの出力は、入力画像にそれらの動物のいずれかが含まれている可能性があります。,

CNNの最上層は、畳み込みレイヤーによって抽出された特徴に基づいて画像のクラスを決定します(出典:http://www.deeplearningbook.org)

畳み込みニューラルをトレーニングnetwork

cnnを開発する上での大きな課題の一つは、個々のニューロンの重みを調整して画像から適切な特徴を抽出することです。 これらの重みを調整す

最初に、CNNはランダムな重みで始まります。, トレーニング中に、開発者は、対応するクラス(猫、犬、馬など)で注釈を付けた画像の大きなデータセットをニューラルネットワークに提供します。). ConvNetは、各イメージをランダムな値で処理し、その出力をイメージの正しいラベルと比較します。 ネットワークの出力がラベルと一致しない場合(トレーニングプロセスの開始時にそうである可能性があります)、次に同じ画像を見たときに出力が正しい答えに少し近づくように、ニューロンの重みを小さく調整します。,

修正は、逆伝播(またはbackprop)と呼ばれる技術によって行われます。 基本的に、逆伝播は調整プロセスを最適化し、ネットワークがランダムな修正を行う代わりにどの単位を調整するかを決定しやすくします。

トレーニングデータセット全体のすべての実行は、”エポック”と呼ばれます。”ConvNetは、トレーニング中にいくつかのエポックを通過し、少量でその重みを調整します。 各エポックの後、ニューラルネットワークはトレーニング画像の分類で少し良くなります。, CNNが改善されるにつれて、重みに対する調整はますます小さくなります。 ある時点で、ネットワークは”収束”し、本質的にできるだけ良くなることを意味します。

CNNをトレーニングした後、開発者はテストデータセットを使用してその精度を検証します。 テストデータセットは、トレーニングプロセスの一部ではないラベル付き画像のセットです。 各イメージはConvNetを介して実行され、出力はイメージの実際のラベルと比較されます。 基本的には、試験データセットの評価の神経ネットワークとなってい分類の画像では見られない。,

CNNの学習データでは良いスコアが得られ、テストデータでは悪いスコアが得られた場合、それは”オーバーフィットされていると言われています。”これは通常、トレーニングデータに十分な多様性がない場合や、トレーニングデータセットのエポック数が多すぎる場合に発生します。

畳み込みニューラルネットワークの成功は、過去十年間に開発された巨大な画像データセットの可用性によるものです。 この記事の冒頭で言及されたコンテストであるImageNetは、14万点以上のラベル付き画像を持つ同名のデータセットからそのタイトルを得ました。, このようなMNIST、手書きの数字の70,000画像のデータベースなど、他のより特殊なデータセットがあります。

ただし、何百万もの画像ですべての畳み込みニューラルネットワークを訓練する必要はありません。 多くの場合、AlexNetやMicrosoftのResNetなどの事前訓練されたモデルを使用し、別のより特殊なアプリケーションのためにそれを微調整することができます。 このプロセスは伝達学習と呼ばれ、訓練されたニューラルネットワークは新しい例のより小さなセットを再訓練されます。,

畳み込みニューラルネットワークの限界

そのパワーと複雑さにもかかわらず、畳み込みニューラルネットワークは、本質的に、パターン認識機械です。 彼らは、人間の目に見えないかもしれない小さな目立たない視覚的パターンをフェレットするために大規模な計算リソースを活用することができま しかし、それは画像の内容の意味を理解することになると、彼らは不十分なパフォーマンス。

次のイメージを考えてみましょう。 よく訓練されたConvNetは、それが兵士、子供、そしてアメリカの旗のイメージであることを教えてくれます。, しかし、人はシーンの長い説明を与えることができ、兵役、外国でのツアー、家への憧れの気持ち、家族との再会の喜びなどについて話すことができます。 人工ニューラルネットワークにはこれらの概念はない。

Image credit:

これらの限界は、畳み込みニューラルネットワークの実用的なアプリケーションでより明らかになります。 例えば、CNNsは、現在広く使われている緩やかなコンテンツのソーシャルメディアネットワーク。, にもかかわらず、広大なリポジトリの画像や動画をいた、苦労の検出とブロックの不適切な内容です。 あるケースでは、Facebookのcontent-moderation AIは30,000歳の像の写真をヌードとして禁止しました。

また、ニューラルネットワークは文脈から少し外れるとすぐに壊れ始めます。 いくつかの研究では、ImageNetやその他の一般的なデータセットで訓練されたCnnは、異なる照明条件下や新しい角度からオブジェクトを見るときにオブジェ,

MIT-IBM Watson AI Labの研究者による最近の研究では、これらの欠点が強調されています。 また、実際の生活の中でオブジェクトがどのように見られるかの異なるニュアンスをよりよく表すデータセット CNNsは常に変化していくもののメンタルモデルと人間について異物とその能力を想像それらのオブジェクトの中には、それまでに見たことがないコンテキストを共有します。

ImageNet vs reality:ImageNet(左の列)では、オブジェクトは理想的な背景と照明条件で、きれいに配置されています。, 現実の世界では、物事はメシエです(出典:objectnet。dev)

畳み込みニューラルネットワークのもう一つの問題は、異なるオブジェクト間の関係を理解できないことです。 その発明者、ロシアのコンピュータ科学者Mikhail Moiseevich Bongardにちなんで命名された”Bongard問題”として知られている次のイメージを考えてみましょう。 ボンガードの問題は、画像の二つのセット(左に六つと右に六つ)を提示し、あなたは二つのセットの間の主な違いを説明する必要があります。, 例えば、下の例では、画像左側のセットが複数のオブジェクトと画像に右セットを含む二つのオブジェクト。

人間がそのような少量のサンプルからそのような結論を引き出すのは簡単です。 私はあなたにこれら二つのセットを表示し、新しいイメージを提供する場合は、すぐにそれが左または右のセットに入るべきかどうかを決定すること

ボンガードの問題は、人間が解決するのは簡単ですが、コンピュータビジョンシステムにとっては難しい問題です。, (出典:Harry Foundalis)

しかし、いくつかのトレーニング例でBongardの問題を解決できる畳み込みニューラルネットワークはまだありません。 2016年に実施されたある研究では、AIの研究者は20,000BongardサンプルでCNNを訓練し、10,000以上でテストしました。 CNNのパフォーマンスは、平均的な人間のそれよりもはるかに低かった。

ConvNetsの特異性は、人間の目には気づかれないが、ニューラルネットワークの動作に影響を与える入力データの摂動である敵対的攻撃に対しても脆弱です。, ディープラーニング、特にCnnは、自動運転車などの多くの重要なアプリケーションの不可欠な要素となっているため、敵対攻撃が懸念の主な原因となっています。

敵の例:このパンダ画像に知覚できないノイズ層を追加すると、畳み込みニューラルネットワークがテナガザルと間違えます。

これはCnnが役に立たないことを意味しますか?, たたみ込みニューラルネットワークの限界にもかかわらず、しかし、彼らは人工知能に革命を引き起こしたことを否定するものではありません。 今日、Cnnは、顔認識、画像検索および編集、拡張現実感などの多くのコンピュータビジョンアプリケーションで使用されています。 医用画像処理などの一部の分野では、十分に訓練されたConvNetsは、関連するパターンを検出する際に人間の専門家よりも優れている可能性があります。,

畳み込みニューラルネットワークの進歩が示すように、私たちの成果は顕著で有用ですが、人間の知性の重要なコンポーネントを複製することはまだ

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です