HOME > ブログ > コラム > 画像認識に使われるアルゴリズムとは?機械学習・ディープラーニングにおける代表的なアルゴリズムの特徴や用途

2023年12月12日

  • コラム

画像認識に使われるアルゴリズムとは?機械学習・ディープラーニングにおける代表的なアルゴリズムの特徴や用途

画像認識に使われるアルゴリズムとは?機械学習・ディープラーニングにおけるアルゴリズムの特徴や用途

近年では、スマートフォンの顔認証や文字認識、車の自動運転や工場における不良品検出など、身近なところでも多く目にする画像認識の技術ですが、その技術を構成するアルゴリズムにはどのようなものがあるのでしょうか?

今回は、画像認識に欠かせない「アルゴリズム」についてそもそもの意味をまとめるとともに、機械学習とディープラーニング、それぞれで使われている代表的なアルゴリズムの種類について特徴や用途などを分かりやすく解説していきます。

そもそも画像認識とは?

画像認識とは、コンピューターや機械が画像に何が写っているのかを認識・分析する技術のことを指します。

この画像認識と呼ばれる技術は、画像や映像などの中から特定のパターンを認識する“パターン認識技術”の一種で、私たち人間の脳がモノを認識する際の仕組みに似ています。

例えば、私たちが猫の動画を見たとすると、その物体の外見の特徴や行動パターンなどと自身の過去の経験や知識と照らし合わせて、対象物を猫だと判断しますよね。そのような人間の脳が自然に行っている仕組みを、コンピューターや機械で再現したものが画像認識となります。

アルゴリズムとは?

「アルゴリズム」とは、ある問題を解決するための手順や計算方法を意味する言葉。もともとはコンピュータープログラミングで使われていた言葉で、大量のデータをどう計算してどう処理するかなどの具体的な処理方法や計算の手順などを示しています。

アルゴリズムは、AI(人工知能)で欠かせない機械学習やディープラーニング(深層学習)などにおいて重要な基盤ともなっており、用途や目的によって適切なアルゴリズムを選択・設計することで、分析や予測、パターン認識などのデータ処理を行うことができます。

【機械学習】画像認識のアルゴリズム例

【機械学習】画像認識のアルゴリズム例

では、実際に画像認識で使用されているアルゴリズムにはどのようなものがあるのでしょうか?ここからは、機械学習における代表的なアルゴリズムについて分かりやすくまとめていきます。

機械学習における代表的なアルゴリズム①:ディシジョンツリー

ディシジョンツリー(Decision Tree)とは、ある目標を達成するために「どのような選択肢があるか」を洗い出した上で、それぞれの選択肢を分析・評価し、「目標達成のために、どの選択肢が最も適しているか」を判断する分析手法です。

例えば、企業で新製品のマーケティングを行う場合、目的を達成するまでに、どのような手法があるか、どのタイミングで行うのか、予算配分はどうするのか…など、様々な意思決定をする必要があります。しかし、ビジネスを行う上で最も良い選択肢を選ぶのであれば、それらを主観や直感・感覚で決めるのではなく、それぞれの選択肢を選んだ場合にどうなるかを論理的に比較・検討した上で意思決定をする必要があります。

このような時に使われるのが、ディジョンツリーと呼ばれるアルゴリズムです。このディジョンツリーは、考え得る選択肢を樹形図と呼ばれる形で表すため、「決定木分析」とも呼ばれています。

機械学習における代表的なアルゴリズム②:ランダムフォレスト

ランダムフォレスト(random forest)とは、複数の異なるディジョンツリー(決定木)を集めたアルゴリズムのこと。複数の機械学習を組み合わせたアンサンブル学習のうち「バギング」と呼ばれるものの一種で、複数のディジョンツリーから平均値や多数決を取る手法となっています。

ディシジョンツリーと同様にマーケティング分野で活用されることも多く、小売店であれば店内の滞在時間や店員との会話時間などから優良顧客の行動を分析して平均値を取ることで、それらの特徴をもつ顧客を優先的に接客したり、Web上ならユーザーの行動履歴や属性から潜在顧客を予測して販促活動のターゲットとするなどが可能となっています。

機械学習における代表的なアルゴリズム③:ロジスティック回帰

ロジスティック回帰とは、対象物が2つのグループのうちどちらに属するのかを分類するアルゴリズムです。YESかNO、合格か不合格かなどを分類することから「二値分類」とも呼ばれており、対象物を分類するだけでなく、その分類に属する確率を求めたい時などに活用されます。

例えば、あるサイトを訪れたユーザーの滞在時間や回遊率などから「商品が購入されるかどうか」を分類して販売促進に活用したり、送信されたメールの内容やアドレスから「このメールがスパムかどうか」を分類してメールを仕分けたり、また、撮影した画像内に写っているのが「人かどうか」を分類して立ち入り禁止区域に不法侵入がないかを監視するなど、活用方法は多岐に渡ります。

機械学習における代表的なアルゴリズム④:サポートベクターマシン

サポートベクターマシン(Support Vector Machine(SVM))とは、機械学習におけるアルゴリズムの中でも有名なアルゴリズムの一つで、画像分類にも活用されています。

「サポートベクター」とは、「データを分割する直線に最も近いデータ」のことで、このサポートベクターマシンというアルゴリズムでは、「マージン最大化」や「カーネル法」と呼ばれる考え方を用いてデータ群に境界線を引き、対象がその境界線の内側に属するのか外側に属するのかを分類します。

主に対象を分類する際に使用されており、例えば、株価が前日よりも上昇するか下落するかなどの株価予測や、手書きの数字などを識別することで郵便物に書かれている郵便番号の認識などのほか、クレジットカードの不正や機器の異常を検知する際などに活用されています。


なお、機械学習の基礎知識については、こちらの「AIに欠かせない機械学習とは?機械学習の基礎知識やビジネスにおける活用例」で詳しく解説していますので、ぜひ併せてご覧ください。

【ディープラーニング】画像認識のアルゴリズム例

【ディープラーニング】画像認識のアルゴリズム例

ここまで機械学習における代表的なアルゴリズムについてまとめてきましたが、機械学習とともにAI(人工知能)に欠かせないディープラーニングにおける代表的なアルゴリズムには、どのようなものがあるのでしょうか?

ディープラーニングにおける代表的なアルゴリズム①:畳み込みニューラルネットワーク(CNN)

畳み込みニューラルネットワーク(Convolutional Neural Network / CNN)は、ニューロンと呼ばれる人間の脳の神経細胞を模した仕組みとなっているアルゴリズムで、主に画像認識技術で活用されています。

この畳み込みニューラルネットワークでは、多層にわたって局所的に画像の特徴を抽出し、それらを結合して組み合わせることにより、画像認識を行う仕組みとなっています。画像の一部が見えにくい場合でも解析することができるため、AIの画像認識においては重要なアルゴリズムとなっており、近年では、顔認証システムや自動運転、医療分野では画像診断などにも活用されています。

ディープラーニングにおける代表的なアルゴリズム②:リカレントニューラルネットワーク(RNN)

リカレントニューラルネットワーク(Recurrent Neural Network)は、時系列データを取り扱う際に活用されるアルゴリズムで、日本語では「回帰型ニューラルネットワーク」や「再帰型ニューラルネットワーク」とも呼ばれています。

分かりやすい時系列データの例を挙げると、売上高や株価、降水量などの推移がありますが、これらの過去データを利用して今後の推移を予測する際に、その精度を上げるためのアルゴリズムとなっています。

このリカレントニューラルネットワークは、売上高や株価の推移を予測する際に活用されるほか、音声認識や機械翻訳に欠かせない会話の時系列データを処理する際などにも使われています。

なお、前述の畳み込みニューラルネットワーク(CNN)やリカレントニューラルネットワーク(RNN)など、ニューラルネットワークの種類や特徴についてはこちらの「AI・機械学習・ディープラーニングの違いとは?AI導入するなら知っておきたい基礎知識」で分かりやすくまとめていますので、参考にご覧ください。

ディープラーニングにおける代表的なアルゴリズム③:オートエンコーダ

オートエンコーダ(Auto Encoder)と呼ばれるアルゴリズムは、ニューラルネットワークの1種で、日本語では「自己符号化器」と呼ばれています。

このオートエンコーダは、入力されたデータを圧縮して予測の手掛かりとなる特微量だけを残し、もう一度、元の次元に復元する仕組みとなっており、ニューラルネットワークの過学習や勾配消失を避けて処理精度を高めるために作られたアルゴリズムです。

入力層と出力層の差分を抽出することができるため、主に異常検知システムに活用されたり、画像のノイズを除去するなどの目的で活用されています。

ディープラーニングにおける代表的なアルゴリズム④:LSTM

LSTM(Long Short Term Memory / 長・短期記憶)とは、前述のリカレントニューラルネットワークを拡張したもので、時系列データを処理するために作られたアルゴリズムです。

もともとリカレントニューラルネットワークが持っていた“勾配消失”という課題を解消するために改良されたため、リカレントニューラルネットワークでは対応できなかった長い時系列データでも、LSTMなら学習することができます。

LSTMの応用分野としては自然言語処理、音声認識、時系列予測などがあり、具体的には機械翻訳や文章生成、株価予測のほか、太陽光発電の分野では画像に映った太陽と雲の動きから日射量を予測する際などに活用されています。

ディープラーニングにおける代表的なアルゴリズム⑤:敵対的生成ネットワーク(GAN)

GAN(Generative Adversarial Networks)とは、与えたデータを学習して新たな答えを導き出す「生成モデル」の1種。2つのニューラルネットワークを競わせて精度を高めていくため、「敵対的生成ネットワーク」とも呼ばれています。

GANでは、「生成器(generator)」と「識別器(discriminator)」と呼ばれる2つのネットワークで構成されており、正解データと生成器がノイズを入力して生成したデータを用意し、その2つのデータを識別器が正解かそうでないかを判定して学習していくアルゴリズムです。

GANを利用することで、実際には存在しないものや元データから抽出された特徴を使った新しいデータを生成したり、低解像度の画像を高解像度の画像に変換したりすることができるため、主に画像の生成や加工、復元などに活用されています。


なお、ディープラーニングを使ってできること・できないことについては、こちらの「ディープラーニングにできること・できないこととは?画像認識技術の活用例とともに解説」で詳しく解説していますので、併せてご覧ください。

画像認識技術を活用して自社の課題解決を実現

画像認識の技術には目的や用途によって様々なアルゴリズムが使われており、既に製造や交通、セキュリティや医療など分野では、それらの画像認識技術を活用したAIの導入が進んでいます。

「マーケティングを効率化させたい」
「工場の検品作業を自動化したい」
「オフィスや工場のセキュリティを強化したい」

…などでお悩みの場合、AIによる画像認識技術の導入が自社の課題解決への近道になるかもしれません。もし、コスト削減や作業効率化などでAI導入を検討されているのであれば、一度、私たちVieureka(ビューレカ)までお問い合わせください。

画像認識ならパナソニック発のVieurekaにご相談を!

パナソニックの研究開発部門から発足した私たちVieureka(ビューレカ)は、「世界の今をデータ化する新たな社会インフラを創造」をミッションに掲げ、開発・導入・運用などのハードルを下げるプラットフォームを提供しています。

高性能なCPUを内蔵したエッジデバイス「Vieurekaカメラ」の開発だけでなく、これまで取得できなかった情報をデータ化して活用する「Vieurekaプラットフォーム」などのサービスを提供しておりますので、お客様のご要望に沿った導入のご提案をさせていただきます。もし自社の課題における解決策で悩まれているなら、ぜひお気軽にお問い合わせください。