HOME > ブログ > コラム > AIによる画像認識の仕組みとは?基本的な知識から活用事例まで解説

2023年12月8日

  • コラム

AIによる画像認識の仕組みとは?基本的な知識から活用事例まで解説

AIによる画像認識の仕組みとは?基本的な知識から活用事例まで解説

自動運転システムや顔認証システムなど様々なシーンで導入が進んでいる画像認識。最近では、スマートフォンのロック解除や、手書きの文字をデータ化してくれる文字認識など、ビジネスシーンだけでなく、とても身近な存在となっています。

このように私たちの暮らしを便利にしてくれる「画像認識」とは、一体どのような仕組みや技術で成り立っているのでしょうか。

そこで今回は画像認識の仕組みについて、基本的な知識から具体的な手法、実際の活用事例についてご紹介します。

AIによる画像認識とは?

AIによる画像認識とは?

画像認識とは、画像の中に何が写っているのかをAI(人工知能)が認識する技術のことです。この技術はパターン認識技術の一種で、パターン認識技術とは、画像や映像などのデータの中から、特定のパターンを認識する技術全般を指します。

パターン認識は、実は私たち人間が情報を整理するために自然と行っている一連の行動で、例えばある写真に猫が写っていれば、過去の経験から同じ特徴を持つオブジェクトを思い出し、その対象物が猫だと判断する行動そのものだと説明できます。

ただし、コンピューターは人間と違って過去の経験がないため、私たちが人生の中で経験を積み重ねて知識を得ているのと同じように、事前にオブジェクトの知識をAIに学習させる必要があります。

このように与えられた情報をもとにコンピューター自身が学習していく仕組みを「機械学習」といい、近年では、与えられた情報からコンピューター自身がオブジェクトの特徴を学習する「深層学習(ディープラーニング)」という技術も発展。これらの画像認識技術は、現在幅広い分野で活用・応用が進んでいます。

画像認識の仕組み(機械学習/深層学習)

私たちがスマートフォンなどで見るデジタル画像は、ピクセルと呼ばれる点の集合体です。

画像認識は、このピクセルデータに演算処理を通してパターンの特徴を算出し、これまで学習した膨大な量のデータから特徴を比較して識別することで、その画像に何が写っているのかを認識するという仕組みになっています。

ここでは、機械学習を用いた画像認識の仕組みと、深層学習(ディープラーニング)を用いた画像認識の仕組みについて見ていきましょう。

機械学習を用いた画像認識の仕組み

画像認識における機械学習とは、大量の画像データを読み込ませて、アルゴリズム(プログラム上の手法)に基づいて画像に写っているオブジェクトを分析する仕組みのことです。

この機械学習には、主に「教師あり学習」「教師なし学習」「強化学習」の3つの手法があり、またアルゴリズムによってそれぞれ得意不得意があります。

機械学習を用いた画像認識は、人の目では気づくことのできない小さなキズや、微妙な形状の違いも検知することができるため、例えば製品の外観検査や検品作業などに活用されています。

なお、機械学習については「AIに欠かせない機械学習とは?機械学習の基礎知識やビジネスにおける活用例」で詳しく解説していますので、併せてご覧ください。

深層学習(ディープラーニング)を用いた画像認識の仕組み

深層学習(ディープラーニング)は機械学習の学習方法の一つで、与えられた画像データからどのような特徴を抽出すべきかというところからコンピューター自身で判断する技術となっています。

この深層学習を用いた画像認識には、人間の神経回路の構造を真似して作られた数理モデル「ニューラルネットワーク(Neural Network)」という仕組みが使用されていて、特徴量の抽出能力が高いという特徴を持ちます。

深層学習を用いた画像認識では、複雑な情報が処理できるため、例えば数千人規模の群衆から正確な人数を把握したり、医療分野では肉眼で見落としがちな所見を拾い上げたりといったことに活用されています。

違いがわかりにくい「AI・機械学習・深層学習」の各特徴については
AI・機械学習・ディープラーニングの違いとは?AI導入するなら知っておきたい基礎知識」で解説していますので、ぜひ参考にしてみてください。

画像認識の代表的な5つの手法

画像認識の代表的な5つの手法

次に、画像認識の手法として代表的なものを5つご紹介していきます。

画像認識の手法①:物体認識

物体認識とは、画像の中に含まれているものを認識して判断する技術です。例えば写真の中に「人」と「車」が写っていた場合、「どれが人で、どれが車なのか」を認識する技術となります。

画像認識の手法②:物体検出(物体検知)

物体検出(物体検知)とは、画像の中に写っているオブジェクトの位置や種類、個数などを検出・検知する技術です。対象物の位置を絞り込んだり、特定の物体のみをカウントすることも可能です。

なお物体検出では、対象物はバウンディングボックスという部分領域で示されます。

画像認識の手法③:セグメンテーション

セグメンテーションとは、画像の中に写っているオブジェクトを識別し、ピクセル単位でラベリングする技術です。物体検出に比べてより精密に領域を分割することができますが、アノテーション(一つひとつのデータにタグやメタデータと呼ばれる情報を付与する工程)に時間がかかり、また難易度が高い技術となっています。

なお、セグメンテーションではオブジェクトを形に沿って塗り分けます。

画像認識の手法④:文字認識

文字認識とは、文字や数字を認識する技術です。印刷されたテキストだけでなく、ノートや黒板などに書いた手書きのテキストも識別することが可能です。

また認識するだけでなく、読み取ったテキストをデータ化したり、さらにそのデータ化したテキストを別の言語に翻訳する機能を持つシステムもあります。

画像認識の手法⑤:画像キャプション生成

画像キャプション生成とは、簡単に言うと画像の情報をテキスト化する技術のことです。仕組みとしては、画像認識に自動言語処理の技術が組み合わさったものになります。

例えば、下記の画像を画像キャプション生成機能にかけると『頭を合わせてソファに座っている2匹の子猫』という具合に文章が作成・出力されます。

頭を合わせてソファに座っている2匹の子猫
頭を合わせてソファに座っている2匹の子猫

画像認識の仕組みが抱える問題点

人材不足の解消やコストの削減など、ビジネス分野で多くのメリットが期待できる画像認識ですが、その仕組みには問題点も存在します。

例えば、先ほどもお伝えした通り、機械学習や深層学習(ディープラーニング)の仕組みを使った画像認識では、はじめに膨大な画像データを用意する必要があります。近年では学習用の画像データセットなども販売されていますが、独自の商品を認識させるには、自社内でその膨大な量のデータを集めなければなりませんし、個体差がある商品の場合、データ収集はとても大きな壁となります。

また、画像認識の精度が向上しているとは言え、誤認識するケースも報告されています。さらに、現在の画像認識の仕組みでは、なぜAIがそのように判断したのかの根拠がわからず(これを「ブラックボックス問題」といいます)、信頼性に欠けるという点で導入を躊躇される企業も少なくありません。

加えて、AIカメラを導入する上で避けられないのが情報セキュリティやプライバシー保護の問題です。例えば、店舗マーケティングの一環で店舗入り口や店内にAIカメラを設置し、万が一その情報が外部に流出した場合、肖像権などの侵害にあたる恐れがあります。店舗などの不特定多数の人物を写す場面で導入する際は、情報セキュリティやプライバシーについても配慮するべきだと言えるでしょう。

私たちビューレカのAIカメラは、このような情報セキュリティ問題を解決するために、AIカメラ内で画像解析し、画像はAIカメラ内で破棄されるようになっています。例えば下記の画像はある店舗での動線データですが、人物は残さずに来店客の動きを記録することができます。

ある店舗の動線データの事例

関連記事:「[データ活用術] 店舗における人流モニタリング機能の活用事例

画像認識の仕組みを活かした活用方法

AIによる画像認識の仕組みは、どのようなシーンで活用されているのでしょうか。次に、画像認識の活用方法についてご紹介していきます。

検品作業・外観検査

AIカメラによる画像認識システムを導入することで、製造工場や物流倉庫などで出荷時に行う検品作業・検針作業・外観検査といった作業が自動化できます。

商品として出荷できないような外観や、商品として出荷できる正しい外観を学習させておくことで、人の目で検品・検査するよりも高い精度でこれらの作業を行うことが可能になります。

顔認識(顔認証)

顔認識(顔認証)とは、人の顔を識別するシステムです。事前に顔データを登録してAIに目・鼻・口といった顔パーツの特徴点を検出させ、それらのデータから個々人を識別する仕組みとなっています。例えば、オフィスや工場での入退室管理、イベントや施設でのなりすまし防止、スマートフォンやパソコンのロック解除などに活用されています。

近年では表情から感情を認識する技術も登場し、表情トレーニングや介護などの分野で普及が進んでいます。

顔認識(顔認証)ー画像認識の仕組みを活かした活用方法

自動運転システム

自動車や配膳ロボットなどの自動運転システムにも画像認識が活用されています。

例えば自動車の自動運転システムは、AIカメラが歩行者や車、車線、標識などを画像認識システムによって検知し、その情報を元にスピードや進路などの判断を下すという仕組みになっています。

文字読み上げ機能

文字の読み上げ機能にも画像認識の仕組みが採用されています。

文字を読み上げる機能に画像キャプション生成機能を組み合わせることで、目の見えない人でもテキスト内に差し込まれているイラスト・図解・写真といった画像データを知ることができ、また手書きの文字やイラストを画像認識機能が搭載されたAIカメラで撮影することで、その内容を知ることが可能になります。

介護施設での転倒検知

転倒検知システムとは、AIカメラが人の転倒を検知して、その情報を介護施設や医療現場のスタッフに通知するものです。また人がお風呂やプールなどで溺れそうになる行動を検知して、先読みする画像認識システムも登場しています。

事故や災害が発生した際に発見までの時間が短縮できる他、人手不足や業務の負担軽減にも貢献するとして注目されている技術の一つです。

農業で収穫時期の自動検知

画像認識の仕組みは、農業の分野でも活躍しています。

農業も他の分野と違わず慢性的な人手不足が問題となっており、また高齢化に伴う労働力の脆弱化も加速しています。作物の最適な収穫時期を自動検知するシステムは、このような農業が持つ課題を解決し、さらに品質の維持やブランドの向上に貢献するとして、高い期待が寄せられています。

店舗での万引き検知

画像認識は、店舗マーケティングだけでなく、万引き検知にも活用することができます。

事前に特定の行動を学習させておき、それらの動きを検知した際に、対象者・検知した時間・検知する前後の動きを専用のアプリに通知するという仕組みになっています。

パンの自動認識システム

最近話題となっているのが、パンの自動認識システムです。

経験の浅いスタッフや、外国人スタッフでもレジ打ちができるようにと開発されたもので、お会計時に指定の場所にトレーを置くだけで、自動でパンの種類や個数を検知し、値段を計算してくれるという仕組みになっています。

接客品質が維持されるだけでなく、新人スタッフを教育する時間も削減できるとして、パン屋さんや道の駅などで導入が進んでいます。

画像認識の仕組みを活かした活用事例

設置例
設置例
パナソニック社製「Vieureka(ビューレカ)」
パナソニック社製「Vieureka(ビューレカ)」

最後に、画像認識の仕組みを活用した事例について、私たちビューレカが携わったソリューション「密 ミツシル」をご紹介します。

「密 ミツシル」とは、現場のニッチな課題をIoTとDXで解決するビーコア株式会社(東京都千代田区、代表取締役:水野廉郎)が提供するサービスで、ビューレカのAIカメラで施設の混雑度を5段階で感知し、各施設の専用サイトで混雑度をビジュアル化。施設利用者はご自身のスマートフォンや端末のブラウザで現在の混雑度を簡単に知ることができます。

「密 ミツシル」を利用することで、利用者は混雑した時間帯を避ける行動をとることができ、より安心して施設を利用することが可能となりました。画像データは保存しないので、利用者のプライバシーを心配することなく導入いただけます。

関連記事:「混雑情報をリアルタイムに可視化・密集度モニターシステム「密 ミツシル」を提供

AIの画像認識の仕組みを活かしたサービス

今回は、画像認識の仕組みや手法、活用事例についてご紹介しました。

人手不足による働き手の負担増加や、そのような中でも高い品質での商品及びサービスの提供が求められる現代において、AIを使った画像認識は重要な役割を果たすと考えています。

導入時にコストがかかる点や、実用化に向けて準備期間が必要な点、導入・運用に専門的な知識が必要な点など、様々な課題もありますが、多くの企業では私たちのような専門家を伴走者としてつけ、パートナー共創によってIoTサービスを実現しています。

「導入したいけどどうすれば良いかわからない」とお悩みの方は、まずはお気軽にご相談ください。

AIカメラの導入ならパナソニック発のVieurekaにご相談を!

パナソニックの研究開発部門から発足した私たちVieureka(ビューレカ)は、「世界の今をデータ化する新たな社会インフラを創造」をミッションに掲げ、開発・導入・運用などのハードルを下げるプラットフォームを提供しています。

高性能なCPUを内蔵したエッジデバイス「Vieurekaカメラ」をはじめ、これまで取得できなかった情報をデータ化して活用する「Vieurekaプラットフォーム」や顧客行動や商品の陳列状況をデータ化する「来客分析サービス」など、お客様のご要望に沿った導入のご提案をさせていただきます。