画像認識– tax –

画像認識とは、写真・動画・スキャン画像などのデジタル画像から、物体・人物・文字・シーンなどの情報をコンピュータが自動的に識別・分類する人工知能技術です。畳み込みニューラルネットワーク(CNN)の発展により認識精度が飛躍的に向上し、近年はVision Transformer(ViT)など新たなアーキテクチャも台頭しています。

技術的には、画像分類(画像全体のカテゴリ判定)、物体検出(画像内の物体の位置と種類の特定)、セマンティックセグメンテーション(画素単位の領域分類)、顔認識、文字認識(OCR)など、目的に応じた複数の手法が体系化されています。製造ラインの外観検査・不良品検出、医療画像の診断支援(CT・MRI・X線の読影補助)、小売業の棚割分析・商品認識、防犯カメラの映像解析、自動運転における環境認識などが代表的な応用例です。

画像認識の実用化は、2012年のImageNetコンテストでCNN(AlexNet)が従来手法を大きく上回った出来事を転換点として加速しました。国内のソリューションでは、HACARUS Check、AdaInspector Cloud、Impulse、AMY InfraChecker、VisionPoseといった業務特化型の外観検査・姿勢推定システムや、Morpho、サイバーコアといった汎用画像認識SDKが代表例です。GPT-4VやGeminiなどマルチモーダルLLMの普及により、自然言語で画像を理解・質問応答する新しい利用形態も広がりつつあります。