ページの本文へ

Hitachi
お問い合わせお問い合わせ

安全・安心な社会の構築に貢献するAI技術を用いた映像解析ソリューション

執筆者

沖田 英樹Okita Hideki

  • 日立製作所 研究開発グループ 東京社会イノベーション協創センタ 価値創出プロジェクト 所属

村上 智一Murakami Tomokazu

  • 日立製作所 研究開発グループ 人工知能イノベーションセンタ 知能ビジョン研究部 所属

大久保 達也Okubo Tatsuya

  • 日立製作所 社会ビジネスユニット 公共システム事業部 パブリックセーフティ第二部 所属

垂井 俊明Tarui Toshiaki

  • 日立製作所 研究開発グループ 人工知能イノベーションセンタ 知能ビジョン研究部 所属

福田 安宏Fukuda Yasuhiro

  • 日立製作所 社会ビジネスユニット 公共システム事業部 パブリックセーフティ第二部 所属

執筆者の詳細を見る

沖田 英樹Okita Hideki

沖田 英樹 / Okita Hideki
  • 日立製作所 研究開発グループ 東京社会イノベーション協創センタ 価値創出プロジェクト 所属
  • 現在,デジタルスマートシティソリューションの研究開発に従事
  • 電子情報通信学会シニア会員
  • IEEE会員

村上 智一Murakami Tomokazu

村上 智一 / Murakami Tomokazu
  • 日立製作所 研究開発グループ 人工知能イノベーションセンタ 知能ビジョン研究部 所属
  • 現在,画像認識・処理技術の研究開発に従事
  • 博士(情報理工学)
  • 電子情報通信学会会員
  • 映像情報メディア学会会員
  • 日本バーチャルリアリティ学会会員

大久保 達也Okubo Tatsuya

大久保 達也 / Okubo Tatsuya
  • 日立製作所 社会ビジネスユニット 公共システム事業部 パブリックセーフティ第二部 所属
  • 現在,パブリックセーフティ向けソリューション事業推進に従事

垂井 俊明Tarui Toshiaki

垂井 俊明 / Tarui Toshiaki
  • 日立製作所 研究開発グループ 人工知能イノベーションセンタ 知能ビジョン研究部 所属
  • 現在,株式会社日立産業制御ソリューションズに出向し,映像解析技術の実用・製品化に従事

福田 安宏Fukuda Yasuhiro

福田 安宏 / Fukuda Yasuhiro
  • 日立製作所 社会ビジネスユニット 公共システム事業部 パブリックセーフティ第二部 所属
  • 現在,映像解析技術の製品化に従事
  • 技術士(情報工学)

ハイライト

テロなどの犯罪行為に対して捜査手段や抑止力として監視カメラが世界中で活用されている。しかし,監視カメラは人間が映像を目視で確認できる限界をはるかに超えて設置台数が増加しているため,映像解析技術による有効活用や効率化が求められている。

日立は顧客との協創活動で,映像解析技術を検証して得られた成果を,顧客にとってより使いやすい製品として提供している。本稿では,空港など人々が密集する重要インフラを運営する顧客との協創活動,最新のITと映像解析研究成果を積極的に取り入れた付加価値づくりの取り組み,製品の概要および今後の展望を紹介する。

1. はじめに

米国国務省の研究によれば,テロ攻撃において最も頻繁に使用される攻撃手段は爆発物であり,全体の54%を占める1)。そのため空港の警備部門は,ターミナル内に放置されている荷物などを発見した場合,それが空港利用者をターゲットとしたテロ攻撃のための爆発物である可能性を考慮して対処する。そして,規定時間以内に安全を確認できない場合,利用客の安全を確保するために,多大な運用コストをかけて空港ターミナルから利用客を退避させて空港ターミナルを閉鎖する必要がある2)

このような空港ターミナルの閉鎖はフライトの遅延やキャンセルにつながり,顧客満足度を大きく低下させる。さらに,リテール事業などによる空港の非航空系収入の機会損失を招く。そのため空港保安では,安全を確保しつつ空港ターミナルの閉鎖時間を短縮することが求められる。そこで空港では,近年の映像解析技術の発展を受け,監視カメラの映像を解析して放置荷物を自動検知させるシステムの導入がたびたび検討された。

しかし,多くの場合は旅客が荷物を置き忘れてその場を離れたものである。そのため,システムが放置荷物を自動検知しても,警備部門は荷物の所有者を発見できるまでは爆発物の可能性があるものとして放置荷物を取り扱わなければならず,空港ターミナルの閉鎖時間を十分には短縮できないという課題があった。

そこで日立は,多数の画像の中から指定画像に類似した画像を高速に検索できる類似画像検索技術を活用し,放置荷物の所有者の足取りをリアルタイムに追跡できる映像解析活用放置荷物ソリューションを開発した。そして,空港の実際の警備業務における検証を通して,警備担当者のエクスペリエンスの観点からシステムを改善することで,警備担当者は放置荷物の所有者を早期に捕捉して放置荷物に対処するよう指示することが可能となった。

このように,映像解析技術を活用して現場データからセキュリティインシデントを認識するだけでなく,警備部門の意思決定を現場での行動につなげることで,従来空港保安業務において課題であった放置荷物が発生した場合に空港ターミナル閉鎖の発生に至る場合を減らすとともに,閉鎖に至った場合の閉鎖時間を短縮できる見通しを得た(図1参照)。

図1|セキュリティインシデントの認識から警備部門の行動へのつながりの自動化 図1|セキュリティインシデントの認識から警備部門の行動へのつながりの自動化 状況認識から意思決定,行動の流れを自動化することで,放置荷物が発生した場合の空港ターミナルの閉鎖を減らすとともに,閉鎖に至った場合の閉鎖時間を短縮する。

2. 顧客ニーズに合わせた映像解析技術の開発

前章で紹介したように,空港では,不審物が発見されて持ち主が見つからないとき,ターミナルの一部を封鎖しなければならない場合がある。このような事態を避けるため,日立は置き去り物検知と人物追跡技術を組み合わせた,荷物放置者の捜索を支援するソリューションを開発した。

また,イベントなどではセキュリティチェックを実施しつつも,見た目や利便性の観点から通過後のエリアを高い塀で仕切ることができず,外部の人物が塀や柵越しに内部に物品を渡してしまう場合がある。こうした状況を防ぐためには,監視カメラによって受け渡し行為を検知し,その人物を追跡するといった対策が必要になる。

さらに,より強固な安全性を求める観点では,人物を追跡するだけでなく,大型の荷物がどのように持ち込まれ移動したかという荷物の追跡が要求される場合もある。これらに対して日立は,荷物の外見特徴を利用した映像解析による荷物追跡技術を開発している。

このように,駅や空港,商業施設などの公共空間のセキュリティでは,最終的に行為主体を着実に追跡できる人物追跡技術がキーとなるが,個別の顧客ニーズを満たすためには,不審行為を発見する検知技術や,物品を追跡する技術などとの組み合わせが重要である。

以下では,姿勢推定による行動認識技術と大型荷物の追跡技術について説明する。

2.1 姿勢推定による行動認識技術

図2|物品の受け渡し行為の検知 図2|物品の受け渡し行為の検知 監視カメラ映像から人物の姿勢を判別し,受け渡し行為の発生を検知する。

姿勢推定による行動認識技術は,カメラ映像から人物の姿勢を推定し,関節位置などのパターンを用いて特定行動の有無を判別するものである。例えば,顧客保護の用途に向け,人物の転倒やしゃがみ込みを検知したり,保安用途に向け,柵の乗り越えや柵をまたいだ物品の受け渡しを検知したりすることができる。

ここでは例として物品の受け渡し行為の検知を挙げる。本手法では,監視カメラ映像から映っている人物の手,足など主要なキーポイント位置を検出し,柵をまたぐ位置にいる2名の人物の部位間距離特徴量を算出する。この特徴量を事前に機械学習で作成したモデルにより分類することで受け渡しの有無を判別する。設置現場で追加学習を行う必要がなく,背景変化に頑健な検知が可能であることが特徴である(図2参照)。

2.2 大型荷物の追跡技術

図3|大型荷物の検知と追跡 図3|大型荷物の検知と追跡 特定の探したい荷物画像を指定することにより,複数の監視カメラ間で同一の荷物を追跡することが可能となる。

大型荷物の追跡技術は,複数の監視カメラ間で同一の荷物を検索し同定する技術である。本手法では,まず事前に大量の荷物画像により学習した検知モデルを用いて画像中からスーツケースやボストンバッグなどの荷物を検知する。続いて,検知された荷物画像から,同様に事前に学習した荷物特徴量抽出モデルにより特徴量を算出して,映像,位置情報と共にデータベースに格納する。これにより,特定の探したい荷物画像を指定したとき,撮影されたすべての荷物の特徴量どうしを比較・検索することにより,同一の荷物の位置を追跡することができる。

向きの変化に頑健な特徴量を事前学習することにより,指定した画像と異なる向きに置かれた荷物も発見・追跡することが可能となっている(図3参照)。

3. 高速人物発見・追跡ソリューションおよびアドオン機能の特長

ここでは,映像解析技術を応用した製品である高速人物発見・追跡ソリューションおよびアドオン機能(以下,「本製品」と記す。)の製品特長と活用事例について紹介する。

3.1 高速人物発見・追跡ソリューションおよびアドオン機能の特長

図4|高速人物発見・追跡ソリューションおよびアドオン機能の概要 図4|高速人物発見・追跡ソリューションおよびアドオン機能の概要 高速人物発見・追跡ソリューションにマルチクエリ人物追跡拡張インタフェースをアドオンすることで,さまざまな外部システムから受信したアラートを基に,人物のリアルタイム追跡が可能になる。

図4に高速人物発見・追跡ソリューション(左側・右中央部),およびアドオン機能として提供されるマルチクエリ人物追跡拡張インタフェース(右上,右下部)の概要を示す。

高速人物発見・追跡ソリューションは,株式会社日立産業制御ソリューションズ製フィジカルセキュリティ統合プラットフォーム(PSS統合PF)およびプラットフォームで動作する人物検出・解析プラグインを組み合わせたソリューションとして2019年10月に製品化された。顔画像を使わずに全身の外見を基にした検索が可能なため,監視カメラの仕様・設置条件によって顔画像が捉えられない,もしくは鮮明に映らないケースにおいても,人物の検索が可能な点が大きな特長である。検索結果を,時刻およびカメラの情報と合わせて時系列に可視化することができる。また,目撃情報など限られた情報のみしか手掛かりがない状況下において,身に着けている物,性別などの条件を指定し,合致するキー画像を絞り込む機能(属性検索機能)も提供しており,絞り込んだ人物画像を起点に検索・追跡を行うことが可能である。

マルチクエリ人物追跡拡張インタフェースは,複数の画像を基にした人物検索結果の表示および自動更新機能を含む高速人物検索機能を提供する。このマルチクエリ人物追跡拡張インタフェースは,1章で述べた空港警備において,リアルタイムで人物を追跡するニーズに対応する必要があったことから,外部システムから検知アラートを受け取り,即座に特定人物の追跡を行える操作性に優れたインタフェースとして,高速人物発見・追跡ソリューションのアドオンとして今回開発を行ったものである。新たに,追跡画面を定期的に自動更新し,追跡対象人物に類似する候補映像を直近で捉えたカメラに自動で切り替えることで,追跡対象の人物がいつどこにいたのかを把握することを支援する機能を備える(高速人物追跡機能)。

従来の映像解析技術には,顔認識技術を使ったブラックリスト対象者の検知,置き去り荷物の検知,指定の区域に対する侵入者の検知などがある。本製品は,これらの検知機能を提供するシステムと本製品を連携させることで,対象人物・物体を検知したことを示すアラートを受信し,その原因となった人物が今どこにいるのか追跡する機能を提供することができる。

3.2 高速人物発見・追跡ソリューションの活用事例

本製品は,空港などでの保安業務において活用が期待できる。先述した空港の事例以外にも,例えば犯罪捜査の場面において活用が可能であり,特に,限られた人数の捜査員で大量のカメラ映像の目視確認が必要なケースにおいて効果を発揮しやすい。つまり,本製品を活用することで,人物が映っていないフレームの自動選別および捜査対象の人物に類似する人物画像を高速かつ自動的に絞り込めるため,大幅な省力化,生産性向上に寄与する(図4参照)。一方,商業施設における保安業務に対しても,施設内で発生した迷子や,不審者の発見・追跡に本ソリューションを活用することができる。さらに,入場者への説明など,プライバシー保護のために必要な対策を前提に施設内の人物ごとの動態把握,特定エリアでの滞留時間計算などに応用することで,マーケティング用途での解析データ活用や施設の付加価値向上に寄与することが期待できる。

4. 映像解析に必要な要素技術

AI(Artificial Intelligence)画像解析を実現するディープラーニング解析技術の特長について述べる。

4.1 高速人物発見・追跡ソリューションの概要

図5に高速人物発見・追跡ソリューションの構成概略を示す。本ソリューションでは,PSS統合PF上で動作する人物検出・解析プラグインにより,カメラ映像から人物を検出し,検出された人物に対して追跡に活用する外見特徴抽出および属性推定を行い,データベースに格納する。広域に設置された複数カメラの映像をリアルタイムに解析・データベース化し,高速類似画像検索技術(EnraEnra※1))を活用して追跡対象人物の足取りを瞬時に把握できる。

図5|高速人物発見・追跡ソリューションアーキテクチャ 図5|高速人物発見・追跡ソリューションアーキテクチャ PSS統合PF上で動作する人物検出・解析プラグインにより,カメラ映像のリアルタイム解析・データベース化を実施する。

※1)
日立が開発した,数百万件規模の大規模な画像データの中から,指定した画像と類似した画像を1秒以内で検索できる技術。

4.2 リアルタイムディープラーニング解析を支える技術

PSS統合PFでは,下記の特長を持つ日立独自の映像解析基盤により,多数台カメラ映像のリアルタイム解析を実現する。

  1. 映像解析モジュール間連携
    各映像解析モジュールは共通のインタフェースを持つプラグインとして実装され,必要なモジュールを柔軟に選択し連携できる。荷物追跡との連携も本機能で実現できる。
  2. リアルタイム映像解析
    複数カメラ映像に対して,映像解析モジュールを調停し,リアルタイム動作を実現する。
  3. ディープラーニング解析パラメータ設定
    ディープラーニングのバッチ数,映像解析並列実行CPU(Central Processing Unit)スレッド数などの実行パラメータを設定し,現地状況(検出人数,必要フレームレート),サーバ(性能,設置条件)に合わせて,GPGPU(General-purpose Computing on Graphics Processing Units※2))処理の効率化を図ることができる。
※2)
GPUを画像処理以外の汎用的な計算に活用する技術。

5. ディープラーニング解析処理性能設計における留意事項

図6|リアルタイム映像解析実行時のGPGPUの稼働状況 図6|リアルタイム映像解析実行時のGPGPUの稼働状況 映像解析時のGPU使用率,消費電力,温度(左軸),周波数(右軸)の時間変化を示す。

ディープラーニング解析処理が必要とするハードウェアの性能要件は,いくつかの試験結果を基に決定している。近年,IoT(Internet of Things)センサーのエッジ処理装置として,環境変化に強い耐久性のあるサーバが選択肢として増えている。OT(Operational Technology)の現場もしくは公共施設の事務所などでの稼働を想定した場合の留意点を明らかにするために,NVIDIA社のTesla T4※3)を用いた性能評価試験を実施した。非データセンタ環境での稼働を想定した試験環境として民生用サーバ+常温実験室を構築した。図6に,一定数のリアルタイム映像解析を実行した実測値として,GPU(Graphics Processing Unit)使用率,消費電力,温度,周波数の時間変化を示す。

実行開始直後よりGPU温度が上昇し,200秒後の84℃に達した後で,GPU保護のためと思われる働きにより,周波数が約1,500 MHzから約1,200 MHz程度に抑制されていることがわかる。GPUの動作周波数低下によりディープラーニング解析性能が8割程度に低下する。

IoTセンサーのエッジ処理が必要な用途は多岐にわたることが想定され,ディープラーニング処理のサーバを必ずしもデータセンタ環境に設置できるとは限らない。したがって,必要なディープラーニングの処理性能に対するサーバ性能設計を行う場合に,本実験で示された設置環境に起因する性能低下などを考慮した安全値を設計時に考慮する必要がある。これらの知見を基に,ディープラーニング処理を必要とする顧客の環境要件に合わせた,日立PCサーバの最適な組み合わせとシステム設計技術により安定した運用を実現していく。

※3)
NVIDIA,Teslaは,米国または他国のNVIDIA Corporationの商標または登録商標である。

6. 今後の展望

空港警備など重要社会インフラにおけるテロなどの犯罪行為に対するソリューションとして開発している映像情報を解析する技術の普及に伴い,監視カメラはIoTセンサーとしての活用が期待されている。しかし,映像から必要な情報を得るために,監視カメラを設置する位置や設定が従来と異なる場合があり,さらに,カメラ設置台数の大幅な増加に応じた十分な調整時間確保が難しい場合もある。これらの課題に対して,3Dシミュレーション技術を活用したソリューション開発に着手している。顧客の施設を3D情報化し,設置工事前に監視カメラの映像を再現して確認することができる。設置場所を決める時間の短縮や調整時間・手戻りの削減効果に加えて,映像解析目的に合わせて必要な画角やカメラ設定を調整することができる(図7参照)。

一方,施設の安全確保の要であり,監視カメラ映像を監視して現場に指示を出すコマンドセンタが扱う情報も多様化してくる。カメラ映像から取り出した情報を分析することで,通常の業務効率改善に加えて経営に貢献する付加価値としての活用も期待されている。コマンドセンタ本来の目的においても,非常時に施設利用者に適切な情報を提供することや,外部の交通機関や関係者とも連携するためのプラットフォームとして機能するシステムが今後のパブリックセーフティに必要な要件になってくると考えている(図8参照)。

図7|カメラの撮影映像を再現する3Dシミュレーションサービス 図7|カメラの撮影映像を再現する3Dシミュレーションサービス システム構築作業前に3Dカメラで現場を撮影して,監視カメラの予定設置位置からの画角など,カメラ映像の見え方をシミュレーション上で再現するサービスである。事前確認を実施することにより,カメラ設置工事期間の短縮や手戻りを防止し,映像解析ソフトのチューニング時間を短縮する。

図8|付加価値提供や非常時の社会インフラとして期待されるコマンドセンタ 図8|付加価値提供や非常時の社会インフラとして期待されるコマンドセンタ 空港の通常業務効率化と有事の人流制御の例を示す。

7. おわりに

市民が安心を実感できるようにするためには,信頼できる映像解析技術が社会の隅々まで普及することが必要である。一方でディープラーニング技術活用などの映像解析処理対象を拡大3)するにはHigh Performance Computing相当の計算機やクラウド基盤のITインフラ構築技術が必要になってくる。日立は,より使いやすい製品の開発と実績ある大規模ITインフラ構築技術で安全・安心な社会の構築に貢献していく。

参考文献など

1)
E. Miller: Annex of Statistical Information: Country Reports on Terrorism 2016, National Consortium for the Study of Terrorism and Responses to Terrorism(2017.7)
2)
O. Nwofia et al.: A Methodology for Designing Airports for Enhanced Security Using Simulation, Journal of Aviation Technology and Engineering, vol.3, iss.1, pp.2-8(2013.10)
3)
池浦康充,外:IoTデータ向けマルチモーダル深層学習基盤,日立評論,102,3,407~411(2020.7)