IoT の普及に伴い一般的になったネットワーク カメラは、これまで主に防犯や監視の目的で使用されていましたが、株式会社アロバ (以下、アロバ) が提供する映像プラットフォーム「アロバビュー」によって新しい可能性が開けました。映像統合管理ソフトウェア市場 No.1 のシェアを誇るアロバビューとマイクロソフトのクラウド テクノロジを組み合わせた画像解析サービス「アロバビュー コーロ」によってどのような未来が開けるのでしょうか。製品の特長と現場でのユニークな用途について同社代表取締役の内藤 秀治郎 氏にお話を伺いました。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

株式会社アロバ

代表取締役社長

内藤 秀治郎 氏

アロバの概要について

―― まず会社の概要についてお教えください。

内藤 アロバは登記上では設立して 5 期目を迎える会社ですが、元々は大手 IT 企業の社内ベンチャーでした。そこで監視・防犯カメラの分野で統合管理ソフトウェアの手掛けていた部署を切り出した形で創業しました。ですから、映像データの領域では 10年以上の実績があります。

―― 提供製品の特長は?

内藤 2020 年の東京オリンピックもあり、今後も監視カメラの需要が高まると予測されていますが、それ以外にも私たちは新しいカメラマーケットの機会を視野に入れています。監視・防犯用途でのソフトウエアの現在の国内市場は 数十億円程度かと思いますが、最近では大学の講義をカメラ収録して配信する仕組みなどを弊社で手掛けています。これからカメラを取り巻く環境で市場が拡大すると共に新しい市場が創出されると考えています。当社が 2005 年から提供している映像プラットフォーム ソフトウェア「アロバビュー」は、これまで 1 万箇所以上のお客様に導入いただいています。アロバビューは直販ではなく代理店経由で提供しているので、システム インテグレーターの代理店様のプロジェクトでは、監視や防犯の他にも鉄道運行システムやプラント監視の分野のソリューションに応用されているケースもあります。そのような用途では、カメラを使った現場の業務改善に活用することも考えられます。

 

 

最大の特徴は使いやすく直感的な UI だと思います。従来の監視・防犯カメラでは、録画した映像をアーカイブしておくタイプが主流で、何かが起こったときに該当する時間の映像を探し出すのが容易ではなかったのですが、アロバビューでは、カレンダー ポップアップで日付を選択すると表示される時間帯を選択すると、その時間帯の映像が 5 分単位のサムネイルとして表示されるので、目的の映像を簡単に検索することができます。

マイクロソフト テクノロジとの組み合わせで実現した高度な画像解析

―― 最近、高く評価されている「アロバビュー コーロ」について教えていただけますか。

内藤 2016 年から提供しているアロバビュー コーロは、アロバビューと Azure Cognitive Services を組み合わせた画像解析サービスです。簡単に説明すると、人の顔画像を解析して、その人の性別や年齢を識別し、さらに表情から感情を数値化するシステムです。構成は至ってシンプルで、セットアップに必要な主なコンポーネントは、カメラ、ローカルの PC、そしてインターネット接続の 3 つだけです。アロバビューは国内外 500 機種のカメラに対応しているので、実質的にどのカメラでも使用できます。PC はハイエンドのものではなく、スティック PC レベルのスペックで十分です。動画データを転送する場合は大きな帯域幅が必要ですが、アロバビュー コーロで処理するのは顔の静止画像データだけなのでモバイル ルーター程度の帯域幅でまったく問題ありません。構成がシンプルなので、システムをすばやく設置してすぐに運用を開始できます。製品のデモを客先で行う際などは、設置と撤去を簡単に行うことができるのでお客様によく驚かれます。

―― 仕組みを簡単に説明していただけますか。

内藤 基本的な考え方としては、ネットワーク カメラで収集した動画をローカルの PC で静止画像に変換して顔の部分だけをトリミングし、顔部分の静止画像を Azure Cognitive Services に送って解析を行います。顔ベースの認識にはマイクロソフトの Face API を使用し、感情の数値化には Emotion API を使っています。

―― 感情を可視化することでどのようなメリットがあるのでしょうか。

内藤 一番わかりやすい例は、リテール業界での用途と思います。店舗のレジで収集される POS データでは購買履歴を分析できますが、商品を買わなかった顧客に関する情報はまったく見えていませんでした。たとえば、ある店舗で 20 代の女性をターゲットにしたプロモーションを展開したときに 100 人の客が商品を購入したとします。POS データでは、100 人の客が何を買ったかを分析することができます。メンバーズ カードやポイント カードと併用すれば誰が何を買ったかまで把握できます。しかし、合計で何人の客が来店したのか、そしてどのような年齢層の何人の客が商品を「購入しなかったのか」はわかりません。アロバビュー コーロを使用すると、来店した客を識別して、店舗に入ってきたとき、商品を手に取ったとき、商品を購入したとき、または商品を購入せずに店を出たときの客の顔画像から性別と年齢を識別できるので、商品を買った客だけでなく、買わずに店を出た客も分析できます。さらに、収集した顔画像の表情から感情も分析できるので、顧客満足度や商品や接客態度に対する客の反応も分析することが可能です。

また、20 代の女性をターゲットにしたプロモーションを立地条件の異なる 2 つの店舗で展開した場合、アロバビュー コーロを使うと、A の店舗と B の店舗での売り上げの差がどのようなものであったのか、年代と性別を基準としたターゲティングが正しかったのかどうかを判断することができるようになります。A の店舗では正しいターゲティングがでていたのに、B の店舗では 20 代女性の 10 人のうち 8 人が商品を買わなかったのであれば、その要因を探し出して対策を取ることができます。

―― 今まで取りこぼしていた情報を収集できるということですね。

内藤 実は、このような分析は e コマースの世界では当然のように行われていることなのです。サイトを訪れたユーザーが参照した商品、実際に購入した商品、参照したけれども購入に至らなかった商品、またショッピング カードに入れたのに最終的に購入しなかった商品といった履歴が追跡され、顧客の詳細な行動情報が分析されてマーケティングに活用されています。しかし、リアルの世界で同じことをやろうとすると、実際に店舗に人を配置してすべての滞在客の動きを絶えず追跡しなければなりません。これは現実的に不可能ですが、私たちのサービスを使えば、人間が目で認識した情報を脳で分析して何かしらの行動を取るのと同様に、カメラで収集した客の顔データを AI で自動的に分析してアクションにつなげることができます。人間の場合は主観的な判断が避けられませんが、AI の場合は指定した条件による客観的な分析と判断を行うことができます。

―― 商品を購入したか否かにかかわらず、すべての来店客の行動に関する情報を収集して分析できるのですね。

内藤 リテールの例は過程と結果に関するものですが、別の用途としてデジタル サイネージが考えられます。例として、商業施設の 7 階で開催しているイベントの広告を 1 階のサイネージで表示し、そのサイネージを見た人の顔の画像を解析して、そのうちの何人が実際にイベント会場に来場したかを識別できます。さらに、画像データにはタイム スタンプも紐付けされているので、来場者がサイネージを見てからイベント会場に来るまでにどれ位の時間がかかったのかといったデータもわかります。そうやって、サイネージを見た時点とイベントに来場した時点といった点をつないで客の動線を分析することが可能になります。また、飲食業では、リテールと同様の顧客満足度の分析だけでなく、従業員が笑顔で客に接しているかどうかなどの接客態度を細かく分析するなどの応用例が考えられると思います。

 

 

プライバシーを考慮した分析処理

―― 顔の画像情報から個人が特定されるというプライバシーの懸念はありませんか。

内藤 私たちはプライバシーを非常に重要視しています。アロバビュー コーロでは、収集された顔の画像は、その顔の特徴を説明するテキスト データに変換されます。テキスト データに変換された後、元の顔の画像はMicrosoftにより厳重に管理されます。性別や年齢といった情報だけを示すテキスト データから元の画像を再構築することはできないので、プライバシーの問題は解決されます。また、この一連の解析テキスト データを比較することによって、その客が同一なのかどうかが判断できることを活用して、その客が新規の客なのかリピーターなのかを判断することができます。

そういったデータをどのように活用するかということはお客様と細かくディスカッションして検討することになりますが、最終的には、これまで現場の経験則に基づいて行っていたマーケティングを AI で自動化できるといった点が一番のメリットになると思います。

―― まさに防犯・監視の域を超えたネットワーク カメラの活用方法ですね。

最初にお話ししたことに戻りますが、防犯という点で考えれば、これまでの防犯カメラは「何かやったら証拠が残るよ」というレベルの抑止力で機能するもので、本当の意味での犯罪を防止するものではありませんでしたが、AIを活用することで、警察などの機関から提供されている不審者や危険人物などの顔情報に一致する人物が監視カメラでとらえられたらアラートを出すことが可能となります。顔以外の部分でも画像解析を行うことができるので、たとえば、イベントなどで来場客が持っている荷物などの画像の情報を解析し、それが危険物の特長に一致する場合はアラートを出すということも考えられます。

最適なバランスを持ったエンジンとしての Microsoft Azure サービス

―― Microsoft Azure を選択した理由は何ですか。

 

内藤 いくつかのベンダーを試したのですが、私たちのソリューションを活用するために機能的なバランスが一番よかったのが Microsoft Azure でした。2016 年の Microsoft Innovation Award の時点では、私たちはマイクロソフト パートナーではなく、こちらからアプライしたのですが、当時はマイクロソフトの方でも Azure Cognitive Services の具体的な活用方法を模索していたようで、私たちのソリューションが高く評価されたようです。

 

マイクロソフト パートナーになってからは、マイクロソフトのイベントに呼ばれて登壇する機会が増えました。私たちのデモを紹介することで、それまで概念的なレベルで漠然としか理解されていなかった最先端のテクノロジを具体的な応用例として理解していただけることがあります。同時に、お客様から「こんなことはできないか」といった相談をいただくこともありますし、マイクロソフトからお客様を紹介されることもあります。

 

コア エンジンにマイクロソフトのテクノロジを使っているという点は非常に大きいと思います。自社開発も不可能ではないと思いますが、マイクロソフトが提供しているサービスと同じレベルのものを作るのにこれから 5 年の時間がかかるとすると、5 年後の市場は今とはまったく別の世界になっているはずです。そういう意味では、マイクロソフトとコラボレーションするという面では、現時点で最先端のテクノロジを今すぐに活用できるという時間とコストのメリットは絶大です。

加えて、マイクロソフトは多様なテクノロジを持っています。そのテクノロジを活用して、実質的なソリューションの開発なり構築は現場に近いベンダーに任せているというスタンスは理想的と思います。

―― 最後にマイクロソフト パートナーへのメッセージをお願いします。

内藤 先に申し上げたように、マイクロソフトは広範囲にわたるさまざまなテクノロジを持っています。マイクロソフトでは、それらのテクノロジをどう活用するかを模索している場合もありますし、こちらからは、マイクロソフト テクノロジを使ってこんなことをやってみたとかやってみたいといった情報をお互いに交換することによって、ビジネスを加速することができます。マイクロソフトはさまざまなテクノロジをオープンにする方向に進んでいるので、マイクロソフトと協業するという点での敷居は、これまでよりも低くなっていると思います。マイクロソフトと協業することによって、自分の会社が成長し、質の高いソリューションを提供できるのでお客様にも満足していただけます。マイクロソフトの方でもテクノロジの新しい応用方法が見つかり、それを機会に機能がさらに向上するという 3 者の Win-Win の関係を築くことができます。

私たちが専門とするのは画像ですが、人間の五感に相当する各種センサーから収集されるデータを上手く活用することによって、自動運転を始めとして、さまざまな分野でさらに新しい可能性が生まれると思います。

 

株式会社アロバ

国内の映像統合管理ソフトウェア市場 No.1 のシェアを獲得している映像プラットフォーム メーカー。映像処理の分野での多くの実績を活かして、国内外の 500 種類のカメラに対応し、誰でも使える映像プラットフォームを提供しています。同社の画像解析テクノロジとマイクロソフト テクノロジを組み合わせて人の顔の画像から感情を視覚化する映像解析サービス「アロバビュー コーロ」はさまざまな業界や分野で高く評価されています。