【コラム】CVPR2012のチュートリアルが「機械学習」関連のもの多し。

このエントリーをはてなブックマークに追加

Clip to Evernote Check

アメリカで年一回行われているComputer Visionの研究者カンファレンス、CVPR2012が6月16日から開催されます。CVPRのチュートリアル講演はトップカンファレンスなだけあって当然ながら毎年内容が最新の物であり充実しているのですが、今年は極端に機械学習系に関連してくる内容のチュートリアルが集中するようです(ライブラリの使い方紹介のもの(matlab,opencv,PCL)以外、ほとんどが機械学習の話)。


CVPR2012 チュートリアル一覧
http://www.cvpr2012.org/program-details/tutorials

まだカンファレンス自体が開催されていないので、各チュートリアルの資料はアップロードされておりません。開催後の公開を待ちましょう。


この中で、以下のチュートリアルがそれぞれ機械学習に関連しているものといえるでしょうか。

  • Stochastic Image Grammars for Object, Scene and Event Understanding(Stochastic Image Grammars:物体構造やシーン構造、イベント理解のための画像中各種構造のグラフィカルモデル(AND-ORグラフなど)。)
  • All you want to know about Gaussian Processes(ガウス過程やGPLVMといった、ガウス過程回帰モデルのチュートリアル。GPLVMの発明者Lawrence先生らによる講演)
  • Large-Scale Image Retrieval and Classification(大規模画像検索アルゴリズム+識別手法の話。)
  • Domain Transfer Learning for Vision Applications(ビジョン向け転移学習)
  • Deep Learning Methods for Vision(ビジョン向けDeep Learning。※Deep LearningはSVMを超える識別性能が出たりするので近年注目されている階層モデル型学習法。)
  • Applied Bayesian Nonparametrics(トピックモデルなどのいわゆるノンパラベイズモデル。元データを意味合いが近い塊に勝手に分けて分離、グループ化してくれる確率モデルのこと。)
  • Multiview Feature Learning (sparse codingを用いたモーション特徴に強い学習)

近年のビジョンは機械学習を駆使した研究が多いことは研究者の方々は既に御存知でしょうが、個人的にも「ここまで機械学習関連もののみで集中するのか」といった印象です。これらはコンピュータビジョンのみでしか使われないものも少しありますが、大抵は他のセンサーデータ(テキストや音など)にも使われて研究されているアルゴリズム、もしくはそれのビジョン向けアルゴリズム改良版です。逆に言うとアルゴリズムの話であるこうした機械学習のチュートリアルが集中したということは、応用分野的にまとまった新しい内容がコンピュータビジョン分野では最近少なかったとも言えるでしょうか(一方で、ジェネラルな機械学習アルゴリズムをビジョン向けに特化させたものは十分新しいと言えるかもしれませんが)。

先日の記事で紹介した本「Machine Learning for Vision-Based Motion Analysis: Theory and Techniques」もそうですが、一昔前のビジョンではあまり積極的には使われていなかった機械学習の各最先端アルゴリズムも、ビジョン分野において高度なところまで使われることが当たり前になってきましたね。日本人の方にとってはこれらが英語の本やWebリソースばかりなので、日本語で書かれた本やサイトがもっと欲しいところでしょうか。一方で、機械学習ばかりに偏ると、計測寄りのビジョン技術がおろそかになりかねないので極端なのも良くはないのでしょうが。

とにかく、今年のチュートリアルは他領域(テキスト処理や音声・音響処理)などでも共通するような機械学習のアルゴリズムの話が盛りだくさんです。興味ある方は是非各チュートリアルの内容が公開されたらスライド等で内容をチェックされてください。

【ニュース】OpenCV2.4がリリース

このエントリーをはてなブックマークに追加

Clip to Evernote Check

2012年5月、OpenCVのバージョン2.4がリリースされました。

OpenCV2.4での主な変更点としては以下のような点があげられます。

2.4betaから2.4公式リリースでの変更点

  • cv::getBuildInformation() によるビルド情報の取得。
  • ffmpeg による動画の読み込み/書き込みが動作するようになり,これはMacOSX でも利用可能に。
  • MOG2背景差分(Zoran Zivkovicによる)がTBBで高速化。
  • Asus XtionがHighGUIを公式にサポート. 以降、Xtionを指定するには、 VideoCapture(CV_CAP_OPENNI)の代わりに、VideoCapture(CV_CAP_OPENNI_ASUS) を指定する必要あり。

OpenCV2.4 の新機能

  • 新しい基底クラス cv::Algorithm の導入.これは「些細なものではない」全てのOpenCVの機能の基底クラスになる予定。この基底クラスの特徴は以下のとおり。
  1. 「仮想コンストラクタ」すなわち各アルゴリズムのインスタンスをアルゴリズム名から作成可能。
  2. 利用可能なアルゴリズムのリストを所有。
  3. アルゴリズム名によりそのアルゴリズムのパラメータの取得と設定が可能.
  4. アルゴリズムのパラメータを XML/YAML ファイルに保存し、それをあとでロードする事が可能。
  • 新たなffmpeg ラッパーを提供。これはマルチスレッドデコーディングや,よりロバストなビデオ中の位置取得などの機能を持つ。バージョン 0.7.x 以降の ffmpeg で利用可能。
  • features2d APIの整理し、重複した機能を持つクラスを全て除外:これに伴いFeatureDetectorDescriptorExtractorがcv::Algorithmの派生クラスに。また、Feature2Dという基底クラスが新設され、これを1度呼び出すだけでKeypoint検出とDescriptor計算を一括で行うことができより効率的になった。
  • SIFT および SURFを、フリー使用ができないことを明示化するためにopencv_nonfreeモジュールというモジュールへ移動。また、SIFTの性能が3~4倍アップ。
  • テクスチャーレスの物体検出アルゴリズム、「Line-Mod」の追加。
  • Philipp Wagnerの提供による3つの顔認識アルゴリズムの追加。(FaceRecognizer クラス, opencv/samples/cpp/facerec_demo.cpp を参照)
  • PnP 問題を解くアルゴリズムの追加。 (solvePnP 、 solvePnPRansac 関数の引数フラグを参照)
  • Blind-Spot モデルによる強化されたLogPolarが追加。( opencv/samples/cpp/logpolar_bsm.cpp を参照
  • 発展の激しい「computational photography」分野のアルゴリズムをサポートするためのopencv_photoモジュールを追加。現在のところinpaintingを移動してきただけであるが今後アルゴリズムを随時追加予定。
  • ベータ版であるopencv_videostabモジュールを追加。(opencv/samples/cpp/videostab.cppを参照)。現在鋭意開発中。
  • findContoursがこれまでのモノクロ8bitのみのサポートから、32bitカラー画像もサポート。
  • Canny Edge Detectorがカラー画像もサポート。
  • Python バインディングがPythonスレッドをサポート。これによりpythonのマルチスレッドアプリケーションでも使用する事が可能に。

OpenCV2.4 on GPU の新機能

  • 新しいオプティカルフローアルゴリズムが追加:
    • Brox (NVidiaによる提供)
    • PyrLK - 疎/密両方とも。
    • Farneback
  • 新しい特徴検出器と特徴記述子:
    • GoodFeaturesToTrack
    • FAST/ORB which is patent free replacement of SURF.
  • GPUモジュール全体での強化:
    • CUDA 4.1以降が必須;
    • CPU とGPUでの結果の一致性が改善;
    • 各関数でボーダー補間のサポートが追加;
    • パフォーマンスの改善.
  • pyrUp/pyrDown の実装.
  • GPU による行列乗算(CUBLASライブラリのラッパー). これはオプション機能であり、OpenCV をCUBLAS サポートONでコンパイルする必要あり.
  • highguiモジュール向けにOpenGL back-end が追加。これにより GpuMatをCPUにdownload関数を実行しなくともディスプレイに直接表示することが可能に。

【Androidの追加点】

  省略します。リンク先を参照。

以上が主な追加、変更点でした。また、今回のOpenCV2.4にあわせて、以下の開発者サイトが開始されています。

code.opencv.org

このトップページにドキュメント類(PDF)へのリンクも一括で書いてあって少し利便性が上がった気がします。最後にOpenCV2.4のドキュメント類リンクを以下にも書いておきます。

OpenCV documentation:

【ニュース】オンライン授業サイトのCourseraでComputer Visionの講義が提供開始

このエントリーをはてなブックマークに追加

Clip to Evernote Check

StanfordのProf.Daphne Koller(確率的グラフモデルで有名)とProf.Andrew Ng(機械学習のオープンコースで有名)が立ち上げたオンライン無料授業サイトCourseraに、先日あらたに4大学から無料授業が提供されはじめたのですが、その中に以下のComputer Visionの授業の提供が開始されています。( ①は4月開講、②は9月開講)

①UCバークレーのProf. Jitendra Malikによる、

Computer Vision: The Fundamentals

②StanfordのProf.Silvio SavareseとProf.Fei-Fei Liによる、

Computer Vision: From 3D Reconstruction to Visual Recognition

 ①は基礎的なComputer Visionの内容をひととおり見て回る授業で、②は三次元再構成技術とFei-Fei先生得意の画像からの構造的3D認識技術の授業と思われます。

khan-academy、Udacityときて、Courseaも盛り上がってきましたね。とかく米国の有名大学の先生方は授業マテリアルを全てWebに公開することが多くなってきましたが、それらの授業個別サイトに加えてこういった専門の授業サイトも今後ラインナップが充実するにつれてますます注目すべきだと思います。

自動車ビジョン向けの新しい大規模データセット「KITTI Vision Benchmark Suite」

このエントリーをはてなブックマークに追加

Clip to Evernote Check

Toyota Technological Institute at ChicagoのRaquel Urtasun先生が、今度のCVPR2012に合わせて公開するデータセットを紹介します(※私のラボのドクターの方が聴きにいった、先日行われたUrtasun先生の東大でのセミナーの内容を受けて本記事を書いています。あらためて情報感謝です)。

今回紹介するのはKarlsruhe Institute of Technologyによる、以下の「KITTI Vision Benchmark Suite」というデータセットです。

KITTI Vision Benchmark Suite

www.cvlibs.net/datasets/kitti

リンク先にもあるプロモーション動画をここにも貼っておきましょう。長い動画ですが最後までぜひ見てみてください。


このKITTI Vision Benchmark Suiteは、今までになかったレベルでの大規模なITS向けのデータセットです。彼が研究している自動走行車、AnnieWAY が彼らの大学の周辺を自動走行して大量に取得したデータから構成されています。動画中でも説明がありますが(1:00ごろ)、基線長54センチで設置したステレオカメラ(片方はRGB、もう片方はモノクロ)と、3次元形状の正解を取得するためのVelodyneの全方位レーザースキャナー、GPS(IMUと統合されたもの)がAnniwayの上部には設置されています。

Anniwayにより取得した大量の車両前方動画に、前方車両に映っている車やその他物体の軌道の物体検出の正解タグが付与されており(動画3:15分ごろ。ビジュアライゼイションがかっこいいので必見!)、IMU/GPSにより取得した各種オドメトリー情報(車の軌道)も同期取得されています。オプティカルフローとステレオの結果も提供されています。

以下の論文がこのデータセット公開のトリガーとなる論文で、予稿が既に公開されているCVPR2012でのオーラル論文です。

Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite  Andreas Geiger and Philip Lenz ( Karlsruhe Institute of Technology), Raquel Urtasun(Toyota Technological Institute at Chicago) 

論文の第一著者である Andreas Geigerさんのページ中(以下URL)に予稿のPDFが公開されています。

http://www.cvlibs.net/publications.html

この方は昨年から自動車前方の単眼カメラ映像からの3Dシーン認識というテーマの論文を多数国際会議に発表しており、このデータセットはそれら発表済み3D道路シーンモデル研究の延長から出てきたものとも言えます。

A Generative Model for 3D Urban Scene Understanding from Movable Platforms (CVPR2011): 道路の3D幾何+位相の確率モデルのMCMCサンプリングによる推定。

Joint 3D Estimation of Objects and Scene Layout (NIPS2011) :シーン認識側にVanishingPointとシーンラベル(建物、道路、空の3クラス)を観測情報として加え、また車両位置の検出も用いることで「物体検出+シーンモデル生成」に発展させたもの。(※ 講演でUrtasun先生は「Vanishing Pointだけで結構できる。でも、この(ゴールデンデータ)動画ほど毎回うまく行くというわけではない」とおっしゃっていたそうです。)

データセットの論文中、および東大のUrtasun先生の講演で主張されていた内容としては「今までの自動車向けデータセットはデータ量が少なく、そのデータセットにだけチューニングして問題が解けるものしかなかった。これだけ大量に広い範囲で走行すれば車外環境に十分なバリエーションがあり、小手先のアルゴリズムでは通用しなく、本質的に問題を解かないとならなくなるでしょう」とのことです。

以上、データセットとともに、彼らの最新の研究も少し紹介しました。ITS系の研究や開発をされている方や、その他ステレオ、シーン認識をされている方のコメント歓迎です!

Computer Vision関連のサーベイ論文のみを集約する目的のMENDELEYグループ「Computer Vision Review/Survey Papers」の紹介

このエントリーをはてなブックマークに追加

Clip to Evernote Check

年度末の時期になりましたが、4月1日からは皆様が所属されている組織にも新社会人、新研究室所属などの「新人」の方が増えると思います。その中にはComputer Visionの技術に触れたり研究に取り組むのが初めてな方も多いでしょう。

そこで、この記事では以下のMendeleyのグループを紹介しておきます。

Computer Vision Review/Survey Papers

http://www.mendeley.com/groups/1048071/computer-vision-review-survey-papers/

このグループは以前から私がMendeley内で作成して運用させてもらっているグループで、名前の通りComputer Vision分野に関連する「サーベイ論文」のみを集める目的で作成したグループです。この記事を書いている時点で、実に77本のComputer Vision関連のサーベイ論文がこのグループには登録されています。

当初は勉強会や学会などを通してお世話になっている日本の研究者の方に、各Computer Visionの技術分野のサーベイを集結できる場所をつくりたいとおもって作ったのですが、その後は海外の方もボチボチではあるものの参加されて、そこそこな所帯になってきています。

私はマイナビの連載でサーベイに使用した論文や、それこそ普段研究室向けに役に立っているサーベイ論文をこのグループには登録しますが、どうしても私一人で登録していくと偏るし、存在も気付かないサーベイ論文も出てきます。すでにグループに登録されている方はもちろん、この記事を通して登録した方は、グループに未登録のサーベイ論文を知っていたら是非登録していただけるとありがたいです。