2005年秋、Sebastian Thrun氏は、米国国防総省の国防高等研究事業局(DARPA)が主催した「DARPA Grand Challenge」で、「Stanford University Racing Team」を優勝に導いた。Thrun氏に人工知能と消費者向けロボットの未来について話を聞いた。
--家庭用のロボットが実現するためには、人工知能分野ではどういう技術進歩が必要になりますか。
認識の確実性と、環境を理解すること、例えば家の中の環境の理解でしょうか。現在はまだロボットはキッチンに何があるかといったことを理解できませんし、例えば、人間の意図や食器洗い機の使い方も分かりません。認識の問題は大変大きく、人間が当然だと思っていることも、ロボットにとっては非常に難しい問題です。この問題は、情景認識と呼ばれます。情景認識は画像を取り込み、その画像の中の異なる物体にラベルを付けるという処理です。これは4歳児でもできることですが、ロボットにはまだうまくできません。家の中の環境でものを動かそうと思ったら、まずその物体を認識しなくてはならないわけですから、これは大きな課題です。
もう一つ、まだできていないことを挙げるとすれば、物体操作の問題でしょう。ロボットのナビゲーションの分野は、大きな進歩を遂げています。例えばRoombaは平面に落ちているゴミを取るようにナビゲーションされているロボットです。しかし、ロボットの腕を使って何か面白いことをやるというようなものは出ていません。物体を動かすという研究分野は、現時点ではまだ生まれたての状態だと言っていいでしょう。この物体操作も、大きな人工知能分野の課題です。
--消費者用ロボットの分野で次に出てくる利用方法はなんでしょうか。
掃除の分野は確実に出てくるでしょう。掃除ロボットに、家の中でものを運び回るための腕を付けたいですね。パーティの後片付けをしてもらったりとかね。それから、家庭内で高齢者介護に利用されるロボットが出てくると思います。これにはいくつかの形が考えられます。ロボットは医療関係者が用いる機器になるだけかも知れませんし、家族や親戚がロボットを通じて高齢者とコミュニケーションをしたりするようになるかも知れません。
検索ランキングや検索精度に関する新技術開発に取り組むMicrosoftの研究者が、成果を発表した。
Microsoftの研究者グループが発表した2件の研究論文によると、特定のコンテンツの閲覧およびクリックスルーに関して、検索結果の妥当性を分析する同社の新たな技術は、検索ランキングに用いるアルゴリズムを向上させるものだという。
Microsoft ResearchのMining, Search and Navigation Groupに所属するEugene Agichtein氏は、「今日利用されている検索エンジンの大半は、コンテンツに対するユーザーの問い合わせとウェブページのリンク構造を照らし合わせて結果の一覧を表示するという、2方向のアプローチを用いている。われわれが開発に取り組んでいるのは、ここにユーザー自身を含める3方向のアプローチだ。こうした新たな技法によって、検索におけるエクスペリエンスが向上すると考えられる」と述べた。
シアトルで国際年次イベント「Association for Computing Machinery's Special Interest Group on Information Retrieval(ACM SIGIR 2006)」が開催されている。
発表された論文のうち、「ウェブ検索結果の優先度を予測するためのユーザーインタラクションモデル研究(Learning User Interaction Models for Predicting Web Search Results Preferences)」と題されたものは、最初の検索結果ページにおけるクリックスルー以降のユーザーの行動を追跡する新技術について解説している。
研究者らは、所定のページに複数のユーザーが「とどまっていた」合計時間や、ユーザーが各ページの閲覧に費やす平均時間から見て最も長い「滞在時間」を過ごしたウェブページ、ドメイン内で検索された単語を保有する率の高いページに対する閲覧時間といった要素を応用して、新たな技術を開発した。検索利用者によってクリックされた検索フレーズやドメイン名、ページタイトル、サマリーなどに共通する単語の割合に、研究者らは注目したという。
同じ研究者グループが発表したもう一方の論文では、検索アルゴリズムの改良にこうしたユーザー情報を利用する方法が論じられている。同研究者グループは、3000件におよぶ検索データと1200万件のユーザーインタラクション情報を分析した結果を用いて、同グループが開発した手法が、ウェブ検索ランキングアルゴリズムを31%向上させることを示した。
Microsoftが、写真集をナビゲーション可能な3D空間に変換する写真ブラウザを開発している。
Microsoft Live Labsとワシントン大学の作業グループの代表者らは、「SIGGRAPH 2006」で行われた同校の「Photo Tourism」システムに関する講演のなかで、「Photosynth」ブラウザを披露した。Microsoft Live Labsでは、Photo Tourismの技術をベースにPhotosynthブラウザを開発し、インターネットベースの個人向けサービスとして提供したいと考えている。
「Photosynthは、大量の写真を見て回れるウェブクライアントとしてリリースされる」、世界中の写真を集めた仮想世界を作り出すポテンシャルを秘めていると、述べている。
Photosynthには、Flickrのような写真共有サイトからも画像を取り込む機能が備わっている。Photosynthは読み込んだ写真を整理したうえで、位置情報や被写体の特徴、3次元点群データの類似パターン、類似パターンとの差異、写真アングルなどを計測するアルゴリズムを使いながら3Dコラージュを作成する。
「これまでの研究とは異なり、Photosynthでは画像レンダリング技術と検索技術が連携する。われわれが開発したシーン再現技術は、撮影に使われたカメラの位置や向き、焦点距離を自動計算する。ユーザーはフォトブラウザ機能を使って、再現されたシーンを閲覧することができる」
Photosynthは指定されたオブジェクトについて、最もスコアの高い写真を拡大表示する機能ももつ。写真のスコアは解像度や照明、アングルなどによって決まる。正面からの写真や、日中に撮影された写真の方が高いスコアを付与される。
またPhotosynthでは、景色の中を動き回ったり、被写体までの距離をのばしたりするなど、画像の中身をより詳細に見ることもできる。またコレクションの中から同じ被写体の画像を選び出すこともできる。画面の下部には、同じ被写体の画像のサムネイルが一覧表示される。