@hurutoriya

Shunya Ueta at @mercari,Tokyo

36posts    2026score




Recent

score

Where To Look: Focus Regions for Visual Question Answering (CVPR2016)

VQA datasetに対して、提案手法を適用。従来手法を(当時は)全て上回った。 画像に対してCNNを用いて物体領域の検出を行った後にベクトル化、質問クエリはword2vecを用いてベクトル化を行う。 その2つのベクトルを用いて内積計算により重み付けを行うことで、どの領域に注目すべきかを計算する。

2018-01-17T05:46:16Z CNN Dialogue/QA NLP

score

Analyzing Free-standing Conversational Groups: A Multimodal Approach (ACMMM15)

近接センサーと監視カメラを用いてスタンディングディスカッション形式を行っているグループに対してマルチモーダルな会話の解析・評価を行った。 SALSAとよばれるデータセットも公開されている ACMMM15 Best Paper.

2018-01-14T12:53:56Z ComputerVision Dialogue/QA

score

Call center stress recognition with person-specific models (ACII2011)

ストレスのレベルを測定するマシンを自作、実際にコールセンターのスタッフのストレスを測定後にアンケートでストレスレベルを答えてもらい学習データを作成し、SVMで判定を行う。 その後実験では73%の確率でストレス状態を検知できるようになった。

2018-01-14T12:46:16Z

score

FUSE: Full Spectral Clustering (KDD2016)

べき乗法と独立成分分析を用いたデータのマルチスケールに頑強なスペクトラルクラスタリング手法の提案 ![image](https://user-images.githubusercontent.com/2786333/34908443-02acf8b6-f8d3-11e7-8b0a-e6751b94dc76.png)

2018-01-13T17:33:12Z Optimization

score

Learning Deep Representations for Graph Clustering (AAAI2014)

自己符号化器とSpectral Clusteingの関連性を示した論文。 固有値計算とグラフエンコーダの計算量や精度を比較した。 自己符号化器 2014年当時、分類問題などの問題に焦点が当てられクラスタリングとDeepLeaningの関係性は論じられていたなかった。

2017-12-23T17:56:15Z DataRepresentation

score

Edge-Weighted Personalized PageRank: Breaking A Decade-Old Performance Barrier (KDD2015)

ページランクを求める際に、10年前ではデファクトだった数値計算手法が最近でも使われているが近年の高速な数値計算手法に置き換えることでページランクの計算パフォーマンスを劇的に向上。 KDD2015 Best Student Paper awardを受賞 データセットにはDBLPやWeiboを利用することで大規模なグラフに対して計算実験を行った。

2017-12-04T13:01:35Z Optimization

score

Pose Guided Person Image Generation (NIPS2017)

任意の姿勢をクエリにした画像生成の研究。Stage1でクエリ画像の姿勢に近い画像を生成、Stage2でStage1で生成された低解像度の画像を高解像度化を行ってより精錬された画像を生成する。

2017-12-03T14:20:48Z CNN ComputerVision

score

Deep Sets (NIPS2017)

教師つき学習は表現が有限な次元という問題点を解消するために有限なベクトル空間を置換可能な不変集合と考えて学習を行うDeepSetsを提案 - Alex smolaさん!! AmazonとCMUの合作

2017-12-02T14:48:54Z Optimization

score

Machine Learning that Matters (ICML2012)

意味のあるデータを収集して機械学習を行うべきと示唆、皆いつまでもアヤメの花の分類をして満足しては駄目という啓蒙的論文。Research Questionを持って意味のあるデータを使って研究を行いましょうという示唆をしている。

2017-12-01T08:27:58Z

score

What Can Help Pedestrian Detection? (CVPR2017)

HyperLearnerと呼ばれるCNNで得られた複数の特徴量(オプティカルフロー、深度特徴、物体検出、etc.)を統合して歩行者検出でSOTAを達成。Baselineの手法と比較しても速度の低下も防げている。

2017-11-30T14:47:32Z CNN ComputerVision

score

KeystoneML: Optimizing Pipelines for Large-Scale Advanced Analytics

- Scalaで書かれた機械学習の大規模分散下における学習のパイプラインを提供するフレームワーク - KeystoneMLを用いることで、高精度が保証されスケーラブルな学習ができることをいくつかの領域で示した - 従来の分散学習フレームワークのVowpal Wabbit、SystemMLに勝利 Apache Sparkにて動く。 - Official Site : http://keystone-ml.org/

2017-11-28T14:42:05Z Optimization

score

CARLA: An Open Urban Driving Simulator (Conference on Robot Learning 2017)

- 自動運転のためのOSSのシミュレーターを公開、Unreal Engine 4を基に作成 - PythonによるAPIが提供されており、エージェントに対してステアリング、ブレーキ、アクセルがなどのメタコマンドが用意されている - Github : https://github.com/carla-simulator/carla

2017-11-24T14:12:53Z ReinforcementLearning

score

What Is Around The Camera? (ICCV2017)

画像を撮影時に、前景物体などに写り込んだ情報からカメラの周りの画像を再構築する研究

2017-11-23T14:52:52Z CNN ComputerVision

score

Representation Learning by Learning to Count (ICCV2017)

画像内の基本要素のカウンティングを行う教師なし手法を提案。 要素のカウンティングでは転移学習のベンチマークにおいてSOTAを達成。 - Tensorflow実装が公式に公開

2017-11-21T14:48:48Z CNN ComputerVision

score

Emotion Recognition in Context (CVPR2017)

文脈を考慮した26つの感情推定をCNNを用いて行い、感情推定のためのデータセットEMOTICも公開した。 従来の感情推定の研究では主に6つのカテゴリで感情推定を行っていたが、今回は文脈を考慮して26つの感情へ拡張。 HCIなど感情推定を詳細に行えることで様々な応用先が考えられる。

2017-11-19T14:26:24Z CNN

score

Speed/accuracy trade-offs for modern convolutional object detectors (CVPR2017)

- 特定の目的に沿った、速度、メモリ、精度のバランスを実現するために物体検出アーキテクチャはどれを選択すべきか?という研究 - 基本的に速度と精度はトレードオフであり、最速はSSDs, MobileNet, 最高精度はFaster R-CNN w/Inception Resnet at stride 8

2017-11-13T21:20:25Z CNN ComputerVision

score

Customizing First Person Image Through Desired Actions

- FPVにおいて、将来的な移動の軌跡を表現するActionTunnelと呼ばれるモデルを提案 - 移動の軌跡から移動先の画像の生成をGANを用いて行いナビゲーションを行う。 - GANを用いて画像の補間を行うことにより、アノテーション作業が不要な点が優れていると主張している。

2017-11-13T06:24:52Z CNN ComputerVision

score

DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks (ICCV2017)

- CNNを使ってスマホで撮影した写真をデジタル一眼レフを使ったクオリティに引き上げる - 実際にiPhone3GSの写真に提案手法を適用すると見違えるくらい綺麗になっていて凄い。 6000枚のDSLRと低スペックの写真をセットにしたデータセットも公開 痛いところ : スマホのカメラはデジイチに比べてセンサなど制約が多い→それを解消するためにCNNを提案

2017-11-07T14:22:28Z CNN ComputerVision

score

TFX: A TensorFlow-Based Production-Scale Machine Learning Platform (KDD2017)

TensorFlowを基盤にしたプロダクション環境でスケーリングするプラットフォーム、TFXを提案。 実験では、Google Playのメインページで表示するレコメンドアプリのランキングをTFXで運用し、アプリのインストール率2%を向上させた。 - 解説資料 - https://www.slideshare.net/shunyaueta/tfx-a-tensor-flowbased-productionscale-machine-learning-platform

2017-11-06T14:41:00Z

score

Google Vizier: A Service for Black-Box Optimization (KDD2017)

Googleが採用しているブラックボックス最適化手法についての論文。 主に、Gaussian Process Banditsモデルを用いて最適化を行っている。 Google内では、ハイパーパラメータのチューニング、ABテストの自動化で使われている。

2017-11-05T12:16:33Z Optimization

score

DeepRoadMapper: Extracting Road Topology From Aerial Images (ICCV2017)

- 道路地図を作成する場合、現状では車載カメラ等を用いている。正確な地図を作成できる反面、 スケーラビリティが無い - 提案手法: 衛星画像から道路を推定する事で、安価かつスケーラビリティのある解決方法を提案 - ResNetをベースにしたCNNを構築して、道路を抽出した。

2017-10-28T14:50:23Z CNN ComputerVision

score

Tracking the Dynamics in Crowdfunding (KDD2017)

クラウドファンディングで将来的にどれくらいのプロジェクトが立ち上げられ、どれくらいの資金を獲得するか予測する研究。 回帰分析やランダムフォレストなどを用いて予測を行ったが、スイッチング回帰を用いることで高精度に予測できた。 データは、Indiegogo.comから取得して実験を行った。 データセットは以下で公開されている。 http://home.ustc.edu.cn/%7Ezhhk/DataSets.html

2017-10-25T14:27:15Z

score

Neural Person Search Machines(ICCV2017)

Conv-LSTMを用いて現実世界での人物検索手法を提案 他のNN手法と比較して約3%精度を向上、SOTAを達成 人物の後ろ姿をクエリに設定しても、正面からの人物画を検索が成功している

2017-10-15T13:15:10Z CNN ComputerVision RNN

score

RoomNet: End-to-End Room Layout Estimation (ICCV2017)

end-to-endで部屋のレイアウトを推定するCNNを提案。**SOTA**達成 、200-600倍の高速化を実現 従来手法ではセマンティックセグメンテーション後→レイアウトのランキングを行っていたが、提案手法では直接レイアウトのキーポイント検出が可能

2017-10-14T11:50:35Z CNN ComputerVision

score

Am I a Baller? Basketball Performance Assessment from First-Person Videos(ICCV2017)

FPVを用いたバスケット選手の評価手法を提案 問題点 : バスケットボールの評価は主観的になりがち →弱教師つきのビデオにより特定の評価者の好みに合わせたモデルを学習 また、バスケットボールのルールは教えていないが、評価に繋がる行動も検出可能になった。

2017-10-13T14:41:10Z CNN ComputerVision RNN

score

Following Gaze in Video(ICCV2017)

動画内において人物が見ている箇所は、多くの場合、同一のフレーム内に存在していない。そのため異なるフレームをまたいでどこを見ているかを推定できる手法を提案

2017-10-12T10:23:40Z ComputerVision

score

TorontoCity: Seeing the World with a Million Eyes

従来に無い多視点のデータセットを提案 : ドローン、航空写真、車載カメラ 新たな問題を提案: 建物の高さ検出、道路の中央線、カーブを検出など 現状のCNNでも提案問題を解くことは難しい 将来的には信号の意味を認識、街路樹の種類推定などを行っていく

2017-09-27T03:17:45Z CNN ComputerVision

score

Playing for Benchmarks

25万枚以上の高解像度のゲーム動画に対して、各種手法を適用しベンチマークを提供。 データセット、評価用のサーバーも提案

2017-09-25T09:50:36Z CNN ComputerVision

score

Saliency Revisited: Analysis of Mouse Movements versus Fixations

顕著性(画像のどこに眼を付けやすいか)の研究において、データセットの作成方法であるマウス追跡と視線追跡でどのような差異が発生するか比較を行った。

2017-09-21T06:00:07Z CNN ComputerVision

Quality

score

Google Vizier: A Service for Black-Box Optimization (KDD2017)

Googleが採用しているブラックボックス最適化手法についての論文。 主に、Gaussian Process Banditsモデルを用いて最適化を行っている。 Google内では、ハイパーパラメータのチューニング、ABテストの自動化で使われている。

2017-11-05T12:16:33Z Optimization

score

RoomNet: End-to-End Room Layout Estimation (ICCV2017)

end-to-endで部屋のレイアウトを推定するCNNを提案。**SOTA**達成 、200-600倍の高速化を実現 従来手法ではセマンティックセグメンテーション後→レイアウトのランキングを行っていたが、提案手法では直接レイアウトのキーポイント検出が可能

2017-10-14T11:50:35Z CNN ComputerVision

score

Emotion Recognition in Context (CVPR2017)

文脈を考慮した26つの感情推定をCNNを用いて行い、感情推定のためのデータセットEMOTICも公開した。 従来の感情推定の研究では主に6つのカテゴリで感情推定を行っていたが、今回は文脈を考慮して26つの感情へ拡張。 HCIなど感情推定を詳細に行えることで様々な応用先が考えられる。

2017-11-19T14:26:24Z CNN

score

FUSE: Full Spectral Clustering (KDD2016)

べき乗法と独立成分分析を用いたデータのマルチスケールに頑強なスペクトラルクラスタリング手法の提案 ![image](https://user-images.githubusercontent.com/2786333/34908443-02acf8b6-f8d3-11e7-8b0a-e6751b94dc76.png)

2018-01-13T17:33:12Z Optimization

score

Am I a Baller? Basketball Performance Assessment from First-Person Videos(ICCV2017)

FPVを用いたバスケット選手の評価手法を提案 問題点 : バスケットボールの評価は主観的になりがち →弱教師つきのビデオにより特定の評価者の好みに合わせたモデルを学習 また、バスケットボールのルールは教えていないが、評価に繋がる行動も検出可能になった。

2017-10-13T14:41:10Z CNN ComputerVision RNN

score

TFX: A TensorFlow-Based Production-Scale Machine Learning Platform (KDD2017)

TensorFlowを基盤にしたプロダクション環境でスケーリングするプラットフォーム、TFXを提案。 実験では、Google Playのメインページで表示するレコメンドアプリのランキングをTFXで運用し、アプリのインストール率2%を向上させた。 - 解説資料 - https://www.slideshare.net/shunyaueta/tfx-a-tensor-flowbased-productionscale-machine-learning-platform

2017-11-06T14:41:00Z

score

DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks (ICCV2017)

- CNNを使ってスマホで撮影した写真をデジタル一眼レフを使ったクオリティに引き上げる - 実際にiPhone3GSの写真に提案手法を適用すると見違えるくらい綺麗になっていて凄い。 6000枚のDSLRと低スペックの写真をセットにしたデータセットも公開 痛いところ : スマホのカメラはデジイチに比べてセンサなど制約が多い→それを解消するためにCNNを提案

2017-11-07T14:22:28Z CNN ComputerVision

score

What Is Around The Camera? (ICCV2017)

画像を撮影時に、前景物体などに写り込んだ情報からカメラの周りの画像を再構築する研究

2017-11-23T14:52:52Z CNN ComputerVision

score

What Can Help Pedestrian Detection? (CVPR2017)

HyperLearnerと呼ばれるCNNで得られた複数の特徴量(オプティカルフロー、深度特徴、物体検出、etc.)を統合して歩行者検出でSOTAを達成。Baselineの手法と比較しても速度の低下も防げている。

2017-11-30T14:47:32Z CNN ComputerVision

score

Neural Person Search Machines(ICCV2017)

Conv-LSTMを用いて現実世界での人物検索手法を提案 他のNN手法と比較して約3%精度を向上、SOTAを達成 人物の後ろ姿をクエリに設定しても、正面からの人物画を検索が成功している

2017-10-15T13:15:10Z CNN ComputerVision RNN

score

Pose Guided Person Image Generation (NIPS2017)

任意の姿勢をクエリにした画像生成の研究。Stage1でクエリ画像の姿勢に近い画像を生成、Stage2でStage1で生成された低解像度の画像を高解像度化を行ってより精錬された画像を生成する。

2017-12-03T14:20:48Z CNN ComputerVision

score

DeepRoadMapper: Extracting Road Topology From Aerial Images (ICCV2017)

- 道路地図を作成する場合、現状では車載カメラ等を用いている。正確な地図を作成できる反面、 スケーラビリティが無い - 提案手法: 衛星画像から道路を推定する事で、安価かつスケーラビリティのある解決方法を提案 - ResNetをベースにしたCNNを構築して、道路を抽出した。

2017-10-28T14:50:23Z CNN ComputerVision

score

Saliency Revisited: Analysis of Mouse Movements versus Fixations

顕著性(画像のどこに眼を付けやすいか)の研究において、データセットの作成方法であるマウス追跡と視線追跡でどのような差異が発生するか比較を行った。

2017-09-21T06:00:07Z CNN ComputerVision

score

TorontoCity: Seeing the World with a Million Eyes

従来に無い多視点のデータセットを提案 : ドローン、航空写真、車載カメラ 新たな問題を提案: 建物の高さ検出、道路の中央線、カーブを検出など 現状のCNNでも提案問題を解くことは難しい 将来的には信号の意味を認識、街路樹の種類推定などを行っていく

2017-09-27T03:17:45Z CNN ComputerVision

score

Deep Sets (NIPS2017)

教師つき学習は表現が有限な次元という問題点を解消するために有限なベクトル空間を置換可能な不変集合と考えて学習を行うDeepSetsを提案 - Alex smolaさん!! AmazonとCMUの合作

2017-12-02T14:48:54Z Optimization

score

CARLA: An Open Urban Driving Simulator (Conference on Robot Learning 2017)

- 自動運転のためのOSSのシミュレーターを公開、Unreal Engine 4を基に作成 - PythonによるAPIが提供されており、エージェントに対してステアリング、ブレーキ、アクセルがなどのメタコマンドが用意されている - Github : https://github.com/carla-simulator/carla

2017-11-24T14:12:53Z ReinforcementLearning

score

Following Gaze in Video(ICCV2017)

動画内において人物が見ている箇所は、多くの場合、同一のフレーム内に存在していない。そのため異なるフレームをまたいでどこを見ているかを推定できる手法を提案

2017-10-12T10:23:40Z ComputerVision

score

Learning Deep Representations for Graph Clustering (AAAI2014)

自己符号化器とSpectral Clusteingの関連性を示した論文。 固有値計算とグラフエンコーダの計算量や精度を比較した。 自己符号化器 2014年当時、分類問題などの問題に焦点が当てられクラスタリングとDeepLeaningの関係性は論じられていたなかった。

2017-12-23T17:56:15Z DataRepresentation

score

Speed/accuracy trade-offs for modern convolutional object detectors (CVPR2017)

- 特定の目的に沿った、速度、メモリ、精度のバランスを実現するために物体検出アーキテクチャはどれを選択すべきか?という研究 - 基本的に速度と精度はトレードオフであり、最速はSSDs, MobileNet, 最高精度はFaster R-CNN w/Inception Resnet at stride 8

2017-11-13T21:20:25Z CNN ComputerVision

score

Machine Learning that Matters (ICML2012)

意味のあるデータを収集して機械学習を行うべきと示唆、皆いつまでもアヤメの花の分類をして満足しては駄目という啓蒙的論文。Research Questionを持って意味のあるデータを使って研究を行いましょうという示唆をしている。

2017-12-01T08:27:58Z

score

Representation Learning by Learning to Count (ICCV2017)

画像内の基本要素のカウンティングを行う教師なし手法を提案。 要素のカウンティングでは転移学習のベンチマークにおいてSOTAを達成。 - Tensorflow実装が公式に公開

2017-11-21T14:48:48Z CNN ComputerVision

score

Customizing First Person Image Through Desired Actions

- FPVにおいて、将来的な移動の軌跡を表現するActionTunnelと呼ばれるモデルを提案 - 移動の軌跡から移動先の画像の生成をGANを用いて行いナビゲーションを行う。 - GANを用いて画像の補間を行うことにより、アノテーション作業が不要な点が優れていると主張している。

2017-11-13T06:24:52Z CNN ComputerVision

score

Edge-Weighted Personalized PageRank: Breaking A Decade-Old Performance Barrier (KDD2015)

ページランクを求める際に、10年前ではデファクトだった数値計算手法が最近でも使われているが近年の高速な数値計算手法に置き換えることでページランクの計算パフォーマンスを劇的に向上。 KDD2015 Best Student Paper awardを受賞 データセットにはDBLPやWeiboを利用することで大規模なグラフに対して計算実験を行った。

2017-12-04T13:01:35Z Optimization

score

Playing for Benchmarks

25万枚以上の高解像度のゲーム動画に対して、各種手法を適用しベンチマークを提供。 データセット、評価用のサーバーも提案

2017-09-25T09:50:36Z CNN ComputerVision

score

KeystoneML: Optimizing Pipelines for Large-Scale Advanced Analytics

- Scalaで書かれた機械学習の大規模分散下における学習のパイプラインを提供するフレームワーク - KeystoneMLを用いることで、高精度が保証されスケーラブルな学習ができることをいくつかの領域で示した - 従来の分散学習フレームワークのVowpal Wabbit、SystemMLに勝利 Apache Sparkにて動く。 - Official Site : http://keystone-ml.org/

2017-11-28T14:42:05Z Optimization

score

Call center stress recognition with person-specific models (ACII2011)

ストレスのレベルを測定するマシンを自作、実際にコールセンターのスタッフのストレスを測定後にアンケートでストレスレベルを答えてもらい学習データを作成し、SVMで判定を行う。 その後実験では73%の確率でストレス状態を検知できるようになった。

2018-01-14T12:46:16Z

score

Where To Look: Focus Regions for Visual Question Answering (CVPR2016)

VQA datasetに対して、提案手法を適用。従来手法を(当時は)全て上回った。 画像に対してCNNを用いて物体領域の検出を行った後にベクトル化、質問クエリはword2vecを用いてベクトル化を行う。 その2つのベクトルを用いて内積計算により重み付けを行うことで、どの領域に注目すべきかを計算する。

2018-01-17T05:46:16Z CNN Dialogue/QA NLP

score

Tracking the Dynamics in Crowdfunding (KDD2017)

クラウドファンディングで将来的にどれくらいのプロジェクトが立ち上げられ、どれくらいの資金を獲得するか予測する研究。 回帰分析やランダムフォレストなどを用いて予測を行ったが、スイッチング回帰を用いることで高精度に予測できた。 データは、Indiegogo.comから取得して実験を行った。 データセットは以下で公開されている。 http://home.ustc.edu.cn/%7Ezhhk/DataSets.html

2017-10-25T14:27:15Z

score

Analyzing Free-standing Conversational Groups: A Multimodal Approach (ACMMM15)

近接センサーと監視カメラを用いてスタンディングディスカッション形式を行っているグループに対してマルチモーダルな会話の解析・評価を行った。 SALSAとよばれるデータセットも公開されている ACMMM15 Best Paper.

2018-01-14T12:53:56Z ComputerVision Dialogue/QA