【参加記録】ICLR/ICML2019読み会

【参加記録】ICLR/ICML2019読み会

簡単に

  • ICLR/ICML2019読み会に参加してきたので発表資料のまとめと若干のコメント

  • 論文紹介枠は発表者の半分以上が自著論文持ち込みという豪華さ

  • 普段適当に流しがちな理論や数式の話が多くヒィヒィ言っておりました

  • 正直いつにもまして自分の理解に自身がないのでコメントは戯言程度にとらえてもらってしっかり一次資料のリンク先を見ていただいたほうがよいと思われます

各発表

Opening Talk

  • 会場スポンサーのDeNAさんの発表

  • 事業領域色々あるなぁとかそれぞれの収益どうなってるのかなぁとか思っていた

ICLR & ICML 2019概要説明

  • 深層学習専門の新参会議であるICLRと機械学習のトップ国際会議であるICMLの紹介、比較、最新動向の話

  • 資料がとてもわかりやすい

  • ICLRの投稿テーマトレンドとしてRNN系が縮小傾向にある

  • CNNに比べて計算の並列化が難しく研究の進展が遅くなりがちだから

  • ICMLのテーマではTrustworthly MLの台頭が時代の流れを反映している

  • ICMLではコードをオプショナルで付けて論文投稿できるようなり、採択率はコード付きのほうが高い

Natural Language Processing@ICML2019

  • ICMLのOralからNLP関連論文を4本を選んで紹介(発表は時間の関係で3本の紹介)

  • Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

  • RNNのモデルの改善手法の提案

  • 自然言語を系列ではなく階層構造で捉えるために入力された語彙とその直前語彙との階層上の関係性を抽出してメモリに記録

  • Smoothing the Geometry of Probabilistic Box Embeddings

  • 単語・エンティティのEmbeddingに置いて階層性や範囲の概念を導入する手法の提案

  • より正確には上記を実現する手法として提案されていたBox Embeddingにおける問題点である"ゼロ勾配問題"を解決する手法の提案

  • 活性化関数として既存手法で用いられていたHinge関数ではなくsoftplus関数を用いたというアプローチをとったということのよう

  • Pay Less Attention with Lightweight and Dynamic Convolutions

  • Self-Attentionにおける課題である推論の遅さを改善する手法の提案

  • Self-Attentionを改善するというよりはCNNを改善してSelf-Attentionのような文脈に応じて重みを変化する機構を与えたいという感じ

Generative Adversarial Networks@ICML2019

  • GANsとはなんぞやという話からICMLでの最新動向までの話

  • GANsは特にここ二年で発展著しく高品質なものが増えた

  • SAGAN : Self-Attentionを用いた事で大局的な特徴を踏まえた生成

  • BigGAN(BigGAN-Deep) : Batch-Size、Channel数を引き上げて大規模な学習を行い精度を更新、ただし複雑な構造の画像生成は困難

  • S3GAN : 半教師あり学習を用いてBigGANに用いた画像の10~20%の画像枚数でより良い精度の画像生成を実現

Approximation and Non-parametric Estimation of ResNet-type Convolutional Neural Networks

  • ResNet-type CNNsが上手く行く原因に関しての統計的学習解析

  • 先行研究において特定の条件下ではResNetがミニマックス最適な性質を持つことが示されていた

  • 今回はResNetのスパース性を用いて(?)この制約のない状況でもミニマックス最適な性質を持つことを証明した

  • 発表がとにかく上手で途中までなんか分かる!みたいな気持ちだったのに気づいたら何も分からなくなっていた・・・・

Data Interpolating Prediction: Alternative Interpretation of Mixup

  • DataAugmentationの手法であるMixupを識別器に組み込むData Interpolating Predictionという手法の提案

  • Mixed points上での期待値をモデルの出力にしてしまって学習するということ?

  • また、その際のモデルの汎化誤差をベータ分布のパラメータを大きくする事で小さく出来ることをラデマッハ複雑度から導出?

  • Mixupは先日参加していたkaggleのコンペで使ってみたりしていたので新しい提案手法も理解出来る・・・・わけではなかったですね

A Wrapped Normal Distribution on Hyperbolic Space for Gradient-Based Learning

  • 双曲空間における確率分布を考えて確率推論を双曲空間上を行いたい

  • 双曲空間の表現方法の一つであるLorenzModelにおいて、接空間上の確率分布を指数写像と平行移動を用いて多様体上に写像して表現

  • この表現を用いてVAEから階層性を有する人工データの埋め込み表現を取得した所、もとの木構造を反映した埋め込み表現を獲得

  • 新たなニューラルネットワークの構造最適化手法の提案

  • 既存手法の多くはChildNetworkのチューニングタスクをController側のチューニングタスクに棚上げしたような解決手法となっておりイケてない

  • 今回の手法ではControllerをシンプルなカテゴリカル分布のみにしてControllerを構成するアプローチ

  • 目的関数を上手く設計することでSOTAに匹敵する精度を達成、かつ実行時間は大幅に短縮できた

Machine Learning on Graph Data@ICML2019

How Powerful are Graph Neural Networks?

  • Graph Neural Networksがなんで上手く機能するのかという話というよりGraphNeuralNetworkにおける表現や演算の話

  • 前発表の中でもGraph Neural Networkはノイズとなる情報を落とすのでLow-Pass Filterだ、という主張があったのですが理由は全く理解できずフレーズだけ拾ってきてしまっている状況です・・・・・

Graph U-Nets

  • CNNにおけるpooling/unpooling演算をグラフ上で定義してGraph U-Netというネットワークを提案

  • セグメンテーションタスクと同一視可能なノード分類タスクだけでなくグラフ分類のタスクにおいてもSOTAを達成

Hyperbolic Disk Embedding for Directed Acyclic Graphs

  • 有向グラフを双曲空間上に埋め込む手法の提案

  • Disk Embeddingという既存のembeddingを一般化(?)するようなembeddingのフレームワークを提案

  • 既存のembedding手法においては原点が表現の限界となっていたがDisk Embeddingにおいては半径を負値で与えることで表現を拡張

  • 更にEmbedding先を双曲空間にすることでより多数のDiskを隣接出来るように

  • 資料の図がとても良い、イメージしやすい

後付け

  • ざっくり深層学習漬けの半日を過ごしだいぶ疲弊しました

  • 個人的には双曲空間への埋め込みの話が色々応用先が広そうで興味深かったです

  • ともあれ理論周りの勉強会に来るとつくづく普段の勉強不足を自覚します、ちゃんと自分で論文よまねば・・・

いじょう