【参加記録】Data Gateway Talk vol.3

【参加記録】Data Gateway Talk vol.3

  • 【参加記録】Data Gateway Talk vol.3
    • 簡単に
    • 各発表
      • あの日見たデータ「サイエンス」を僕たちはまだ知らない
      • ZOZOUSEDのデータ活用事例紹介個人のキャリアの話
      • KPIという制約と創造性
      • 姿勢推定とLightGBMを用いたテニスのスイング認識
      • BtoB分野のデータサイエンティストとして5年生きた四方山話をする
    • 後付け

簡単に

  • DataGatewayTalk vol.3にblog枠として参加してきたので簡単なまとめと若干のコメントです

  • 固定されたテーマと言うよりはデータ分析者の登竜門に立つ人々向け、という大枠の中で自由な話題をという雰囲気でした

  • あとは多分、この勉強会の良いところで普段登壇しているというわけでもない人向けの登壇機会の提供目的にも重きが置かれていた模様

  • 自分はデータ分析職ってわけでもないので業界初心者向けから様々にデータ分析業界の情報を拾えればなぁ、と思って参加しておりました

  • 毎度のことですが自分のまとめコメントは戯言程度に捉えてもらってリンク先の一次資料を参考にしていただければと思います

続きを読む

【APTOS2019参戦記録】

【APTOS2019参戦記録】

  • 【APTOS2019参戦記録】
    • はじめに
      • コンペ概要
      • 解法
        • 概略
        • data
          • 補足
        • validation
          • 補足
        • preprocessing
          • 補足
        • model
          • 補足
        • hyperparameter
          • 補足
        • postprocess
          • 補足
        • ensemble
          • 補足
      • 学習パイプライン
        • パイプラインを組んでやっていた事の追記
      • おまけ

はじめに

本記事は先の週末(2019年9月8日)までやっていたAPTOS 2019 Blindness Detection コンペの振り返り記事となります。

今回のコンペにおいて、自分たちのチームは結果としてPublicからPrivate大きく順位とスコアが伸び、初の銀圏52位(Top2%)となりました。 というわけでこの記事においては記憶に残っている限りのざっくりしたコンペの外観と担当した前処理・学習パイプラインの話をします。 因みにチームメイトのmocobtさんの参戦記録はこちらです。

なお、今回のコンペにコード郡に関してはこちらのGitHubリポジトリに公開済みです。

🍊🍊

続きを読む

【参加記録】ICLR/ICML2019読み会

【参加記録】ICLR/ICML2019読み会

  • 【参加記録】ICLR/ICML2019読み会
    • 簡単に
    • 各発表
      • Opening Talk
      • ICLR & ICML 2019概要説明
      • Natural Language Processing@ICML2019
      • Generative Adversarial Networks@ICML2019
      • Approximation and Non-parametric Estimation of ResNet-type Convolutional Neural Networks
      • Data Interpolating Prediction: Alternative Interpretation of Mixup
      • A Wrapped Normal Distribution on Hyperbolic Space for Gradient-Based Learning
      • Adaptive Stochastic Natural Gradient Method for One-Shot Neural Architecture Search
      • Machine Learning on Graph Data@ICML2019
      • How Powerful are Graph Neural Networks?
      • Graph U-Nets
      • Hyperbolic Disk Embedding for Directed Acyclic Graphs
    • 後付け

簡単に

  • ICLR/ICML2019読み会に参加してきたので発表資料のまとめと若干のコメント

  • 論文紹介枠は発表者の半分以上が自著論文持ち込みという豪華さ

  • 普段適当に流しがちな理論や数式の話が多くヒィヒィ言っておりました

  • 正直いつにもまして自分の理解に自身がないのでコメントは戯言程度にとらえてもらってしっかり一次資料のリンク先を見ていただいたほうがよいと思われます

続きを読む

【参加記録】データとML周辺エンジニアリングを考える会 #2

【参加記録】データとML周辺エンジニアリングを考える会 #2

  • 【参加記録】データとML周辺エンジニアリングを考える会 #2
    • 簡単に
    • 各発表
      • GCPでStreamなデータパイプライン運用しはじめた
      • リアルタイムデータ処理基盤の構築
      • Google Cloud ML Engineに浸かってみる
      • PoC案件が多すぎてつらいので、パイプラインを使い回すツールを入れた。
      • Cloud Composer & Cloud Dataflow によるバッチETLの再構築
      • DigdagでETL処理をする
      • Comet.mlでAutoMLライブラリ開発
      • データ活用の際にハマってしまったログ・データスキーマ設計
    • まとめ

簡単に

  • データとML周辺エンジニアリングを考える会 #2に参加してきたので簡単なまとめと若干のコメント

  • 実サービスでのログ管理、どうやってDWHにデータ突っ込んでるのか、という話題が中心でした

  • 普段は機械学習やデータといえばKaggleの話しか知らないので実際のサービスともなればやはり色々大変なのだな、という印象

  • というかKaggleはもうデータがかなり綺麗に整備されて用意された状態からスタートなので忘れがちだったけど、機械学習周辺のデータパイプラインといえば各種ログから整備されたデータを作る話ですよね

  • 自分がこの分野のど素人であることもありコメントは訳のわからないことを書いている可能性があるので基本はリンク先の各資料を辿って貰うのが吉かと

  • 資料のリンクが無いものは資料が探して見当たらなかったものなので所在をご存知の方は教えていただければ幸いです・・・・

続きを読む

【Malwareコンペで行っていた特徴量管理の話】

  • はじめに
  • 特徴量管理の方針
    • 参考・前置き
    • 方針
  • 具体的なコード、アーキテクチャ
    • Main
    • ProcessorFactory
    • Processor
    • Classifier
    • FeatureExtractor
    • BaseFeature
    • feature_calculator
  • 各種検討事項
    • 特徴量の保存形式
    • 特徴量の生成と命名
    • 特徴量計算の並列化
    • encodeの切り出し
  • 反省点,改善点
    • リソース管理
    • インスタンスが落ちたときの対応
    • 学習・予測部分へのデータ引き渡し
  • 後書き
  • おまけ

はじめに

本記事は2019年3月14日まで行われていた Microsoft Malware Prediction コンペの振り返り記事となります。

ただし、具体的なコンペの解放に関してはすでに参考になる素晴らしいKernelが数多く存在することや記事[^1], [^2]があること、 稀見る非常に大きなshakeがあったコンペであったこと、そして我々がそのshakeの結果として爆死したことなどを鑑みまして 具体的なコンペの解法に関する話題には本記事では言及しません。

また、今回のコンペは自分は他二人のチームメイト(mocobtさん、Shingo.Sさん)と共に参加しており、特にmocobtさんとは完全に同じリポジトリで各自開発パートを分担する形で行っていました。

よって、本記事では主に自分が担当していた特徴量の計算と管理部分の振り返り、もといコード供養の記事となります。

なお、供養するコードはGitHubのリポジトリにすでに公開済みです。ただし、未整理な点のみご了承ください。

続きを読む

Python Logging in Kaggle

本記事はkaggle Advent Calendar 2018の16日目の記事となります。


PythonでのLogについて、自分の経験の範囲でまとめたもの

著者[twitter:@icebee__]

目次

  • 目次
  • なぜKaggleでLogを取りたいか
  • どういう情報が欲しいか
  • 現状の私のログ取得方法
    • 基本
    • 実行時間の記録
    • 処理過程の記録
    • 実験の記録
  • まとめ
  • 参考にさせていただいた諸々
続きを読む