【Malwareコンペで行っていた特徴量管理の話】

  • はじめに
  • 特徴量管理の方針
    • 参考・前置き
    • 方針
  • 具体的なコード、アーキテクチャ
    • Main
    • ProcessorFactory
    • Processor
    • Classifier
    • FeatureExtractor
    • BaseFeature
    • feature_calculator
  • 各種検討事項
    • 特徴量の保存形式
    • 特徴量の生成と命名
    • 特徴量計算の並列化
    • encodeの切り出し
  • 反省点,改善点
    • リソース管理
    • インスタンスが落ちたときの対応
    • 学習・予測部分へのデータ引き渡し
  • 後書き
  • おまけ

はじめに

本記事は2019年3月14日まで行われていた Microsoft Malware Prediction コンペの振り返り記事となります。

ただし、具体的なコンペの解放に関してはすでに参考になる素晴らしいKernelが数多く存在することや記事[^1], [^2]があること、 稀見る非常に大きなshakeがあったコンペであったこと、そして我々がそのshakeの結果として爆死したことなどを鑑みまして 具体的なコンペの解法に関する話題には本記事では言及しません。

また、今回のコンペは自分は他二人のチームメイト(mocobtさん、Shingo.Sさん)と共に参加しており、特にmocobtさんとは完全に同じリポジトリで各自開発パートを分担する形で行っていました。

よって、本記事では主に自分が担当していた特徴量の計算と管理部分の振り返り、もといコード供養の記事となります。

なお、供養するコードはGitHubのリポジトリにすでに公開済みです。ただし、未整理な点のみご了承ください。

続きを読む

Python Logging in Kaggle

本記事はkaggle Advent Calendar 2018の16日目の記事となります。


PythonでのLogについて、自分の経験の範囲でまとめたもの

著者[twitter:@icebee__]

目次

  • 目次
  • なぜKaggleでLogを取りたいか
  • どういう情報が欲しいか
  • 現状の私のログ取得方法
    • 基本
    • 実行時間の記録
    • 処理過程の記録
    • 実験の記録
  • まとめ
  • 参考にさせていただいた諸々
続きを読む