読者です 読者をやめる 読者になる 読者になる

データサイエンスチームでのインターンのすすめ

データサイエンスチームの後藤です。

学生のみなさんはそろそろ夏のインターンの時期ですね。 私も、ちょうど一年前に学生の立場でVASILYのインターンに参加して熱い夏を過ごしたことを思い出します。

本記事では、データサイエンスチームの実際の仕事と夏のインターンについてご紹介します。 記事の最後に、インターン募集の案内も貼っていますので、インターンに参加したいと思ってくれた方はぜひチェックしてください!

VASILYのインターンの特徴

エンジニア向けのインターンでは、VASILYのプロダクトであるiQONに直接関わる開発を行っていただきます。よくあるコンペティション形式やハッカソン形式のようなものではなく、メンターと一緒に、実際のプロダクトで動いているコードを触りながら開発を進めていきます。私たちはユーザーに価値を届けることをとても大事にしていますので、インターン生にも、最後まで責任をもってアウトプットの質を高めてユーザーに届けてもらいます。作りっぱなしではなく、必ずユーザーの反応が返ってくるのでやり甲斐があります!

インターンへの参加方法

VASILYのインターンに参加するためには、こちらが出す課題を解いてもらいます。課題は汎用的な内容で、とあるデータセットで推薦システムを作るというものです。詳細は応募してからのお楽しみですが、インターンで取り組んでもらう仕事の、準備研究に位置付けています。

課題では、問題設定の理解、アルゴリズムの実装など様々なスキルを測ります。これらはデータサイエンティストの実務での必須能力なので、課題に取り組む中でスキルをどんどん磨いてみてください!

データサイエンティストの業務内容

インターン中はデータサイエンスチームと共に過ごすので、社員の業務に触れることもあるでしょう。 VASILYのデータサイエンティストの業務は大きく分けて「データ分析」と「研究開発」の二つがあります。

データ分析

データを目的に応じて適切に集計・可視化していきます。VASILYではユーザーの行動データ、商品データ、検索キーワードなど多種多様のデータを保有しています。それらを分析して仮説の検証、営業資料の根拠、異常検知に利用し、それに続く意思決定を支援します。エンジニアだけでなく、営業チーム、ビジネスチーム、経営陣などすべての部署と直接関わっていきます。これは大企業のデータサイエンティストと異なる部分かもしれませんね。現在は、各部署が追っている200を超える指標を常時最新の状態に保ち、社内に共有して役立てています。

日々追っている指標をTableauで可視化した例

研究開発

VASILYではiQONの新サービスの開発・改善のプロジェクトを複数進めています。目的の機能をつくるために、アルゴリズムの選定・実装をし、実データで検証、最終的に実際に稼働するサービスに仕上げていきます。開発言語は主にPythonを用いますが、webとの連携が強い部分はRubyを使って開発をすることもあります。

例えば、機械学習の国際会議の一つ、ICML2015で発表された多腕バンディッドのアルゴリズムがサービスとして稼働しており、Rubyでの実装もGitHubで公開しています。他にもiQONのサービスの裏側では、ディープラーニング、協調フィルタリング、LDAなどの機械学習の手法を活用しています。

今回のインターンでは、データサイエンスチームの一員として、研究開発の仕事をしてもらいます。定期的なミーティングや突発的に起こる議論にも参加していただきますので、本当の就労体験ができるでしょう。

私たちがどのような思いで仕事をしているのかに答えた記事もありますので、合わせてご覧ください! ビッグデータがあなたのファッションセンスを丸裸にする!ファッションアプリiQONを駆動させる最新データサイエンスの世界

去年の参加者の声

慶應義塾大学 Nさん

VASILYのインターンでは実際に使われているデータを使って、実際のサービスに活かす分析が求められるので、非常に実践的で、分析の手法やツールはもちろん分析に対する考え方の面で大変勉強になりました。何よりファッションの大規模データという普段触れないデータを思い切り分析することができてとても楽しかったです!

東京大学大学院 Gさん

VASILYのデータはとても整理されていて、分析がしやすい環境が整っていました。環境について不満がない分、自分の知識の足りなさ、実装力など今後の課題も浮き彫りになりました。ユーザーに価値を届けるというマインドの面でも学ぶことが多く、今後の仕事選びの指針になりそうです。エンジニアだけでなく、営業や雑誌編集をしている方などいろんな部署の人と机を並べて仕事ができたのはとても楽しく、かけがえのない体験でした!

インターンからの内定

VASILYの新卒採用はインターンへの参加が必須としていますので、インターンはいわゆる内定直結型といえるでしょう。実際に、私は去年の夏のインターンを経て、VASILYに入社しました。

インターンでは、どっぷりiQONの開発に携わるので、マインドやスキルセットが合っているかを見極める良いチャンスです。内定者アルバイトの制度もありますので、入社後のミスマッチも少ないかと思います。

中途社員の経歴も、外資系コンサル、大手通信会社や大手ゲーム会社などなど様々なバックグラウンドのメンバーが揃っており、いろいろな立場の話が聞けます。私がベンチャー感の特に強いVASILYへの入社を決めたのも、社員の率直な意見をたくさん聞けて信頼できたからです。インターン参加中は、いろいろな部署の社員と話せるチャンスです。VASILYで働く人たちになんでも聞いてしまいましょう。

事前に知っておくといい知識

いまでは当たり前のように使っていますが、学生の頃には知らなかった便利なサービスやツールを紹介します。 仕事で触っているうちに使えるようになりますが、事前に動かせるようにしておくと良いスタートダッシュを切ることができるでしょう!

  • GitHub (https://github.com/) コードのバージョン管理をするサービスです。このサービスを使えば、書いたコードを公開したり、コードに変更が加えられた際、誰がどのように変更・追加・削除したのかを管理することができます。様々なコマンドがありますが、実際に触って覚えるのが良いでしょう。

  • Slack (https://slack.com/) 情報共有ツールのひとつで、VASILYでは部署やプロジェクトごとにチャンネルを作り、チャットで情報を共有します。 ほかにも、アイディアを書き溜めておくチャンネルやBOTがニュースを集めてくるチャンネルなどさまざまなカスタマイズに対応できます。大学の研究室でも使っているところがあるようです。

  • BigQuery (https://cloud.google.com/bigquery/what-is-bigquery) Google Cloud Platformが提供するデータ分析ツールです。ギガバイト単位の大量のデータを圧倒的な速度で集計し抽出することができます。簡単な集計だけで済んでしまうような分析はBigQueryだけで完結させることもできます。最近、結果をそのままSpreadsheetに吐き出せるるようになり、ますます便利になりました。 VASILYではほぼすべてのデータがBigQueryに同期されており、データの結合や集計が素早くできるようになっています。 SQLの書き方を学んで必要な情報を抽出できるようになっておくと、データ分析の前処理がとても早くなります。

  • Google Cloud Dataproc (https://cloud.google.com/dataproc/) データサイエンティストの業務にはコンピュータリソースが欠かせませんが、業務によって必要となるスペックが異なる場合が多いです。そんなとき、さまざまなスペックの分散クラスタを90秒で立ち上げ、分単位の課金で借りることができるDataprocが便利です。VASILYではスペックの高い分散クラスタを30分だけ起動させて、並列計算を一気に済ませてかかる料金を節約する、といった使い方もしています。

  • Tableau (http://www.tableau.com/ja-jp) コードを書かずにテンポよくデータを可視化することができる便利なツールです。BigQueryやGoogle Analyticsとの連携もでき、自動でデータを抽出して図を最新の状態に保つことができます。個人的に研究ではPythonのMatplotlibを使って作図していましたが、Tableauを使えば圧倒的に時間を節約できます。自動更新もしてくれるので、一度作ってしまえば、営業やマーケターが毎日データをとってきてExcelにコピペするという作業もなくすことができます。アカデミック版もあるので学生は気軽に使い始めることができます。

最後に

今回はVASILYのデータサイエンスインターンの紹介をしました。

VASILYではインターンを通年募集していますが、時間が取れる夏休みが絶好のチャンスです! 機械学習やプログラミングが得意な方、iQONが好きで開発してみたい方など、成長できる環境を用意していますので、是非VASILYのインターンに応募してみてください。

夏のインターンはデータサイエンスチームだけでなく、全部署で募集しています!