ファッション×機械学習の論文紹介

こんにちは。データチームの後藤です。
弊社のデータサイエンティストは職務の1つとしてファッション×機械学習の研究・開発に取り組んでいます。このファッション×機械学習の分野は世界中の大学や研究機関で精力的に研究されているため、我々も最新の動向を日々追いかけて、技術検証やサービスへの実用化を進めています。
本記事では、ファッション×機械学習の最新の研究動向を理解するための比較的新しい研究論文を紹介します。この記事を読むとファッション×機械学習の応用例を把握することができると思います。特に注目している研究の紹介には論文中の図とコメントを残しましたので、追いかける際の参考にしてください。なお、本記事内に掲載されている論文の中にはarXivのみに投稿されているものもあります。「査読を通しておらず内容が保証されない」「今後バージョンアップされ内容が変更される」といった可能性があります。ご了承ください。

一言でファッション×機械学習といっても、その内容は多岐にわたります。今回はファッションに関する行動のうち、
  • 流行を知る
  • 商品を探す
  • アイテムの組み合わせを考える

というタスクを機械学習システムで補助するという状況で利用できそうな研究を紹介します。

流行を知る

「現在のファッショントレンドのうち、流行り続けるのはどれか」「かつて流行っていたスタイルは今後ふたたび流行するか?」といったファッショントレンドの未来予測は、ファッション業界のデザイナーや販売業者、製造業者にとって重要なタスクです。大抵の消費者は、今後廃れていくスタイルの服よりも、今後主流になっていく服を購入したいと考えるでしょう。

トップダウン式に流行が決まると言われているファッションにおいて、データドリブンなファッショントレンドの未来予測は可能なのでしょうか。過去の傾向をデータで定量化する研究はいくつかありますが、未来を予測する研究は意外にも少ないようです。

Fashion Forward: Forecasting Visual Style in Fashion (2017)

この研究1では、複数の機械学習タスクをうまく組み合わせることによって、データドリブンなファッショントレンドの予測に成功しました。

この研究のポイントは、
  • 属性予測タスクを学習させたConvolutional Neural Networks(以下、CNNと呼ぶ)による特徴量抽出
  • Non-Negative Matrix Factorizationによるスタイル情報の抽出&画像データのグルーピング
  • シンプルなExponential smoothing modelによる購買頻度の予測
  • ファッショントレンドの未来予測に効くのは、タグやテキストのメタ情報よりも画像情報

です。

f:id:vasilyjp:20170720145953p:plain
上図の青線は各スタイルの服がAmazonで購入される頻度の、年ごとの推移を表したものです。緑の線が論文で提案されている手法での予測結果、その他の線は比較用のモデルの予測結果を表します。ほとんどの場合において、論文で提案された手法が実際の結果に近い値を予測していることがわかります。

StreetStyle: Exploring world-wide clothing styles from millions of photos (2017)

上記の研究と同様に、この研究2でもファッショントレンドの定量化をCNNによる特徴量抽出と、クラスタリングによって行っています。この研究は、Instagramから地域別・時期別に人の画像が集められ、分析に用いられている点が特徴です。 f:id:vasilyjp:20170720150245p:plain 画像特徴量のクラスタリングにより、抽出されたファッションスタイルの時間変化やクラスター内の地域別の内訳を調べることができます。上図の左は、各クラスターに含まれる画像の例、真ん中がクラスター内の平均画像、右がクラスター内のデータの月別・地域別の分布を表します。
上図の3行目では、黄色と黒色のストライプ柄のユニフォームを着ているクラスターの人たちの投稿が、特定の時期・地域で増えていることがわかります。これはワールドカップが開催された影響だと考えられています。
この研究ではデータの前処理を丁寧に行っています。各画像から人物を検出し、顔の位置を特定して画像のスケールを合わせています。さらに、Amazon Mechanical Turkをつかい、各画像に12種類の属性を付与しています。研究で用いられたデータはSTREETSTYLE-27Kというデータセットとして公開され利用できるようになります。

Changing Fashion Cultures (2017)

この研究3では、世界のファッショントレンドを分析できるポテンシャルを秘めている巨大なデータセットを提供しています。 f:id:vasilyjp:20170720150418p:plain f:id:vasilyjp:20170720150437p:plain 上の表から、データ数の点で他を圧倒していることがわかります。DeepFashion4や上述のSTREETSTYLE-27のような細かな属性付与はないようなので、その点はうまく処理する必要がありそうです。しかし、データの量の点で困ることはしばらくないでしょう。

その他関連研究

  • Who are the Devils Wearing Prada in New York City? 5
    • ニューヨークのファッションショーが消費者のファッションに与える影響について定量化
  • Fashion Conversation Data on Instagram 6
    • InstagramのFashionに関わるImageとconversation dataを提供
    • marketingに有効なInstagramの投稿の特徴量を評価

上述の研究から、画像データをトレンド分析で使える形に定量化する手法や、トレンド情報を含むデータセットが揃ってきたことがわかります。弊社では、タグやテキストベースのトレンドの可視化を行ってきましたが、より高度な分析をする際にこれらの手法が参考になると考えます。

商品を探す

ここでは、ECサイトで商品を探すという状況を想定しています。多くのECサイトでは、ユーザーがクエリを入力して主体的に商品を探す検索システムと、行動ログに基づいて商品の表示を変化させる推薦システムが活用されています。ファッションのドメインにおいてはテキスト情報やメタ情報よりも見た目の情報が重要になる場合が多く、画像特徴量を使う研究が盛んです。

推薦システム

推薦システムはユーザーに新しい商品との出会いを促す手助けをしてくれます。ユーザーが付けたアイテムに対するレーティング情報やクリックログを元に構築されることが多いです。しかし、ビジュアルが重要な役割をもつファッションのドメインにおいては、商品の見た目の情報がユーザーの行動に強い影響を与えていると考えられます。また、見た目の情報を活用するにしても推薦システムは計算時間も膨大になりがちなので、学習データの量に対してスケーラブルであることも求められます。ここでは、見た目の情報を使いながらも現実的な計算量に収めて推薦を実現している研究を選びました。

VBPR: Visual Bayesian Personalized Ranking from Implicit Feedback(2015)

この研究7はBayesian Personalized Ranking(以下、BPRと呼ぶ)に商品の見た目の情報を加えて推薦の精度を向上させています。 f:id:vasilyjp:20170720150759p:plain (論文中でFはCNNの出力の次元、KがItem Latent Factorsの次元となっているので、図中の「F×1」は「K×1」の間違いだと考えられます)

この研究のポイントは、
  • 商品の見た目の特徴量を学習済みCNNを使って抽出
  • 計算オーダーはLatent factorの次元KとVisual latent factorの次元Dに対して線形
  • ユーザーの評価が少ないコールドスタートなアイテムの推薦に強いことを示唆

です。

f:id:vasilyjp:20170720151242p:plain 論文中の実験結果から、服に関するデータセット(Amazon Women、Amazon Men、Tradesy.com)に関してBPRに対しVBPRのAUCが大きく向上していることがわかります。一方で、携帯電話に関するデータセット(Amazon Phones)の推薦ではAUCの大きな伸びは見られませんでした。このことは、ファッション商品の推薦において見た目の情報を取り入れることの大切さを示しています。

Sherlock: Sparse Hierarchical Embeddings for Visually-aware One-class Collaborative Filtering(2016)

この研究8では、上述のVBPRと同じ著者が、見た目の情報に商品カテゴリの階層構造を加えることでさらに精度を向上させています。 f:id:vasilyjp:20170720151352p:plain CNNから得た画像特徴量を関数(Embedding matrixと呼ぶ)を使って次元圧縮をし、Visual latent factorとして推薦に使うところは上記のVBPRと同じです。この研究ではそれに加えてEmbedding matrixにカテゴリの階層情報の制約を与えて学習させます。 f:id:vasilyjp:20170720151511p:plain

このような構造を取り入れることで、全アイテムに共通する要素(明度や彩度など)の特徴量が扱えるようになっています。上図は、学習されたEmbedding matrixの各次元(D0、D1、D8、D9)で順位付けされたアイテムを表しています。D0、D1はTop-levelのカテゴリに対応付けられる次元、D8、D9はBottom-levelのカテゴリに対応付けられる次元です。D0、D1は商品の明度や彩度などのグローバルな特徴と反応し、D8、D9は商品のフォーマルさなどの細かな特徴と反応していることがわかります。VBPRに比べ精度も向上し、計算量も大幅には増えないため、有効な改良の1つと言えるでしょう。

弊社でもファッションアイテムの推薦に見た目の情報を取り入れる実験・検証は進められており、TECH BLOGでも紹介しています。 tech.vasily.jp

その他関連研究

  • Exploiting both Vertical and Horizontal Dimensions of Feature Hierarchy for Effective Recommendation(2017)9
    • 構造の扱いを親子関係だけでなく同じ階層の関係(兄弟・従兄弟関係)にも拡張したモデル

見た目の情報が取り入れられるようになったMatrix Factorizationベースのモデルも、まだ改良の余地が残されています。例えば、移り変わるトレンドの情報に対応する、個人の好きなブランドの情報を補助情報を扱えるように改良するなどです。より様々な文脈で活用できる推薦システムを構築することが今後の目標です。

画像検索システム

画像検索システムには単純に見た目が似ている画像を返すものの他に、

  • 写り方や見た目が異なる同一商品を返す検索(Cross-domain Image Search)
  • 画像の他に属性情報をクエリに加えて検索結果を柔軟に変化させる検索(Cross-modal Image Search)

もあります。特に前者の、ファッションモデルの着こなしの画像や個人が撮影した写真をクエリにECサイトの商品画像を検索するという需要は高いです。 f:id:vasilyjp:20170720151557p:plain

ここでは、実際にImage Searchを実装する上で使えそうな工夫を行っている論文を選びました。

Cross-domain Image Retrieval with a Dual Attribute-aware Ranking Network(2015)

Cross-domain Image Searchの研究は数多くありますが、この研究10は検索精度を上げるための重要な工夫をしています。 f:id:vasilyjp:20170720151634p:plain

  • ドメイン固有の表現を学習させるために,ショップ画像とストリート画像のネットワークは分けて学習させる
  • トリプレット損失関数によるランキング学習だけでなく、複数の属性の予測問題を木構造的に学習
  • 背景の影響を小さくするために、R-CNNによる検出を活用

などです。

f:id:vasilyjp:20170721101058p:plain

上の表は、各ネットワークの検索精度の評価です。ANが属性予測タスクを学習したネットワーク、ARNがANに加えてランキングも学習したネットワークを表しています。著者らの提案したDARNはドメイン毎にサブネットワークを使い分け、ドメイン固有の表現を学習したネットワークです。この中ではDARNが最もよい性能を発揮しており、ドメイン毎にネットワークを分ける工夫が検索精度に効くことが示唆されています。

ただし、パラメータの多いCNNを2つも使っている点で学習のコストが上がるというデメリットもありそうです。

Deep Learning based Large Scale Visual Recommendation and Search for E-Commerce(2017)

インドのECサイトFlipkartの取り組み11もとても参考になります。 f:id:vasilyjp:20170720151719p:plain

この研究のポイントは、
  • ディープなCNNと並列にShallow Layersを加え、low-levelな特徴量(色や模様など)を使っている点
  • 区別の難しいin-clsss negativeをつかってトリプレットを構成し、微妙なニュアンスの違いを学習させている点(下図)

です。

f:id:vasilyjp:20170720151753p:plain

通常のトリプレットでは、クエリ画像に対して同じクラスに属するpositiveと、他のクラスに属するnegativeを組にして学習に用いますが、この研究では、同じクラスに属していながら見た目が微妙に異なるin-class negativeもnegativeとして学習させています。定量的な比較は述べられていませんが、著者等によると、細かな違いに対する感度が上がるようです。

Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search (2017)

「見た目はこんな雰囲気なんだけど、色は青でふわふわな襟のものが欲しい」というちょっとわがままなクエリに答えるシステムも研究12されています。この研究では、以下の図のように、服の色や形の属性を操作して画像検索の結果を変化させることができるシステムを構築しています。

f:id:vasilyjp:20170720151844p:plain 属性をインプットするモジュールでは、属性(色、丈、素材、形など)の特徴量ベクトルを、その属性を持つ実際の画像の特徴量の平均値で初期化し保持しておきます。画像と属性のインプットに対して、保持しておいた情報を画像に加え、属性変換後の画像特徴量としてトリプレット損失関数を計算します。 f:id:vasilyjp:20170720151924p:plain この研究とネットワークのアーキテクチャは大きく異なりますが、弊社でも同様のタスクを研究しIBIS2016で発表しました。VAEとGANの生成モデルを活用した属性変換による画像検索システムです。興味のある方は読んでみてください。 tech.vasily.jp

その他関連研究

  • Visual Discovery at Pinterest(2017)13
    • 画像ブックマークサービスのPinterestにおける画像検索・推薦エンジンの紹介
  • Visual Search at eBay(2017) 14
    • eBayでの画像検索の実装例

アイテムの組み合わせを考える

明日どんな服を着ようか、と考える際、様々な要素(ドレスコード、流行、季節、天気、色の調和、動きやすさなど)を考慮し手持ちの服を組み合わせます。そんな複雑な意思決定を機械学習システムで補助するのがOutfit Support Systemです。(装い一式のことを英語ではOutfitといい、日本でよく使われる「コーディネート」という表現はしないそうです。以下ではコーディネートのことをOutfitと表記します。)

通常、ファッションアイテムの組み合わせの提案は雑誌のコンテンツやショップの店員さんなど、おしゃれ上級者によってなされます。そして、組み合わせの良し悪しはとても繊細で、人によって評価が分かれるなど主観に左右されることもあります。このような複雑な判断を機械学習システムにやらせようとすると「組み合わせのモデリングの難しさ」と「ファッションのコンセプトの捉えにくさ」に直面します。

ここでは、評価の難しいOutfitを上手く定量化している研究を選びました。

Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data (2017)

この研究15で提案されているシステムは、ユーザーがすでに組み合わせているアイテムに対して、マッチするアイテムを教えてくれます。このシステムでは以下の図のようにデータを扱い学習します。上段ではアイテムの組み合わせからOutfitの質を評価する手順を、下段では1つ1つのファッションアイテムを特徴量に変換する手順を示しています。

f:id:vasilyjp:20170720152020p:plain

この研究のポイントは、
  • 組み合わされるアイテムの数が可変であることから、Outfitの入力をRecurrent Neural Networks(RNN)を使って評価
  • スタイルやブランドなどの文脈情報を考慮するために、画像、カテゴリ、タイトルのmulti-modalなデータを同時に利用
  • End-to-Endでの最適化

です。

この研究ではPolyvore.comのOutfitのデータを使っていますが、弊社の運用するIQONに投稿されたデータも同等の情報をもっているため、類似のシステムを構築することが可能だと考えています。

Trip Outfits Advisor: Location-Oriented Clothing Recommendation(2017)

旅行先を入力すると旅行先に合ったOutfitを推薦してくれるシステムの研究16です。 f:id:vasilyjp:20170720152102p:plain

この研究のポイントは、
  • 観光地の文脈も考慮(中国のビーチでは保守的な人が多いため、ビキニよりもロンパースを提案する、お寺ではスカートを提案しない)
  • メジャーな観光地を背景とした際に映える色の組み合わせを提案

です。

アイテムの組み合わせの良し悪しやロケーションとの関係について研究が進みつつあります。実際の購買行動に結びつける場合はパーソナライズが必要であると考えます。観点としては、

  • 好み
  • 体型
  • 手持ちの商品
  • 予算

などが挙げられます。

その他関連研究

  • Intelligent fashion styling using genetic search and neural classification (2015) 17
    • 標準的でない体型の女性に対するOutfitの提案システム
  • GetDressed: A Personalized and Contextually-Aware Clothing Advisor for the Home (2014) 18
    • 手持ちのアイテムからOutfitを決めるシステム

上述の観点をすべて盛り込んだ専属スタイリストの役割をシステムで実現することは非常に難しい問題です。しかし、上述のOutfit自体の評価方法やロケーションとOutfitの関係の研究が揃ってきたので、それぞれの手法を統合したより柔軟なシステムの構築が可能だと考えます。

最後に

今回は、ファッションに関する行動のうち「流行を知る」「商品を探す」「アイテムの組み合わせを考える」というタスクを補助する機械学習システムの研究を紹介しました。ファッションに関するデータに機械学習を組み合わせることにより、人の判断を助ける様々なシステムが実現可能であることがわかっていただけたかと思います。

今回紹介できませんでしたが、ほかにも

  • Object Detection
  • Human Parsing
  • Attribute Prediction
  • Style Understanding

などファッション×機械学習の興味深い様々な分野があります。
今年の10月にはコンピュータビジョンの国際会議ICCV2017がイタリア開催されます。この会議では"Computer Vision for Fashion"なるファッションをテーマにしたワークショップが開かれる予定です。ファッション×機械学習の研究分野はさらなる盛り上がりを見せる勢いです。

VASILYでは、最新の研究にアンテナを張りながら、同時にユーザーの課題解決を積極的に行うメンバーを募集しています。 興味のある方はこちらからご応募ください。

参考


  1. Z. Al-Halah, R. Stiefelhagen, K. Grauman. Fashion Forward: Forecasting Visual Style in Fashion. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1705.06394.pdf

  2. K. Matzen, K. Bala, N. Snavely. StreetStyle: Exploring world-wide clothing styles from millions of photos. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1706.01869.pdf

  3. K. Abe, T. Suzuki, S. Ueta, A. Nakamura, Y. Satoh, H. Kataoka. Changing Fashion Cultures. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1703.07920.pdf

  4. Z. Liu, P. Luo, S. Qiu, X. Wang, X. Tang. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations. In Proc. CVPR, 2016. Retrieved from http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Liu_DeepFashion_Powering_Robust_CVPR_2016_paper.pdf

  5. K. Chen, K. Chen, P. Cong, W. H. Hsu, J. Luo. 2015. Who are the devils wearing prada in new york city? In Proc. ICM, 2015. Retrieved from https://arxiv.org/pdf/1508.04785.pdf

  6. YI. Ha, S. Kwon, M. Cha, J. Joo. Fashion Conversation Data on Instagram. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1704.04137.pdf

  7. R. He, J. McAuley. VBPR: Visual Bayesian Personalized Ranking from Implicit Feedback. In Proc. AAAI, 2016. Retrieved from https://arxiv.org/pdf/1510.01784.pdf

  8. R. He, C. Lin, J. Wang, J. McAuley. Sherlock: sparse hierarchical embeddings for visually-aware one-class collaborative filtering. arXiv, 2016. Retrieved from https://arxiv.org/pdf/1604.05813.pdf

  9. Z. Sun, J. Yang, J. Zhang, A. Bozzon. Exploiting both Vertical and Horizontal Dimensions of Feature Hierarchy for Effective Recommendation. In Proc. AAAI, 2017. Retrieved from https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14679

  10. J. Huang, RS. Feris, Q. Chen, S. Yan. Cross-domain image retrieval with a dual attribute-aware ranking network. In Proc. ICCV, 2015. Retrieved from http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Huang_Cross-Domain_Image_Retrieval_ICCV_2015_paper.pdf

  11. D. Shankar, S. Narumanchi, H. A. Ananya, P.Kompalli, K. Chaudhury. Deep Learning based Large Scale Visual Recommendation and Search for E-Commerce. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1703.02344.pdf

  12. B. Zhao, J. Feng, X. Wu, S. Yan. Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search. In Proc. CVPR, 2017. Retrieved from http://www.zhaobo.me/papers/cvpr_atman.pdf

  13. A. Zhai, D. Kislyuk, Y. Jing, M. Feng, E. Tzeng, J. Donahue, Y. L. Du, T. Darrell. Visual discovery at pinterest. In Proc. IWWWC, 2017. Retrieved from https://arxiv.org/pdf/1702.04680.pdf

  14. F.Yang, A.Kale, Y.Bubnov, L.Stein, Q.Wang, H.Kiapour, R. Piramuthu. Visual Search at eBay. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1706.03154.pdf

  15. Y. Li, L. Cao, J. Zhu, J. Luo. Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data. IEEE Transactions on Multimedia, 2017. Retrieved from https://arxiv.org/pdf/1608.03016.pdf

  16. X. Zhang, J. Jia, K. Gao, Y. Zhang, D. Zhang, J. Li, Q. Tian. Trip Outfits Advisor: Location-Oriented Clothing Recommendation. IEEE Transactions on Multimedia, 2017. Retrieved from http://ieeexplore.ieee.org/abstract/document/7907314/

  17. A. Vuruskan, T. Ince, E. Bulgun, C. Guzelis. Intelligent fashion styling using genetic search and neural classification. International Journal of Clothing Science and Technology, 2015. Retrieved from https://www.researchgate.net/profile/Cueneyt_Guezelis/publication/275257326_Intelligent_fashion_styling_using_genetic_search_and_neural_classification/links/56e45fb708ae68afa11061a5.pdf

  18. Z. Liu, J. Suarez, Y. Wu, F. Yu. GetDressed: A Personalized and Contextually-Aware Clothing Advisor for the Home. Retrieved July 21, 2017, https://static1.squarespace.com/static/5357036ee4b04cbb6439b475/t/54697fd6e4b0bb15f1889fda/1416200150924/GetDressed_FinalPaper.pdf