基盤モデル

基盤モデル（きばんモデル、foundation model）は、自己教師あり学習や半教師あり学習（英語: Semi-supervised learning）により膨大なデータで学習した大規模人工知能モデルで、様々な下流タスクに適用することができる^[1]^[2]。基盤モデルは、著名なチャットボットやその他のユーザ向け AI の動力源となるなど、AI システムの構築方法に大きな変革をもたらしてきた。The Stanford Institute for Human-Centered Artificial Intelligence (HAI) の Center for Research on Foundation Models (CRFM) がこの用語を広めた^[1]。

基盤モデルの初期の例は、Google の BERT や様々な初期の GPT 基盤モデル（特にOpenAIの「GPT-n」シリーズ）を含む事前訓練された大規模言語モデル（LLM）だった^[3]^[4]。

定義

The Stanford Institute for Human-Centered Artificial Intelligence（HAI）の Center for Research on Foundation Models（CRFM）は、2021年8月に「基盤モデル」という用語を作り、「（一般に大規模な自己教師学習によって）幅広いデータで訓練され、下流の幅広いタスクに適応できる全てのモデル」に言及した^[5]。焦点が言語とは限らないという点において大規模言語モデルという用語では狭すぎることなどを考慮し、基盤モデルという用語に落ち着いた^[6]。

歴史

2023年12月、グーグルは新しい基盤モデル Gemini を発表した。同社は、この Gemini は一般的なタスクにおいて専門家の意見よりも優れた正しい基盤モデルであり、科学文献の分析も可能であると主張している^[7]。

個別化された基盤モデル

基盤モデルは膨大なデータセットによって事前に訓練されているため、特定の「個別化された」概念を扱うことはできない。モデル全体を再トレーニングすることなく、個別化された項目で基盤モデルを補強する手法が様々考案されてきた。例えば、few-shot 画像検索では、視覚言語基盤モデル（CLIP）の語彙に新しい概念を追加することで適応する方法が示された^[8]。

テキスト画像生成（英語: Text-to-image generation）では、同様にテキスト反転と呼ばれるアプローチでシステムに新しい概念を教え、既存の概念と組み合わせて生成できるようにすることができる^[9]。

機会とリスク

2021年の arXiv のレポートでは、「言語、資格、ロボット工学、推論、人間との対話」に関する基盤モデルの能力、「モデルのアーキテクチャ、訓練手順、データ、システム、セキュリティ、評価、理論」などの技術的原則、法律、医療、教育などの応用、「不公平、誤用、経済・環境への影響、法的・倫理的考察」などの社会への潜在的影響について述べられている^[5]。

エコノミスト誌の基盤モデルに関する記事では、「経済的・政治的権力のさらなる集中に対する懸念」が指摘された^[10]。

脚注

[脚注の使い方]

出典

^ ^a ^b “Introducing the Center for Research on Foundation Models (CRFM)”. Stanford HAI. 11 June 2022閲覧。
^ Goldman (2022年9月13日). “Foundation models: 2022's AI paradigm shift” (英語). VentureBeat. 2022年10月24日閲覧。
^ Rogers, Anna; Kovaleva, Olga. "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL]。
^ Steinberg, Ethan; Jung, Ken; Fries, Jason A.; Corbin, Conor K.; Pfohl, Stephen R.; Shah, Nigam H. (January 2021). “Language models are an effective representation learning technique for electronic health record data”. Journal of Biomedical Informatics 113: 103637. doi:10.1016/j.jbi.2020.103637. ISSN 1532-0480. PMC 7863633. PMID 33290879.
^ ^a ^b Bommasani, Rishi (12 July 2022). "On the Opportunities and Risks of Foundation Models". arXiv:2108.07258 [cs.LG]。
^ “Reflections on Foundation Models”. Stanford HAI (18 October 2021). 22 May 2023閲覧。
^ “Gemini - Google DeepMind” (英語). deepmind.google. 2023年12月9日閲覧。
^ Cohen, Niv; Gal, Rinon; Meirom, Eli A.; Chechik, Gal; Atzmon, Yuval (2022-10-23). “"This Is My Unicorn, Fluffy": Personalizing Frozen Vision-Language Representations”. Computer Vision – ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XX (Berlin, Heidelberg: Springer-Verlag): 558–577. doi:10.1007/978-3-031-20044-1_32. ISBN 978-3-031-20043-4.
^ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2022-08-02). “An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion”. arXiv:2208.01618 [cs]. https://arxiv.org/abs/2208.01618.
^ “Huge "foundation models" are turbo-charging AI progress”. The Economist. ISSN 0013-0613 2022年10月24日閲覧。

[CRFM-1] “Introducing the Center for Research on Foundation Models (CRFM)”. Stanford HAI. 11 June 2022閲覧。

[2] Goldman (2022年9月13日). “Foundation models: 2022's AI paradigm shift” (英語). VentureBeat. 2022年10月24日閲覧。

[3] Rogers, Anna; Kovaleva, Olga. "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL]。

[4] Steinberg, Ethan; Jung, Ken; Fries, Jason A.; Corbin, Conor K.; Pfohl, Stephen R.; Shah, Nigam H. (January 2021). “Language models are an effective representation learning technique for electronic health record data”. Journal of Biomedical Informatics 113: 103637. doi:10.1016/j.jbi.2020.103637. ISSN 1532-0480. PMC 7863633. PMID 33290879.

[Bommasani_20210818-5] Bommasani, Rishi (12 July 2022). "On the Opportunities and Risks of Foundation Models". arXiv:2108.07258 [cs.LG]。

[6] “Reflections on Foundation Models”. Stanford HAI (18 October 2021). 22 May 2023閲覧。

[7] “Gemini - Google DeepMind” (英語). deepmind.google. 2023年12月9日閲覧。

[8] Cohen, Niv; Gal, Rinon; Meirom, Eli A.; Chechik, Gal; Atzmon, Yuval (2022-10-23). “"This Is My Unicorn, Fluffy": Personalizing Frozen Vision-Language Representations”. Computer Vision – ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XX (Berlin, Heidelberg: Springer-Verlag): 558–577. doi:10.1007/978-3-031-20044-1_32. ISBN 978-3-031-20043-4.

[9] Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2022-08-02). “An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion”. arXiv:2208.01618 [cs]. https://arxiv.org/abs/2208.01618.

[:0-10] “Huge "foundation models" are turbo-charging AI progress”. The Economist. ISSN 0013-0613 2022年10月24日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

定義

歴史

個別化された基盤モデル

機会とリスク

関連項目

脚注

出典