Aller au contenu

DeepSeek

Un article de Wikipédia, l'encyclopédie libre.

DeepSeek
Création Voir et modifier les données sur Wikidata
Forme juridique Société à capitaux privésVoir et modifier les données sur Wikidata
Siège social HangzhouVoir et modifier les données sur Wikidata
Activité Intelligence artificielle et technologie de l'informationVoir et modifier les données sur Wikidata
Site web www.deepseek.comVoir et modifier les données sur Wikidata

DeepSeek est une entreprise chinoise basée à Hangzhou, spécialisée dans le développement de l'Intelligence Artificielle (IA). Fondée en mai 2023, elle est une filiale du fonds spéculatif chinois High-Flyer. DeepSeek se concentre sur la création de modèles d'IA open source, optimisés pour des applications mathématiques et liées à la programmation.

DeepSeek est créé en mai 2023 en tant qu'entité indépendante du fonds spéculatif High-Flyer. High-Flyer lui-même est fondé en 2015 par trois ingénieurs de l'Université du Zhejiang, qui ont commencé à trader des actions pendant la crise financière de 2007–2008. L'entreprise utilise l'apprentissage automatique pour développer des stratégies de trading et est souvent comparée à Renaissance Technologies en raison de son utilisation d'algorithmes d'IA[1].

En avril 2023, High-Flyer annonce la création d'une nouvelle unité dédiée à la recherche sur l'intelligence artificielle générale (IAG), indépendante de ses activités financières. Cette unité est officiellement lancée en mai 2023 sous le nom de DeepSeek[2].

Technologie et modèles

[modifier | modifier le code]

DeepSeek développe des modèles de langage (LLMs) optimisés pour diverses applications telles que la génération de texte, la programmation et la résolution de problèmes mathématiques. Les modèles de l'entreprise sont disponibles en open source et se sont distingués par leur performance et leur efficacité.

DeepSeek Coder

[modifier | modifier le code]

Le 2 novembre 2023, DeepSeek lance son premier modèle, DeepSeek Coder, conçu spécifiquement pour les tâches de programmation. Il est gratuit pour un usage commercial et entièrement open source[3].

DeepSeek LLM et DeepSeek Chat

[modifier | modifier le code]

Le 29 novembre 2023, DeepSeek présent DeepSeek LLM, un modèle de langage massif comptant jusqu'à 67 milliards de paramètres. Conçu pour rivaliser avec d'autres LLM leaders comme GPT-4, il rencontré toutefois des défis en termes d'efficacité de calcul et de scalabilité. Parallèlement, DeepSeek Chat, une application de chat basée sur ce modèle, est lancée[4].

DeepSeek-V2

[modifier | modifier le code]

En mai 2024, DeepSeek lance DeepSeek-V2, un modèle offrant une performance élevée à un prix relativement bas. Avec un coût de 2 RMB (environ 0,25 euro) par million de tokens de sortie, il déclenche une guerre des prix sur le marché chinois de l'IA et est surnommé le "Pinduoduo de l'IA". DeepSeek-V2 est classé septième dans le classement des LLM du Tiger Lab de l'Université de Waterloo[5].

DeepSeek R1-Lite-Preview

[modifier | modifier le code]

En novembre 2024, DeepSeek publie R1-Lite-Preview, un modèle optimisé pour le raisonnement logique, l'argumentation mathématique et la résolution de problèmes en temps réel. DeepSeek affirme qu'il surpassait OpenAI o1 dans des benchmarks comme l'American Invitational Mathematics Examination (AIME) et MATH. Cependant, des tests indépendants du Wall Street Journal ont montré qu'OpenAI o1 était plus rapide pour résoudre les problèmes de l'AIME[6].

DeepSeek-V3

[modifier | modifier le code]

En décembre 2024, DeepSeek dévoile DeepSeek-V3, un modèle de 671 milliards de paramètres, entraîné en seulement deux mois pour un coût de 5,58 millions de dollars américains. Il a été entraîné sur un ensemble de données de 14,8 billions de tokens et surpasse des modèles comme Llama 3.1 et Qwen 2.5 dans les tests de référence, tout en égalant GPT-4o et Claude 3.5 Sonnet. L'utilisation efficace des ressources souligné les limites des sanctions américaines sur le développement de l'IA en Chine[7].

Importance et critiques

[modifier | modifier le code]

DeepSeek s'imposé comme un acteur majeur dans le domaine des modèles d'IA open source. L'entreprise attire l'attention grâce à son utilisation efficace des ressources et à la fourniture de modèles performants. Cependant, DeepSeek également fait face à des critiques, notamment en ce qui concerne les implications éthiques du développement de l'IA. Les discussions se concentrent sur des questions telles que la responsabilité des décisions prises par l'IA et les impacts à long terme sur la société.

Liens externes

[modifier | modifier le code]

Références

[modifier | modifier le code]
  1. (en) « Billions Going to China's Quants Takes Fight to Global Funds », Bloomberg News,‎ (lire en ligne [archive du ], consulté le )
  2. (en) Xu Yu, « [Exclusive] Chinese Quant Hedge Fund High-Flyer Won't Use AGI to Trade Stocks, MD Says » [archive du ], sur Yicai Global, (consulté le )
  3. (en) Ksenia Se, « Inside DeepSeek Models » [archive du ], sur Turing Post, (consulté le )
  4. (en-US) Shubham Sharma, « Meet DeepSeek Chat, China's latest ChatGPT rival with a 67B model » [archive du ], sur VentureBeat, (consulté le )
  5. (en) Ryan McMorrow et Eleanor Olcott, « The Chinese quant fund-turned-AI pioneer », Financial Times,‎ (lire en ligne [archive du ], consulté le )
  6. (en-US) Raffaele Huang, « Don't Look Now, but China's AI Is Catching Up Fast » [archive du ], sur The Wall Street Journal, (consulté le )
  7. (en) Ben Jiang, « Chinese start-up DeepSeek's new AI model outperforms Meta, OpenAI products » [archive du ], sur South China Morning Post, (consulté le )