La nouvelle puce Microsoft AI ne menace pas Nvidia, mais les besoins croissants de LLM conduisent à un silicium personnalisé

Rejoignez des cadres supérieurs à San Francisco les 11 et 12 juillet pour découvrir comment les dirigeants intègrent et optimisent les investissements en IA pour réussir. Apprendre encore plus

Microsoft développe une nouvelle puce d'intelligence artificielle (IA), portant le nom de code interne Athena, depuis 2019, selon les informations publiées aujourd'hui par The Information. La société pourrait rendre Athena largement disponible pour une utilisation au sein de la société elle-même et d'OpenAI dès l'année prochaine.

Les experts disent que Nvidia ne sera pas menacé par ces mouvements, mais cela signale la nécessité pour les hyperscalers de développer leur propre silicium personnalisé.

La puce, comme celles développées en interne par Google (TPU) et Amazon (architectures de processeur Trainium et Inferentia), est conçue pour gérer la formation de grands modèles de langage (LLM). C'est essentiel car l'échelle des modèles d'IA génératifs avancés croît plus rapidement que les capacités de calcul nécessaires pour les former, a déclaré l'analyste de Gartner Chirag Dekate à VentureBeat par e-mail.

Nvidia est le leader du marché de loin en matière de fourniture de puces IA, avec environ 88 % de part de marché, selon John Peddie Research. Les entreprises rivalisent juste pour réserver l'accès aux GPU haut de gamme A100 et H100 qui coûtent des dizaines de milliers de dollars chacun, provoquant ce que l'on pourrait qualifier de crise du GPU.

Transformer 2023

Rejoignez-nous à San Francisco les 11 et 12 juillet, où des cadres supérieurs partageront comment ils ont intégré et optimisé les investissements en IA pour réussir et éviter les pièges courants.

"Les modèles d'IA générative de pointe utilisent désormais des centaines de milliards de paramètres nécessitant des capacités de calcul exascale", a-t-il expliqué. "Avec des modèles de nouvelle génération allant dans des billions de paramètres, il n'est pas surprenant que les principaux innovateurs technologiques explorent divers accélérateurs informatiques pour accélérer la formation tout en réduisant le temps et le coût de la formation impliquée."

Alors que Microsoft cherche à accélérer sa stratégie d'IA générative tout en réduisant les coûts, il est logique que l'entreprise développe une stratégie d'accélérateur d'IA personnalisée différenciée, a-t-il ajouté, qui "pourrait les aider à réaliser des économies d'échelle perturbatrices au-delà de ce qui est possible en utilisant des approches technologiques banalisées traditionnelles".

Le besoin d'accélération s'applique également, et surtout, aux puces d'IA qui prennent en charge l'inférence d'apprentissage automatique, c'est-à-dire lorsqu'un modèle est réduit à un ensemble de poids qui utilisent ensuite des données en direct pour produire des résultats exploitables. L'infrastructure de calcul est utilisée pour l'inférence chaque fois que ChatGPT génère des réponses aux entrées en langage naturel, par exemple.

Nvidia produit des puces AI très puissantes et polyvalentes et propose sa plate-forme informatique parallèle CUDA (et ses dérivés) comme moyen de faire spécifiquement de la formation ML, a déclaré l'analyste Jack Gold, de J Gold Associates, dans un e-mail à VentureBeat. Mais l'inférence nécessite généralement moins de performances, a-t-il expliqué, et les hyperscalers voient un moyen d'avoir également un impact sur les besoins d'inférence de leurs clients avec du silicium personnalisé.

"L'inférence sera finalement un marché beaucoup plus vaste que le ML, il est donc important que tous les fournisseurs proposent des produits ici", a-t-il déclaré.

Gold a déclaré qu'il ne considérait pas Athena de Microsoft comme une menace pour la place de Nvidia dans l'IA/ML, où il domine depuis que la société a contribué à propulser la "révolution" de l'apprentissage en profondeur d'il y a dix ans ; construit une stratégie de plate-forme puissante et une approche axée sur les logiciels ; et a vu son stock augmenter à l'ère de l'IA générative lourde en GPU.

"Alors que les besoins augmentent et que la diversité d'utilisation augmente également, il est important pour Microsoft et les autres hyperscalers de poursuivre leurs propres versions optimisées de puces AI pour leurs propres architectures et algorithmes optimisés (non spécifiques à CUDA)", a-t-il déclaré.

Il s'agit des coûts d'exploitation du cloud, a-t-il expliqué, mais aussi de fournir des options à moindre coût à divers clients qui n'ont peut-être pas besoin ou ne veulent pas l'option Nvidia à coût élevé. "Je m'attends à ce que tous les hyperscalers continuent à développer leur propre silicium, non seulement pour concurrencer Nvidia, mais aussi avec Intel dans le cloud computing à usage général."

Dekate a également soutenu que Nvidia ne montre aucun signe de ralentissement. "Nvidia continue d'être la principale technologie GPU à l'origine du développement et de l'ingénierie de l'IA générative à grande échelle", a-t-il déclaré. "Les entreprises doivent s'attendre à ce que Nvidia continue à s'appuyer sur son innovation de pointe et à se différencier de la concurrence à mesure que les ASIC IA personnalisés émergent."

Mais il a souligné que "l'innovation dans la dernière phase de la loi de Moore sera motivée par une accélération hétérogène comprenant des GPU et des puces personnalisées spécifiques à l'application". Cela a des implications pour l'ensemble de l'industrie des semi-conducteurs, a-t-il expliqué, en particulier "les fournisseurs de technologie qui doivent encore s'engager de manière significative pour répondre aux besoins du marché de l'IA en évolution rapide".

La mission de VentureBeat est d'être une place publique numérique permettant aux décideurs techniques d'acquérir des connaissances sur la technologie d'entreprise transformatrice et d'effectuer des transactions. Découvrez nos Briefings.

La mission de VentureBeat