Mistral,欧洲大模型之王,性能成本的前沿

Mistral,欧洲大模型之王,性能成本的前沿

企业越来越认识到生成式人工智能在各个领域的潜力。根据麦肯锡最近的报告,生成式人工智能每年可为全球GDP增加 2.6 万亿至 4.4 万亿美元,而基础模型的潜在的影响“可能涵盖整个经济体”。

2020 年,OpenAI 的论文《Scaling Laws for Neural Language Models》表明,大型语言模型(LLMs)随着模型大小、数据和计算能力的增加而直接改进。因此,由于计算技术的进步以及数据可用性和多样性的指数级增长,人工智能取得了重大进展。截至 2022 年 11 月,全球数据每年增长 60-70%。从 1956 年到 2015 年,计算性能增长了万亿倍。预计到 2030 年,一般计算能力预计将增加十倍,同期人工智能计算能力将增加 500 倍。

Mistral AI是一家位于欧洲AI人才高地——法国的公司,被认为是欧洲最强大的大型语言模型(LLM)公司之一。这个团队由来自Google、Meta和Hugging Face的年轻法国科学家组成。Mistral AI专注于开发更高效、成本效果更佳的大语言模型,目标是达到“性能成本前沿”。根据第三方评估显示,Mistral 7B型号的成本效率远超GPT-4,大约便宜187倍,并且比GPT-3.5便宜约9倍。截至2023年12月,Mistral 7B模型的下载量已达到210万次;到2024年1月,Mixtral 8x7B模型的下载量为33.7万次。截至2024年4月,Mistral AI的客户包括Brave、法国巴黎银行、Orange和Cloudflare。根据硅谷科技评论(svtr.ai)数据库,Mistral在全球生成式AI独角兽中以50亿美元的估值排名第6位。

🖼️
图片 2 967 × 367px

📷 图片包含在完整版文章中,点击文末按钮查看

Mistral AI 由 Arthur Mensch(首席执行官)、Timothee Lacroix(首席技术官)和 Guillaume Lample(CSO)于 2023 年创立。他们在大学相识,三人在 2011 年至 2014 年期间都在人工智能领域学习。

🖼️
图片 3 1200 × 675px

📷 图片包含在完整版文章中,点击文末按钮查看

Mensch 在他的职业生涯中大部分时间致力于提升人工智能和机器学习系统的效率。他首先在2018年至2020年间作为博士后研究员在法国高等师范学院工作,随后在2020年至2023年间加入谷歌DeepMind,参与了包括RETRO(Google DeepMind 论文,第一个结合 Retrieval 和 LLM 的大模型)和Chinchilla(Google DeepMind 论文,建立了模型数据与参数量的标准)在内的项目。Lacroix和Lample则从2014年至2023年在Meta的人工智能部门工作,他们最初是研究实习生,后来成为博士生和研究员。他们共同撰写了多篇论文,包括2023年2月发表的《开放且高效的基础语言模型》(Open and Efficient Foundation Language Models)。

在2021年,这三位创始人开始讨论他们对人工智能发展方向的看法,他们注意到技术的发展正在加速,并认为有机会采取不同的做法;与其遵循专有模型的方法,他们主张采取开源的方式。在2023年12月的一次采访中,Mensch表示Mistral AI的目标是“打造一个基于开放、负责任和去中心化技术方法的具有全球使命的欧洲领军企业。”在2024年2月的采访中,Mensch强调效率是Mistral AI的一个关键方面,他说:“我们想成为世界上资本效率最高的人工智能公司。这就是我们的价值所在。”

在最近的一次采访中,Mensch声称在DeepMind 的最大收获是,一个由 5 人组成的团队比一个由 50 人组成的团队更快。除非你将这 50 人组织成 10 个独立的团队,每组 5 人。正是因为经历了惨痛的教训,他在 Mistral 建立了更小的团队。

2023年9月,10人不到的小团队Mistral推出了Mistral 7B,这是一个拥有70亿参数的开源人工智能模型,团队声称其性能超过了参数量是其两倍的模型。到2023年12月,法国总统埃马纽埃尔·马克龙对该公司表示赞扬,他说:“向Mistral致敬,这是法国的天才之举。”到2024年1月,Mistral已经聘请了Meta的LLaMA模型背后一半以上的团队成员来开发其开源模型。

截至2024年4月,Mistral AI专注于开发基础大型语言模型(LLMs)。该公司的所有模型均设计为开源,采用Apache 2.0许可证,并可免费获取。此外,该公司还通过其开发者平台提供“优化”版本的人工智能模型,并根据使用量收费的商业模式进行计费。

Mistral 7B

Mistral 7B是Mistral AI在2023年9月发布的首个模型。在发布时,Mistral AI声称这个由70亿参数组成的模型在所有标准英语和编码基准测试上超过了“所有当前可用的最高达到130亿参数的开放模型”。

🖼️
图片 4 8192 × 2665px

📷 图片包含在完整版文章中,点击文末按钮查看

Source: Mistral AI

Mistral 7B 能流利地处理英语和编程语言。这个模型采用了Transformer架构,并整合了滑动窗口注意力(sliding window attention)、滚动缓冲区缓存(rolling buffer cache)、预填充与分块( pre-fill & chunking)等技术,从而提升了效率和性能。

滑动窗口注意力可以用一个比喻来解释:想象一个人坐在穿过风景的火车上,但是窗户只允许他们在任何给定时间看到周围几米的景象。随着火车向前移动,他们的视角转移,能够看到新的景色部分,同时失去对已经经过部分的视线。这与滑动窗口注意力类似,模型一次只关注全部数据(如句子中的词语)的一部分。这种方法帮助模型高效处理长序列数据,通过专注于更小、更易管理的数据块,提高速度和资源使用效率,同时不失去进行准确预测所需的上下文。这使得模型更加高效,降低了计算成本,同时允许每个词受到其上下文的影响。

要理解滚动缓冲区缓存,请想象有人在游戏控制台上玩视频游戏。为确保游戏顺畅运行而不出现加载暂停,控制台会保留最新和相关的数据(如即时的游戏环境)在内存中,并随着玩家在游戏世界中的移动,丢弃较旧、不那么相关的数据。滚动缓冲区缓存在计算中的工作原理类似,它存储最近的输入数据,并在新数据进入时,将较旧、较不相关的数据移出缓存。这一过程使系统能够有效管理内存资源,确保只保留最新且必要的数据以便快速访问,这对于处理大量数据而不超出系统内存容量至关重要。

关于预填充和分块,可以想象有人在准备一顿大餐,菜谱中需要许多食材。他们不是边做饭边计量和切割每种食材,而是提前准备好所有东西——切好蔬菜、称好香料等,并将它们分成小的、易于管理的部分(或称为“块”)。这样,到了烹饪的时候,他们可以专注于按正确的顺序结合这些预先准备好的部分,无需暂停去准备每一个。这种方法使烹饪过程更为流畅和高效,确保每个步骤在需要时立即准备好。类似地,在计算上下文中的“预填充和分块”意味着用数据块预先加载模型(“食材”),使处理(或“烹饪”)更加顺畅和高效,无需每次需要新的数据片段时都从头开始处理整个数据集。 截至2024年4月,用户可以通过多种方式访问Mistral 7B:(1)直接下载模型; (2) 通过 La Plateforme 使用 Mistral 的 API; (3) 使用命令“ollama run Mistra”在 Ollama 本地运行模型;或 (4) 通过 Hugging Face 访问模型。

Mixtral 8x7B

2023 年 12 月,Mistral AI 发布了第二个模型 Mixtral 8x7b。据该公司称,截至 2023 年 12 月,Mixtral 在“大多数基准测试”上的表现优于 Llama 2 70B,推理速度提高了 6 倍,并且在“大多数标准基准测试”上的表现与 OpenAI 的 GPT 3.5 相当或优于 OpenAI 的 GPT 3.5。

🖼️
图片 5 2460 × 1584px

📷 图片包含在完整版文章中,点击文末按钮查看

Source: Mistral AI

Mistral 8x7B 是一个高质量的稀疏专家混合模型(SMoE,sparse mixture of expert models),拥有开放的权重。可以将 SMoE 想象为一场才艺表演,每位参与者(专家)都拥有独特的技能,而评委(控制决策权重的门控网络)根据观众的当前情绪(输入数据)决定展示哪些表演。不是每次都让所有表演者表演,这样既耗时又无关紧要,而是由评委选择最符合观众兴趣的几个表演,将它们的表现结合起来,创造一个引人入胜的节目。这种方法使节目能够高效地适应不同观众,只使用最相关的才能。这就反映了 SMoE 如何选择“专家”来处理数据。SMoE 技术在控制成本和延迟的同时增加了模型的参数数量,因为模型每个令牌只使用总参数集的一小部分。因此,Mistral 8x7B 总共有46.7亿参数,但每个令牌只使用130亿参数。所以,这个模型在输入和输出处理上的速度和成本与130亿参数的模型相同。

Mixtral 8x7B 可处理 32K 令牌的上下文,并且精通英语、法语、意大利语、德语、西班牙语和代码。与 Mistral 7B 一样,它在 Apache 2.0 下获得许可并且可以免费使用。截至 2024 年 4 月,Hugging Face 和 Perplexity AI 都允许用户在聊天界面中启用 Mixtral 8x7B,开发人员可以通过 Mistral AI 的 La Plateforme 访问该模型。

Mixtral 8x22B

Mistral AI 在2024年4月推出了其第三款模型 Mixtral 8x22B。这款模型基于1760亿参数构建,具有65000个令牌的上下文窗口,并在Apache 2.0许可证下发布。截至2024年4月,公司网站上尚未提及此模型;Mistral AI 通过在社交媒体平台X上发布的磁力链接宣布了 Mixtral 8x22B 的推出。

La Plateforme 是 Mistral AI 的开发者平台。该平台通过可通过 API 访问的生成端点向开发者提供公司模型的“优化”版本。其目标是为各种用途提供高效的部署和个性化定制。截至2024年4月,La Plateforme 提供了三种“优化”商业模型,每一种都针对特定的性能和成本需求进行了定制:Mistral Small、Mistral Large 和 Mistral Embed。

Mistral Small 提供“针对低延迟工作负载的成本效率推理”。Mistral Large 提供“顶尖推理”,专为处理高复杂度任务设计。根据公司的说法,截至2024年4月,Mistral Large 在所有通过 API 提供的模型中排名第二,提供顶尖的推理能力。

🖼️
图片 6 957 × 485px

📷 图片包含在完整版文章中,点击文末按钮查看

这两个模型都精通英语、法语、意大利语、德语和西班牙语,并且在编程方面也表现出色。它们支持32000令牌的上下文窗口,并具备本地函数调用功能和 JSON 输出能力。Mistral AI 描述这些模型为“简洁、实用、中立,具有完全模块化的审查控制”。

Mistral Embed 是一种“最先进”的语义模型,专为提取文本摘要的表征而设计。该模型能够将文本转换为包含1024维的数学向量,这些高维向量以数字形式表达文本信息,捕捉语义的细微差异,有助于理解和量化不同文本段落之间的相似度。选择1024维度确保了文本的详尽和细致表达,增强了模型处理和分析数据的高精度能力。这种嵌入技术有助于分析大量文本,识别出与特定上下文相关的信息。反过来,这种能力帮助生成模型产生的输出不仅具有上下文感知性,而且高度定制化,以满足应用程序的特定信息需求。

截至2024年4月,Mistral Embed 目前只支持英语。据公司表示,该模型在 Massive Text Embedding Benchmark (MTEB) 上的检索得分为55.26。

Le Chat 是 Mistral AI 的聊天机器人服务,功能上相当于 OpenAI 的 ChatGPT,但由 Mistral AI 的基础模型提供支持。自 2024 年 4 月起,Le Chat 可以使用 Mistral Large、Mistral Small 或 Mistral Next,这是一种“设计简洁”的原型模型。自2024年4月起,用户可以免费访问乐聊。 Mistral AI 还提供 Le Chat Enterprise,这是一项专为企业设计的服务,旨在“通过自我部署能力和细粒度的审核机制提高团队的生产力”。

截至 2024 年 4 月,Mistral AI 的目标是为希望在其产品中实施生成式 AI 的企业提供“性能成本前沿”。例如,第三方消息来源估计,截至 2023 年 10 月,Mistral 7B 模型比 OpenAI 的 GPT-4 便宜约 187 倍,比 GPT-3.5 便宜 9 倍。截至 2024 年 4 月,著名的 Mistral AI 客户包括 Lamini、Arcane、Lindy、 Hugging Face、Brave、Cloudflare、Pretto、法国巴黎银行、Orange 和 MongoDB。

🖼️
图片 7 909 × 506px

📷 图片包含在完整版文章中,点击文末按钮查看

2023年全球人工智能市场规模为1502亿美元,预计到2030年将达到1.35万亿美元,复合年增长率为36.8%。生成式人工智能作为支撑基础模型的技术,每年可为世界经济增加 2.6 万亿至 4.4 万亿美元。例如,截至 2023 年 6 月,该技术每年可为银行业增加 2000 亿至 3400 亿美元的收入。截至 2023 年 6 月,在零售和消费品领域,生成式人工智能每年可增加 4000 亿至 6600 亿美元的收入。基础模型,例如Mistral AI 开发的产品通过提供可针对多个行业的各种应用进行定制的多功能平台,在很大程度上支撑了这一增长。有研究认为,基础模型的潜在市场可能涵盖整个经济。到 2028 年,基础模型将产生 114 亿美元的收入。

🖼️
图片 8 872 × 743px

📷 图片包含在完整版文章中,点击文末按钮查看

根据硅谷科技评论(svtr.ai),截止2024年4月底,全球生成式AI独角兽高达22家,其中12家都集中在大模型领域,成立不到1年的Mistral以50亿美元的估值在Gen AI独角兽榜单中排名第6,在所有的大模型公司中估值排名第4,仅次于OpenAI、XAI和Anthropic,估值的中国大模型独角兽智谱AI、Minimax、月之暗面的两倍。值得注意的是,美国三家估值超过百亿美金大模型独角兽,其融资金额都超过70亿元,Mistral当前累计融资不到6亿美元。

🖼️
图片 9 834 × 947px

📷 图片包含在完整版文章中,点击文末按钮查看

成立之初,Mistral AI开发“开放”模型——即该公司的所有模型都可以免费向公众开放,并通过开源许可证进行分发。这种开放模型的策略不仅促进了技术的广泛应用和创新,还支持了更广泛的协作和透明度,允许研究人员、开发者和企业自由地使用、修改和共享这些模型。通过开源,将自己与OpenAI、Anthropic或Google这样的公司开发的是“专有”模型进行差异化竞争。2024年2月,Mistral从其网站上删除“承诺开放模型”,其创始人最近的一次访谈中表示,这样有机会通过一些商业模式来发展公司业务,此外,这是巩固与云提供商(Azure)的战略关系的好方法。

虽然,Mistral 将自己定位为,为生成式 AI 的企业提供“性能成本前沿”。但不容忽视的是,无论是科技巨头还是AI独角兽都在不断降本增效,为企业客户提供更好用的大模型。

🖼️
图片 10 1080 × 608px

📷 图片包含在完整版文章中,点击文末按钮查看

OpenAI成立于2015年,最初是一家非盈利组织,后于2019年转型为盈利公司。它以创造生成式预训练变换器(GPT)系列人工智能模型闻名,这些模型首次在2018年推出。截至2023年4月的一轮3亿美元的风险投资轮次,公司已经完成了八轮融资,累计筹集资金达到113亿美元。2024年2月,OpenAI完成了一项估值超过800亿美元的交易。

OpenAI在成立之初采取了开放式的模型开发策略,在2019年11月发布了GPT-2的源代码和模型权重。然而,该公司后来改变了其策略;在2023年3月推出GPT-4之后,联合创始人Ilya Sutskever表示OpenAI在开放模型开发上的做法是错误的。该公司于2022年11月推出了其首款面向消费者的产品,名为ChatGPT。ChatGPT在推出两个月内就吸引了1亿月活跃用户。截至2024年4月,该服务的用户总数约为1.805亿,其中每周有1亿活跃用户。

Anthropic 成立于 2021 年,专注于人工智能研究和产品的安全性。该公司开发了 Claude,这是一系列封闭式基础人工智能模型,通过一种被称为“宪法人工智能”的方法进行训练和部署,其中训练期间唯一的人类监督是通过一系列规则、原则和道德规范。 Anthropic 由前 OpenAI 员工创立,他们因“OpenAI在 2019 年获得微软里程碑式的 10 亿美元投资后,对该集团的方向存在分歧”而离开了 OpenAI创业。截至 2023 年 10 月,该公司在谷歌领投的 20 亿美元企业融资中筹集了 76 亿美元。 2023 年 12 月,Anthropic 又筹集了 7.5 亿美元,估值为 184 亿美元。

2024年3月,Anthropic 宣布了 Claude 3 型号系列,其中包括极具性价比的 Haiku, 具有 200k 上下文窗口、图像、视频和文本的多模式功能,支持快速响应的应用场景,例如客户支持、内容审核和物流应用程序。Anthropic之前以成本和性能为重点的模型是Claude Instant 1.2,于2023年8月发布。

Meta AI 成立于 2013 年,开发 LLaMA 系列开源基础人工智能模型。因此,这些模型与 Mistral AI 的模型直接竞争。 Meta AI 的 LLaMA 2 7B 和 LLaMA 2 13B 模型与 Mistral 7B 竞争,LLaMA 2 70B 与 Mixtral 8x7B 竞争。尽管 LLaMA 模型被认为比其他模型性能相对较差(截至 2024 年 4 月,LLaMA 2 70B 在 HuggingFace LLM 排行榜中排名第 34 位),但 Meta AI 为人工智能研究做出了重大贡献,包括开发了开源机器学习库PyTorch。

Google AI

自 2014 年收购 DeepMind 以来,谷歌一直在推进人工智能研究,特别是 AlphaGo 等项目以及 2017 年引入 Transformer 架构的研究论文“Attention is All You Need”。 2014 年至 2023 年间,谷歌的人工智能部门被划分为 Google Brain 和 DeepMind。 2023 年 4 月,该公司将这些部门合并到 Google AI 品牌下。 2023 年 12 月,Google AI 推出了 Bard(于 2024 年 2 月更名为 Gemini),这是一个封闭的基础模型,旨在与 GPT-4 等模型竞争。截至 2024 年 4 月,该公司声称其模型在大多数基准测试中的性能优于 GPT-4。

Cohere是一家于2018年由前Google Brain研究员以及2017年论文《Attention is All You Need》的原始作者之一Aidan Gomez创立的公司,专注于开发针对企业使用优化的开放式和封闭式生成人工智能模型。其专有的大型语言模型(LLMs)通过其API为企业客户提供摘要、文本创建和分类等服务。这些模型设计为可通过用户提供的额外训练数据进行增强。与Mistral AI类似,Cohere也提供了一个名为Coral的聊天机器人助手,以及一个与Mistral Embed直接竞争的嵌入模型,名为Cohere Embed。

在2024年3月,Cohere宣布推出Command-R,这是一款“针对大规模生产工作负载的新LLM”。根据2024年4月的众包LLM排行榜Arena,Command-R位列第六,仅次于Claude 3和GPT-4的不同版本,但领先于Mistral Large和Mistral Medium。截至2024年4月,公司共筹集了4.349亿美元的资金,估值达到21亿美元。

Mistral AI 通过 Apache 2.0 开源许可证免费提供其所有模型。该公司还使用即用即付的商业模式对其产品的“优化”版本进行收费,可通过 La Plateforme 访问。 Mistral AI 对每百万个代币(大约 75 万个单词)收取一定的费用;该费用根据模型端点、输入和输出而变化。截至 2024 年 4 月,Mistral AI 的定价如下:

🖼️
图片 11 1362 × 926px

📷 图片包含在完整版文章中,点击文末按钮查看

截至 2024 年 4 月,该公司还对其嵌入 API(Mistral Embed 模型)收取每 100 万代币 0.1 美元的费用。截至 2024 年 4 月,所有端点的速率限制为每秒 5 个请求、每分钟 200 万个令牌、每月 100 亿个令牌。

Mistral AI 还向企业提供 Le Chat 服务,但截至 2024 年 4 月,该服务尚无公开的定价信息。

截至2024年4月,Mistral AI的收入尚未公开;然而,在2024年1月的一次采访中,首席财务官Florian Bressand指出该公司已经进入了“高速增长”阶段,并且在金融服务、银行业、保险、电信和公共事业等领域拥有重要的客户群。可以通过在Hugging Face上的下载次数来间接判断Mistral AI产品的成功,特别是其开放模型的表现。截至2023年12月,Mistral 7B模型已被下载210万次;而截至2024年1月,Mixtral 8x7B模型的下载次数为33.7万次。

此外,截至2024年4月,Mistral AI已与两家知名企业建立了显著的合作关系:一家是微软,另一家是Snowflake。2024年2月,Mistral AI与微软合作,将其开放和商业模型部署在微软Azure平台上。与此同时,微软对Mistral AI进行了1630万美元的投资。2024年3月,Mistral AI与Snowflake合作,通过将其模型整合到Snowflake的Cortex中,使其模型更易于企业获取。这些合作不仅增强了Mistral AI的市场位置,也提升了其模型的可达性和实用性。

2023 年 6 月,Mistral AI 在推出四个星期后,完成了 1.13 亿美元的种子轮融资,估值为 2.6 亿美元,股东占比接近 50%。由欧洲 LightSpeed 领头,法国的 Redpoint、Index Ventures、Xavier Niel、JCDecaux Holding、Rodolphe Saadé和Motier Ventures,德国的 La Famiglia和 Headline,意大利的 Exor Ventures,比利时的 Sofina��以及英国的 First Minute Capital 和 LocalGlobe 也都参与其中。法国投资银行 Bpifrance 和谷歌前首席执行官Eric Schmidt也是股东。其中 JCDecaux Holding 这样的企业战略投资者也是欧洲的内容提供商,他们有可能为获取高质量的数据集打开大门,让 Mistral 的模型可以进行训练和微调。当时在网络渠道公开的Mistral战略备忘录(strategy memo),引起AI和投资圈的极大关注。

2023 年 12 月,筹集了 4.15 亿美元的资金,估值达20亿美元。投资方为Andreessen Horowitz、Lightspeed Venture Partners、Salesforce、BNP Paribas、CMA-CGM、General Catalyst、Elad Gil和Conviction。

2024 年 2 月,Mistral AI 与微软建立了分销合作伙伴关系;作为此次合作的一部分,微软向该公司投资了 1630 万美元。

截至 2024 年 4 月,Mistral AI 累计融资 5.368 亿美元,投资者包括 a16z、Databricks Ventures、Lightspeed Venture Partners 和微软。

根据国际货币基金组织(IMF)的数据,截至2013年,按购买力平价调整后的全球GDP规模,新兴市场经济体占世界经济的53%,预计其增长速度将快于发达市场。 2024 年 1 月,国际货币基金组织强调,人工智能将影响新兴市场 40% 的就业机会和低收入国家 26% 的就业机会。这表明这些地区对人工智能技术的巨大需求,以推动经济发展、改善社会成果并增强在全球舞台上的竞争力。然而,根据2020年的一份报告,新兴市场采用人工智能的最大障碍是该技术的成本。此外,大多数新兴市场包括亚洲、非洲、拉丁美洲和东欧部分国家,英语不是这些国家的母语。

Mistral AI 的模型旨在“瞄准性能成本前沿”。根据第三方消息来源,截至 2023 年 10 月,Mistral 7B 模型比 GPT-4 便宜 187 倍,比 GPT-3.5 便宜 9 倍。截至 9 月份,该模型在“所有基准”上也优于 LLaMA 2 13B 等比较模型2023 年。Mistral AI 的另一个价值主张是其模型的多语言能力。 Mistral Small 和 Mistral Large 型号不仅能讲流利的英语,还能讲法语、意大利语、德语和西班牙语。此外,截至 2024 年 2 月,Mistral Large 模型在法语、意大利语、德语和西班牙语方面的表现优于对比模型 LLaMA 2 70B。模型的成本效益和多语言能力这两个事实表明 Mistral AI 的战略定位占领新兴市场。

截至 2024 年 4 月,Mistral AI 主要针对企业,但该公司有机会扩展到为中小型企业 (SMB) 提供服务。 2024年,中小企业的人工智能市场预计到2027年将达到907亿美元,复合年增长率为22.1%。 2023 年 8 月的一项调查发现,人工智能已成为 53% 小型企业的优先考虑事项,高于 2023 年 4 月的 41%。然而,中小型企业对供应商的价格敏感,而且人工智能模型的实施可能会很昂贵。Mistral AI 的模型比竞争对手便宜得多,这使得它们非常适合中小企业客户需求。

OpenAI 2020 年的论文《神经语言模型的缩放法则》(Scaling Laws for Neural Language Models)表明,语言模型的性能随着模型大小、数据和计算能力的增加而直接提高。截至 2024 年 4 月,数据量和计算能力都呈指数级增长。截至 2022 年 11 月,全球数据每年增长 60-70%,为 Mistral AI 开发的基础模型提供了更多培训信息,从而提高了其准确性和功能。此外,从 1956 年到 2015 年,计算性能增长了万亿倍,部分原因在于摩尔定律,该定律表明计算能力大约每两年翻一番。根据 2021 年的一份报告,到 2030 年,总体计算能力预计将增加十倍;同期,AI 计算能力将增加 500 倍。 Mistral AI 可以利用这些进步来增强其人工智能模型的性能,使其更加高效并集成到各个行业的技术解决方案中。

监管问题,特别是欧盟监管,给 Mistral AI 带来了重大风险。欧盟《人工智能法案》(AI Act)是世界上第一部关于人工智能的主要立法,严格规范通用模型并适用于在欧盟运行的模型。对于 Mistral Large 来说,Mistral AI 将必须遵守透明度要求和欧盟版权法,其中包括披露内容是由 AI 生成的、设计模型以防止其生成非法内容,以及发布用于培训的受版权保护数据的摘要。由于截至2024年4月,欧盟人工智能监管比美国人工智能监管更严格,且Mistral AI是一家欧洲公司,因此存在公司发展放缓的风险; Mistral AI 需要确保其遵守所有欧盟监管要求,同时其海外竞争对手可以更自由地运营。例如,2024 年 2 月,微软对 Mistral AI 的投资引起了监管机构的审查;欧盟人工智能委员会发言人表示,该委员会正在“研究大型数字市场参与者与生成人工智能开发商和提供商之间达成的协议”。

截至 2023 年 10 月,能够构建复杂人工智能模型的人工智能人才供不应求。 2023 年 5 月的一份报告发现,“要在五年内成为行业领导者,企业现在需要制定清晰且引人注目的人工智能人才战略,但许多组织都遇到了困难。”人才挖角正成为一个问题。Mistral 已经聘请了 Meta 的 LLaMA 模型背后团队的一半以上来研究其开源模型。 2023 年 11 月,Salesforce 首席执行官马克·贝尼奥夫 (Marc Benioff) 提出,如果OpenAI的员工加入 Salesforce,将获得全额现金和股权。随着人工智能技术的不断发展,人工智能人才供需之间的差距可能会扩大,这给 Mistral AI 带来额外的压力,不仅需要吸引而且留住顶尖人工智能人才,这可能会减缓其增长。

Mistral AI 旨在通过开发 OpenAI 和 Google 等公司创建的专有模型的开源替代品来塑造人工智能的未来。该公司还强调创建高效且具有成本效益的模型,并致力于透明度和可访问性。这种方法可以帮助 Mistral AI 扩展到人工智能技术尚未显着渗透的市场,例如新兴经济体和中小企业。随着可用数据和计算能力呈指数级增长,Mistral AI 可以进一步增强其人工智能模型的性能和效率。然而,人工智能监管,特别是欧洲人工智能监管,以及人工智能人才供需差距的扩大带来了挑战。