微软发布7款MAI模型,Codex上线Sites功能
- 微软发布 MAI-Thinking-1 模型,AIME 2025 达 97%
- Codex 知识工作者用户占比达 20%,采用速度为开发者 3 倍
- GitHub Copilot 桌面应用发布,支持云沙箱与 Agent Merge
微软在 Build 2026 上发布 7 款 MAI 模型(含 MAI-Thinking-1 及 MAI-Code-1-Flash),并推出与高通合作的 Agent-first 平台 Project Solara。OpenAI 为 Codex 新增 Sites 功能与 6 个角色插件,其知识工作者周活跃用户已达 500 万。GitHub 发布 Copilot 桌面应用,支持多 Agent 会话管理。
1️⃣ Microsoft Build 2026:发布7款MAI模型,推出Project Solara agent-first平台#
-
核心发布:Mustafa Suleyman在Build 2026上宣布微软发布7款全新MAI(Microsoft AI)模型,覆盖推理、代码、图像、语音、转录等模态,并推出与高通合作的Project Solara——面向agent-first设备的全新计算平台。CEO Satya Nadella称这是构建“前沿智能生态系统”的一步。
-
模型明细与关键指标:
- MAI-Thinking-1(35B MoE,256K上下文):在盲测中偏好度超过Sonnet 4.6,AIME 2025达97%,SWE-Bench Pro 53%——与Opus 4.6持平。在微软自研MAIA 200芯片上,性能/美元比GB200高30%。
- MAI-Image-2.5(含Flash变体):在Image Edit Arena排名第2(评分1401),超越Nano Banana 2等竞品。
- MAI-Code-1-Flash(5B参数):专为GitHub Copilot和VS Code设计,SWE-Bench Pro达51%,成本极低。
- 同期发布MAI-Transcribe-1.5、MAI-Voice-2(15语种、情感控制)等。
-
Project Solara:微软与高通联合打造,从操作系统到芯片层面重新设计,让设备原生支持AI Agent而非传统APP模式。Cristiano Amon演示了agent-first的终端体验,承诺Windows将深度集成Agent运行能力。
-
企业级定制:Microsoft Frontier Tuning:允许企业用自己的数据微调MAI模型,实现“你的数据、你的Agent、你的护城河”。McKinsey测试中,MAI模型以10倍成本优势击败GPT-5.5。
-
Mayo Clinic合作:微软与Mayo Clinic共同训练前沿医疗AI模型,探索AI在临床决策中的应用。
🔗 Mustafa Suleyman推文 | Project Solara | 微软官方博客 | OpenRouter上线MAI模型
2️⃣ OpenAI Codex推出Sites与角色插件:走向知识工作平台#
-
核心发布:OpenAI宣布Codex新增Sites功能,可将用户的想法、工作文档或计划一键转化为可分享的交互式网站或应用,对Business和Enterprise计划用户开放。同时发布6个角色特定插件:数据分析、创意制作、产品设计、销售、投资银行、公共股权投资。
-
关键数据与用户变化:Codex现已有500万周活跃用户,知识工作者(非开发者)占比达20%,且其采用速度是开发者的3倍以上。增长最快的任务类型:数据分析(周环比110%)、研究(+37%)、知识产物制作(+36%)。
-
Codex Python SDK:同日发布的pip install openai-codex SDK允许在Python代码中启动线程、流式处理、恢复会话,将Codex从“浏览器里的AI IDE”转变为可编程基础设施。
-
行业影响:这标志着AI编码工具正从程序员专属向知识工作者通用生产力平台跃迁。OpenAI称知识工作者正将Codex用于文档起草、合同审查、运营协调等非编程工作,重塑了“AI首先吃掉编程工作”的预期。
🔗 OpenAI推文 | 插件扩展推文 | Codex for Knowledge Work博客 | Python SDK
3️⃣ Google DeepMind开源Science Skills与Co-Scientist:面向科学发现的AI工具包#
-
核心发布:Google DeepMind宣布开源Science Skills——一个专为科学发现场景优化的Agent工具包,支持自主运行计算化学、生物信息学等工作流,已在GitHub发布。同时,Co-Scientist(基于Gemini的多智能体系统)以Hypothesis Generation形式向个人研究者开放,属于Gemini for Science系列。
-
实际成果:Co-Scientist在过去一年中协助科学家发现新的肝纤维化治疗靶点、提出肌萎缩侧索硬化症(ALS)的新疗法、从数十年文献中挖掘抗衰老的遗传线索。系统可生成、辩论、进化科学假设。
-
技术架构:Science Skills包含预构建的科学工具链,与Google的ADK(Agent开发工具包)兼容,可对接AlphaFold、蛋白质数据库等外部资源。Co-Scientist采用多Agent辩论机制,不同Agent分别扮演“生成者”“批评者”“验证者”角色。
-
行业意义:这是谷歌将前沿AI能力系统性地投向科学研究的关键举措。开源Science Skills意味着全球研究机构可基于此构建自己的科学Agent,大幅降低AI辅助科研的门槛。
🔗 Google DeepMind推文1 | 推文2 | GitHub仓库 | Google AI Devs推文
4️⃣ GitHub Copilot推出Agent-Native桌面应用与云沙箱#
-
核心发布:GitHub在Microsoft Build上发布GitHub Copilot app——一个“agent-native”的桌面体验,提供统一的“My Work”视图管理多个并行Agent会话、Pull Request和后台任务。每个会话在独立的git worktree中运行,互不干扰。同时推出云沙箱(Cloud Sandboxes)和本地沙箱,让Agent在安全隔离环境中执行代码。
-
关键新功能:
- Canvas:双向工作面板,Agent和工作流可视化,开发者可直接编辑、重排、审批。
- Agent Merge:监控CI、跟踪评审状态,自动推进PR合并。
- Copilot Code Review:新增medium tier(更高推理模型),支持自定义Agent技能和MCP服务器集成。
- Copilot SDK GA:支持Node/TypeScript、Python、Go、.NET、Rust、Java,同一运行时驱动所有Copilot体验。
-
数据背景:GitHub表示,代理生成的代码量在2026年增长1400%,每月提交超14亿(同比翻倍),Actions每周消耗20亿分钟。GitHub正在重塑基础设施以承载Agent时代。
-
行业影响:GitHub将Copilot从代码补全工具升级为完整的Agent运行平台,支持第三方Agent通过ACP协议接入,成为“Agent的操作系统”。
🔗 GitHub Blog | GitHub沙箱推文 | Copilot SDK
5️⃣ [持续跟踪] Anthropic扩大Project Glasswing:Claude Mythos Preview覆盖150+组织#
- 前情提要:Anthropic于此前推出Claude Mythos Preview(封闭系统),仅限少量合作伙伴。其安全优先的模型沙箱策略引发关注。
- 最新突破:Anthropic宣布将Project Glasswing(Claude Mythos Preview的代号)扩展至约150个新增组织,覆盖15个国家以上。这意味着经过数月的内测,企业级安全可控的Claude版本正在规模化落地。
- 行业意义:这表明企业客户对“可审计、可隔离”的AI工作负载需求正在推动模型部署模式从公有API走向私有化托管。Anthropic提前为IPO构建企业信任基础。
🔗 Anthropic官方推文 | 官方博客
6️⃣ OpenClaw与微软合作:企业级安全运行,Windows原生支持#
-
核心发布:在Microsoft Build上,OpenClaw宣布与微软合作,将OpenClaw引入Microsoft和Windows生态系统。OpenClaw现在可在Windows上安全运行,并获得企业级安全隔离能力(如OS级沙箱、集中策略管理)。微软已设立CVP级别负责人专职推进OpenClaw集成。
-
技术细节:通过微软的Windows Sandbox和Azure Compute集成,Agent可本地运行而不会泄露企业凭证。Mustafa Suleyman在主题演讲中专门介绍OpenClaw,称其为“Agent开源生态的关键组件”。
-
生态意义:OpenClaw作为开源Agent框架(Peter Steinberger主导),与微软的深度合作意味着Agent运行基础设施正在标准化。Windows用户无需额外配置即可安全使用高阶Agent,这大幅降低了Agent工具在企业IT中的部署门槛。
🔗 OpenClaw推文 | Mustafa Suleyman推文 | Peter Steinberger推文
7️⃣ Perplexity Computer推出混合推理与Apple Health集成#
-
核心发布:Perplexity宣布其“Computer”功能将支持混合Agent推理——在本地设备上运行小型模型处理隐私敏感任务,同时必要时调用云端前沿模型。可自动在Windows笔记本上部署本地模型,实现token效率/瓦的最佳平衡。
-
健康数据接入:Perplexity Health现可连接Apple Health(iOS),用户可将睡眠、活动、HRV数据导入Computer进行分析;同时新增Function功能,允许用户上传实验室报告并询问生物标志物相关问题。
-
行业影响:这是首个主流AI助手同时实现“本地+云端混合推理”和“个人健康数据隐私闭环”的案例。Perplexity在健康垂直领域的布局,直指医学信息检索这一刚需场景。
🔗 Perplexity推文 | Aravind Srinivas推文 | 健康数据推文
8️⃣ 扣子3.0上线:Agent Team协作与本地Agent接入#
-
核心发布:字节跳动旗下扣子(Coze)正式升级至3.0版本。核心更新包括:Agent Team多智能体协作(支持主Agent统筹子Agent)、本地Agent接入(一行命令对接Claude Code/Codex/OpenClaw)、界面重构为项目式工作流。
-
实测案例:第三方评测(十字路口团队)展示了搭建Shopify电商选品Agent Team的全流程:用Codex做编程Agent、用技能包Agent做小红书调研、最终由主Agent合成报告并驱动Codex搭建独立站原型。
-
行业意义:扣子3.0将“本地Agent”和“云端Agent”无缝整合在一个UI中,用户可保留自己偏好的Agent CLI(如Codex)作为后端,解决了“不同工具偏好差异”与“统一工作流管理”之间的矛盾。
🔗 十字路口实测文章
9️⃣ Devin Desktop发布:从Windsurf升级为多Agent统一指挥中心#
-
核心发布:Cognition(原Windsurf)正式推出Devin Desktop,取代原有Windsurf品牌。新应用提供一个统一界面管理本地和云端Agent,支持通过ACP协议接入任意Agent(包括Codex CLI、Claude Agent等),内置完整IDE用于代码修改。
-
核心功能:本地规划后可将任务无缝转移至云端继续执行(用户合上电脑也不中断)。支持快照和分支,允许Agent试错恢复。Codex CLI和Claude Agent均可直接集成。
-
品牌整合:Windsurf CEO Jeff Wang表示,在AI产品每一年就需要大幅迭代的背景下,将所有产品统一到“Devin”品牌下可以聚焦资源,并保持作为“Agent瑞士”的中立地位,支持其他平台Agent。
-
行业意义:这标志着AI编码工具从“IDE插件”向“Agent操作系统”进化的又一步。统一命令中心让开发者在单个界面上协调多厂商Agent,Agent间竞争从工具层面上升至平台生态层面。
🔗 Cognition推文 | Jeff Wang品牌阐述 | Windsurf推文
⭐ GitHub 趋势#
- 今日无显著 AI 相关趋势
🟧 Hacker News 热议#
MAI-Code-1-Flash#
358 pts · 163 comments · microsoft.ai
📌 内容总结
- 微软发布一款轻量编码模型 MAI-Code-1-Flash,面向 GitHub Copilot/VS Code 日常开发,号称训练数据“干净且经适当许可”,不使用合成数据。
- 核心卖点:自适应思考(简单请求简洁,复杂请求增加推理预算)、与 Copilot 生产环境对齐训练、在 SWE-Bench 系列基准上对比 Claude Haiku 4.5 有 16 个点的领先(Pro 51.2% vs 35.2%),且节省最多 60% 的 token。
- 实际参数量为 137B(激活 5B),并非此前流传的 5B 模型;暂时不开放权重,仅通过 Copilot 模型选择器提供。
💬 讨论总结
- 模型大小与对比基准:多数评论指出标题易误解,实际是 137B 模型,对比对象 Haiku 4.5 是 Anthropic 最小、最旧的模型,有人认为这不是一个有意义的对标。部分人认为 Haiku 本身不适合严肃编码,因此该模型的定位模糊。
- 工程效果与实用性:SWE-Bench 51% 的通过率被质疑是否足够可靠——多数开发者无法接受 49% 的失败率。支持者指出 Claude Opus 4.6 也只有 51.9%,且小模型可用于可预测的低风险子任务,或采用“大模型规划 + 小模型执行”策略。
- 训练数据纯净性:有观点认为“干净数据”在当今污染严重的语料环境中几乎不可能,但另一些评论认可微软不依赖合成数据的做法是值得关注的差异点。
- 商业与生态:大量用户抱怨 Copilot 最新的按 token 计价大幅涨价,转向 DeepSeek 或 Qwen 等更便宜的开源模型。微软停止开放权重的趋势让人失望——与之前 Phi 系列的做法形成了对比。
- 网站体验:多个用户抱怨该博客页面滚轮劫持,在 Safari/Firefox 上体验极差;有人提供了修复脚本。
反对意见(少数):有人认为这只是 Haiku 替代品,不值得关注;也有人认为微软的“超智能团队”应优先改进 Windows 质量。
Bringing Up DeepSeek-V4-Flash on AMD MI300X#
72 pts · 6 comments · fergusfinn.com
📌 内容总结
- Doubleword 公司工程团队记录在 AMD MI300X 上部署 DeepSeek-V4-Flash 的工程过程。MI300X 拥有 192GB HBM3、FP8 算力与 H100 相近,成本约为一半,但软件支持存在严重断档。
- 主要难点包括:MI300X 使用 AMD/Graphcore 提出的
fnuzFP8 标准(非 OCP 标准),导致 vLLM 中的 FP8 路径全部偏差一个因子 2;AITER 缺少稀疏 MLA 注意力等关键路径的 gfx942 优化,需回退到 Triton;HIP 图捕获要求避免动态内存分配。 - 经过修复后,单卡达到 2699 tokens/s(+8.6% 优化);补丁已开源。作者认为 MI300X 的软件差距正在缩小,但投入的工程成本仍然很高。
💬 讨论总结
- 评论极少,均为技术性讨论。一条询问补丁是否支持 DeepSeek V4 Pro;一条指向上游 vLLM 补丁仓库。
- 一条评论提到在 MI250X 上跑 Gemma 4 31B 需要大量软件工作量,作者表示有兴趣写文章分享经验。
- 没有明显反对或质疑。
Expanding Project Glasswing#
151 pts · 194 comments · anthropic.com
📌 内容总结
- Anthropic 将 Project Glasswing 的合作范围从约 50 个组织扩展到约 150 个,涵盖 15 个国家的水、电、医疗、通信等关键基础设施。合作方使用 Claude Mythos Preview 扫描代码库,已发现超过 10,000 个高/严重级别漏洞。
- 官方强调 Mythos 的能力代表着 AI 网络安全能力的重大跨越,警告 6-12 个月内其他公司将推出类似模型且可能缺乏安全防护,届时攻击频率和形式将不可预测。
- 当前瓶颈已从“发现漏洞”转向“验证、披露和修补”——Anthropic 计划利用 Mythos 本身辅助编写补丁,并推动行业建立新的标准和基础设施。
💬 讨论总结
- 营销与稀缺性策略质疑:大量评论认为这是在 IPO 前制造稀缺感和品牌效应。指出 Mythos 的实际能力可能被夸大——多位一线安全工程师反馈模型产生大量噪声和误报,管理层却过度反应。
- 技术真实能力:部分引用第一手经验称“检测质量与常规审计公司无异”,且其他模型(如 GPT-5.5-Cyber)也具有类似能力。Mythos 的“10,000 漏洞”数字被质疑缺乏可验证性(仅一枚具体案例在 curl 项目中公开)。
- 工程与商业现实:批评者认为 Anthropic 限制访问的真正原因是计算资源不足(无法大规模服务 Mythos),而非纯粹的安全考虑。支持者认为这是负责任的做法,但多数评论倾向于认为这是“安全牌”营销。
- 对政府合作的担忧:一些评论质疑将关键基础设施源码交予一家对外国政府(如美国政府)有合作倾向的美国公司,可能带来监控和国家安全风险。Anthropic 声明“不对美国国内进行大规模监控”被解读为默认可对他国执行监控。
- 少数支持观点:部分评论认为这是类似 AlphaFold 开源蛋白质数据库那样的全局性贡献,值得认真对待。
反对意见(多数):主流情绪是怀疑与讽刺,认为 Project Glasswing 是“先制造恐慌,再出售解决方案”的标准套路。
今日洞察#
MAI-Code-1-Flash 的模型定位与 HN 讨论的割裂,暴露了开发者的核心焦虑正在转移。 微软自称 137B(激活 5B)参数、SWE-Bench Pro 51% 的模型是“轻量级”,但 HN 上普遍质疑这是与最弱的 Haiku 对标,且 49% 的失败率对日常开发而言意义有限。更值得关注的信号是讨论中反复出现的“成本转向”——大量用户抱怨 Copilot 涨价后已转向 DeepSeek 或 Qwen 等开源替代。模型“足够好”的价值正从基准分数转向 token 成本与 API 定价的可承受性。 微软停止开放模型权重的做法,与之前 Phi 系列形成反差,也进一步压缩了其生态吸引力。
Codex 向知识工作者扩展的数据是一个被 PR 包装掩盖的真实信号。 OpenAI 公布 500 万周活跃用户中 20% 是非开发者,他们的采用速度是开发者的 3 倍,且数据分析任务周环比增长 110%。这比任何模型发布都更能说明“AI 首先吃掉编程”的叙事正在失效。真正的增长飞轮可能不在 IDE 内部,而在 Word、邮件、电子表格等办公场景。 Codex Python SDK 的发布进一步将“浏览器里的 AI IDE”转变为可编程基础设施,这比任何模型发布都更具结构性影响——它让知识工作的 AI 化不再依赖特定平台。
微软 Build 的主题演讲呈现了一条明确的“模型优先、平台次之”的竞争策略,但其真正的赌注在 Project Solara。 7 款 MAI 模型覆盖从代码到医疗的多模态面,MAI-Thinking-1 甚至能在部分基准上与 Opus 4.6 平手。然而宏观叙事的主轴并非模型本身,而是“Agent-first”的计算平台:Project Solara 从 OS 到芯片重新设计,OpenClaw 原生集成,Copilot 桌面应用兼容第三方 Agent。微软正在把“模型”作为战场的必需品,把“Agent 运行环境”作为护城河。 这与 Anthropic 专注于安全可控的企业私有化部署(Project Glasswing)形成了不同的竞争路径选择——前者试图定义 Agent 操作系统,后者试图定义 Agent 审计标准。
微软Build展示RTX Spark Dev Box,OpenAI Codex进入ChatGPT
- 微软Surface RTX Spark Dev Box发布,128GB内存本地跑120B模型
- OpenAI将Codex与ChatGPT合并,企业收入占比升至40%
- MiniMax M3上线SiliconFlow首周五折,稀疏注意力机制详解
微软Build 2026持续发酵,Surface RTX Spark Dev Box与OpenClaw on Windows亮相;OpenAI宣布将Codex整合进ChatGPT并公布AWS合作细节;MiniMax M3登录SiliconFlow和GMI Cloud;制糖工厂发布AI原生电源。
1️⃣ [持续跟踪] Microsoft Build 2026:RTX Spark Dev Box、MAI模型新排名与OpenClaw Windows原生支持#
- 前情提要:昨日微软在Build 2026上发布7款自研MAI模型,覆盖推理、代码、图像、语音等方向,并推出Project Solara agent-first平台。
- 最新突破:今日微软推出Surface RTX Spark Dev Box,基于NVIDIA RTX Spark芯片,128GB统一内存、1 petaflop AI算力,可本地运行1200亿参数模型,售价预计3000-3500美元,定位AI开发者的“dream machine”。此外,微软宣布将OpenClaw引入Windows生态,MXC安全容器技术原生支持,并推出基于OpenClaw的始终在线个人AI Agent“Scout”,连接Teams、Outlook、OneDrive等企业应用,同时将企业安全栈(Defender、Entra、Intune)贡献回上游。同日,MAI-Code-1-Flash在SWE-Bench Pro达到51.2%,MAI-Image-2.5在Image Edit Arena排名第二(1401分)。
- 行业意义:这表明微软正从模型层到硬件层全面构建AI原生生态,OpenClaw的企业级安全补全是其从开发者工具走向企业部署的关键突破。 🔗 Surface RTX Spark Dev Box详情 | OpenClaw on Windows | MAI-Image-2.5排名 | MAI-Code-1-Flash指标
2️⃣ [持续跟踪] OpenAI Codex加速平台化:并入ChatGPT、AWS落地与角色插件#
- 前情提要:昨日OpenAI发布Codex Sites和六类角色插件,覆盖62款应用和110项技能。
- 最新突破:OpenAI宣布未来几周内将Codex的核心能力整合进ChatGPT,用户无需切换产品即可调用Agent执行任务。The Information披露OpenAI内部决定合并ChatGPT、Codex和浏览器Atlas为统一桌面应用。同时,OpenAI前沿模型(GPT-5.5、GPT-5.4)和Codex正式在Amazon Bedrock上线,企业客户可在AWS现有合规框架中使用OpenAI模型。OpenAI披露企业业务贡献约40%收入,Codex周活超500万,其中非开发者用户增长3倍。但Codex免费账号额度重置周期从7天改为30天,Plus/Pro用户保持每周。
- 行业意义:Codex从开发者工具跃升为企业Agent平台,整合ChatGPT将带来9亿消费者分发渠道。免费配额缩水暗示OpenAI正加速商业化,为IPO铺路。 🔗 Codex进入ChatGPT | AWS Bedrock上线 | 免费配额变化 | 企业收入数据
3️⃣ [持续跟踪] MiniMax M3生态加速:SiliconFlow上线、MSA详解与性能对比#
- 前情提要:MiniMax于6月2日发布开源模型M3,支持1M上下文、多模态和Agentic编码,SWE-Bench Pro达59.0%。
- 最新突破:M3今日上线SiliconFlow,首周50%折扣(缓存/输入/输出0.30/$1.20每百万token),同时登录GMI Cloud。MiniMax官方详解了其核心创新MSA(MiniMax Sparse Attention),通过保留未压缩KV的块级Top-K选择,将解码时注意力核耗时从30%降至5%。在碰撞物理和3D弹球生成测试中,M3击败DeepSeek V4、Qwen 3.7 Max等模型。此外,M3可自主操作桌面计算机、处理视频输入,并在金融任务中展现初级分析师级表现。
- 行业意义:稀疏注意力机制大幅降低长上下文推理成本,开源权重策略使M3成为第一个融合前沿编码、1M上下文和原生多模态的模型,可能重塑中小团队的模型选型。 🔗 SiliconFlow上线 | GMI Cloud对比 | MSA技术详解
4️⃣ 制糖工厂发布AI小电拼Mirror:全球首款AI Agent原生充电硬件#
- 核心发布:制糖工厂推出AI小电拼Mirror,基于SDC(软件定义充电)架构与MCP协议,支持通过OpenClaw、Claude Code、Codex等AI Agent用自然语言控制充电状态、策略切换、端口控制和功率分配。硬件规格:4C1A五口、160W持续输出、4×140W盲插,搭载0.5寸OLED琥珀屏,支持19种快充协议。
- 技术亮点:Mirror可被Agent查询端口电压、电流、快充协议、设备温度和连接设备名称,并执行“优先保证电脑”“晚上降温运行”等高层次指令。整机采用CanOS 2.0可升级系统,支持OTA和OTW云桥升级。
- 行业意义:这是充电硬件首次以MCP协议对接AI Agent,将物理设备转化为可被AI调用的“能源节点”,标志着Agent能力从软件向物理世界延伸的趋势。 🔗 爱范儿详细报道
5️⃣ Sam Altman承认AI影响就业判断过于乐观,指责企业拿AI当裁员借口#
- 核心观点:OpenAI CEO Sam Altman在CNBC采访中指出,AI采用程度最深的公司反而在大规模招聘,以AI为由裁员的企业往往AI落地最慢。他承认自己此前对AI影响就业的判断变乐观,原因是观察到使用Codex后岗位未萎缩,这归结于大模型在长期复杂任务监督上的局限性。他还对GPT-5.2声称“在44个职业中超越专业人士”的表述表示遗憾,承认措辞过于笼统。
- 行业意义:Altman的反思揭示当前AI能力边界:在细分任务上表现出色,但在端到端复杂工作流中仍需人类监督。这缓和了AI取代就业的短期恐慌,为企业制定AI落地战略提供了更务实的参考。 🔗 爱范儿报道
6️⃣ 斯坦福研究:大模型规模越大,未过滤的训练数据效果越好#
- 核心发现:斯坦福团队在论文中报告,将未过滤的Common Crawl数据直接喂给大模型。在15M小模型上过滤数据领先,但模型规模达到330M和1B时,未过滤数据在充分训练后全面超越所有过滤版本。原因是模型参数量大时,有足够能力将垃圾信息与有用信息隔离。
- 行业影响:该结果挑战了业界普遍遵循的严格数据清洗原则,暗示随着模型Scale增大,数据过滤可能不再是必要步骤,甚至可能损害性能。这对大模型训练的预处理流程有直接指导意义,可能降低训练成本。 🔗 Berryxia.AI转述 | 论文链接见评论区
7️⃣ IBM CEO称AI投资可能无法回收,6-8万亿数据中心建设缺乏对应收入#
- 核心观点:IBM CEO Arvind Krishna在采访中表示,AI行业需要6到8万亿美元总资本支出用于数据中心和芯片建设,但自己不相信存在对应规模的营收。他认为只有两到三家公司能在前沿模型竞争中成功,其余参与者只是“为了留在赛道上花钱”。Gary Marcus转发了该分析,认为数据难以自洽,印证了AI泡沫论。
- 行业意义:这是来自传统IT巨头CEO的罕见悲观表态,直接质疑当前AI巨量投资的合理性。对于理性评估AI商业前景是有价值的反方样本,尤其在企业决策层面值得关注。 🔗 Gary Marcus转述
8️⃣ 腾讯云DeepSeek-V4系列最高降价97.5%,Apache 2.0模型加速商业化#
- 核心发布:腾讯云宣布旗下智能体开发平台对DeepSeek-V4系列模型大幅降价,最高降幅97.5%。其中DeepSeek-V4-Pro缓存命中价格从0.001元降至0.000025元/千tokens,推理输入/输出均下调75%。Flash版仅调整缓存命中价格,降幅90%。
- 行业意义:这是继DeepSeek开源并采用Apache 2.0许可后,云厂商推动开源模型低成本化的重要动作。极低价格将刺激更多中小企业和个人开发者将DeepSeek用于生产级Agent和自动化任务。 🔗 爱范儿报道