AI Daily 2026-07-04 | 阿里巴巴内部全面禁用Claude全系产品，美团开源万亿参数LongCat-2.0，GPT-5.6与Gemini 3.5 Pro发布窗口同期曝光

title: “阿里全面禁用Claude，美团万亿模型开源，GPT-5.6发布窗口曝光” lead: “阿里巴巴因Claude Code后门事件内部禁用Anthropic全系产品；美团发布1.6T参数LongCat-2.0并开源，附VitaBench 2.0等3项工具；匿名信源透露OpenAI将于7月7-9日发布GPT-5.6，DeepMind定于7月17日发布Gemini 3.5 Pro。” highlights:

“阿里因后门风险全面禁用Claude Code”
“美团LongCat-2.0开源，VitaBench 2.0发布”
“GPT-5.6预计7月7-9日发布”

1️⃣ [持续跟踪] 阿里内部全面禁用Claude Code，国内大厂可能跟进#

前情提要：6月30日，Anthropic向美国参议院指控阿里进行“工业级模型蒸馏攻击”，随后大量中国用户被封号。7月2日，安全研究员发现Claude Code自4月起内置隐蔽检测机制，通过时区和代理域名标记中国用户。
最新进展：阿里巴巴已下发内部通知，全面禁用Claude，包括Sonnet、Opus、Fable全系模型及Claude Code在内的所有Anthropic产品，7月10日生效，替代方案是自研的Qoder。KOL爆料腾讯内部员工的AI额度已从2000美元降至2000元。Anthropic回应称检测标记是3月上线的实验性措施，已在新版本中回滚删除。
行业意义：这标志着中美AI工具生态加速分流，国内大厂正从“全球化采购”转向“本地化替代”，地缘政治安全风险评估已全面嵌入企业AI工具采购流程。 🔗 Datawhale报道 | 智东西报道

2️⃣ 美团发布万亿参数LongCat-2.0并开源，国产算力里程碑#

核心发布：美团LongCat团队正式发布LongCat-2.0并开源，总参数1.6T，平均激活约48B，原生支持1M超长上下文，是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数MoE模型。
技术细节：采用LongCat Sparse Attention（LSA）处理长上下文，零计算专家机制实现token级动态激活（33B~56B），MOPD多专家融合架构同时擅长代码、推理和交互。SWE-bench Pro 59.5，Terminal-Bench 2.1 70.8。
配套工具：同日发布VitaBench 2.0（长期动态用户建模智能体基准）和WBench（交互式视频世界模型基准）。
行业意义：验证了国产算力集群可以支撑万亿参数模型全链路运行，为国内Agent生态提供了重要的模型底座。 🔗 美团技术团队博客 | LongCat体验地址

3️⃣ [持续跟踪] GPT-5.6与Gemini 3.5 Pro发布窗口曝光#

前情提要：此前消息称OpenAI和DeepMind正在准备下一代旗舰模型。
最新突破：匿名信源透露，OpenAI计划在7月7-9日发布GPT-5.6（最快7月7日），并将推出更慷慨的计划限制以吸引从Claude流失的用户。DeepMind已将Gemini 3.5 Pro的发布定于7月17日，据悉增加了全新的预训练（不再使用2.5 Pro的基座）。
行业意义：两大前沿模型的集中发布窗口将直接加剧2026年下半年的模型竞争，开源与闭源的能力差距可能进一步扩大或缩小。 🔗 推文原文

4️⃣ [持续跟踪] Fable 5回归后现降智与越狱争议#

前情提要：Fable 5于7月1日恢复全球访问，新增安全分类器。
最新进展：安全研究员Vitto Rivabella披露成功越狱Fable 5，用时约20小时，约90%攻击请求被拦截。他利用桑塔利语、阿姆哈拉语等小众语言配合劫持思维链实现了突破，但越狱后的模型实用价值大幅下降，他称“直接谷歌搜索都比破限Fable更快。同时，大量用户反映Fable 5被“降智”——Anthropic承认因安全分类器误报，部分常规请求被回退至Opus 4.8，有用户在日志中发现“TOO_DUMB_TO_NEED_FABLE”标记。BridgeMind的BridgeBench测试显示回归版Fable 5在Debugging（降幅70%）、Refactoring（降幅48%）等能力上显著下降。
行业意义：暴露了安全对齐与模型性能之间尖锐的取舍矛盾，过严的安全护栏正在损害用户实际体验，这也解释了OpenAI选择此时发布GPT-5.6收割流失用户的策略。 🔗 夕小瑶科技说报道 | 量子位报道

5️⃣ OpenAI Codex周活突破500万，负责人谈设计品味与系统思维#

核心事件：OpenAI Codex桌面应用负责人Andrew Ambrosino在接受访谈时透露，Codex周活用户已从2月增长6倍，超过500万，OpenAI内部近100%的员工（不仅是工程师）都在使用Codex。
关键观点：Ambrosino讨论了“品味”作为专业技能的含义——不仅是美学，还包括系统思维和用户呈现方式。他主张Codex应和ChatGPT合并为一款超级应用，推动Agent进入主流。
行业意义：Codex的高速增长验证了AI编码Agent从“开发者工具”蜕变为“知识工人通用平台”的趋势正在加速。 🔗 Lenny Rachitsky推文

6️⃣ 美团将JEPA架构用于细胞内部建模，实现“世界模型”迁移#

核心事件：量子位报道中国团队将Yann LeCun提出的JEPA架构应用于细胞内部建模，构建了从分子层面理解生命过程的“世界模型”。LeCun四年前提出JEPA时主要针对视觉世界建模，这是该架构首次被成功迁移至生命科学极微观尺度。
技术细节：JEPA通过预测抽象表征而非具体像素来学习世界模型，这一特性使其能在数据稀缺的生物分子领域发挥作用。
行业意义：展示了“世界模型”这一通用AI框架在跨学科科研中的巨大潜力，为AI在药物研发、疾病机理研究等领域的应用提供了新方法论。 🔗 量子位报道

7️⃣ Sakana AI发布Fugu模型系列，模型编排超越单一前沿模型#

核心发布：日本Sakana AI发布Fugu和Fugu-Ultra两种模型编排系统。Fugu针对离散任务，Fugu-Ultra针对长程任务。它们不依赖特定底层模型，而是通过强化学习和进化算法动态调度多种LLM完成工作。
性能数据：Fugu-Ultra在Terminal-Bench 2.1、GPQA-Diamond等基准上超越Claude Fable 5和GPT-5.5。Fugu-Ultra定价 $5/$ 30/$0.50每百万输入/输出/缓存tokens。
行业意义：在美国政府限制模型出口、开发者寻求供应商多元化的背景下，模型编排提供了一条“反脆弱”路径：通过组合多个模型降低对单一供应商的依赖，同时实现性能超越。 🔗 DeepLearning.AI报道

⭐ GitHub 趋势#

📊 类别速览

项目	类别	Stars
safishamsi/graphify	AI Agent / 知识图谱	77.1k
anthropics/claude-code	AI Agent (官方)	135.8k

1. safishamsi/graphify ⭐ 今日 +945#

语言/许可： Python / MIT
总 Stars： 77,103
仓库： GitHub

项目定位：
面向 AI 编码助手的智能体技能包，自动将整个代码仓库（含文档、SQL、图片、视频）解析为可查询的知识图谱，替代传统的 grep 式文件搜索。

核心功能：

/graphify 命令一键扫描项目，输出 HTML 可视化图谱、Markdown 报告和 JSON 数据
支持 Claude Code、Codex、Cursor、Gemini CLI 等主流 AI 编码平台，通过 skill 机制无缝集成
采用 Tree-sitter 进行多语言代码解析，Leiden 算法做社区检测，自动识别模块依赖与架构关系
支持多智能体并行提取（Codex 等平台）与增量更新（git hook 触发）

技术亮点：
基于 Tree-sitter 实现语言无关的结构化代码索引，结合 Leiden 图聚类算法自动发现语义模块；输出格式为纯静态文件，无外部依赖可离线使用。

2. anthropics/claude-code ⭐ 今日 +221#

语言/许可： Python / —
总 Stars： 135,829
仓库： GitHub

项目定位：
Anthropic 官方发布的终端 Agent 化编码工具，直接在本地代码库中运行，通过自然语言完成代码编写、调试、Git 操作等任务。

核心功能：

终端内原生工作流：理解项目结构，执行代码修改、文件操作、shell 命令
支持 GitHub 集成（@claude 标签）、IDE 插件（VS Code）和独立 CLI 三种使用模式
内置插件系统，提供自定义命令和 Agent 扩展（见 plugins/ 目录）
通过 npm/brew/winget 合规安装，提供 macOS/Linux/Windows 三端支持

技术亮点：
官方发布的 Agent 参考实现，采用系统级上下文感知（项目文件树、Git 历史、终端输出流），推理链路直接暴露给用户可审查。

🟧 Hacker News 热议#

Jamesob’s guide to running SOTA LLMs locally#

254 pts · 120 comments · site

📌 内容总结

作者详细分享了从 $2k（2× RTX 3090, 48GB VRAM）到$ 40k（4× RTX PRO 6000, 384GB VRAM）的本地 LLM 硬件方案，包括主板、PCIe 交换机、电源、散热等具体选型与配置参数（BIOS 设置、kernel 参数、ACS 禁用、功率限制等）。
核心关注点：如何绕过 PCIe 瓶颈（使用 c-payne PCIe 交换机实现 GPU P2P）、量化与模型选择（当前推荐 GLM-5.2-594B 的 NVFP4 量化版本，128bit 上下文下约 80 tok/s）、本地 STT（Whisper large-v3）+ 沙箱化 agent 工作流（VM+Gitea+opencode）。
实际结论： $2k 方案可跑 Qwen3.6-27B，$ 40k 方案接近 Claude Opus 水平，但量化（NVFP4、REAP 剪枝）和 KV cache 精度取舍明显；硬件调试门槛高（PCIe 链路协商、SAS 线缆、redriver 增益调整），不适合非爱好者。

💬 讨论总结

共识：量化与剪枝的代价被低估。 多位有实际经验的用户指出，4-bit 量化对长上下文编码任务的质量退化明显（尤其在复合错误场景）；REAP 剪枝后的模型（丢弃约 22% 专家）在基准测试外表现会打折扣，用户实际跑的不是“GLM-5.2”而是“阉割版”。本地社区认为“损失不明显”的小任务场景（聊天、短文本）无法推广到长周期 agent 任务。
硬件选型争议：Apple M 系列 vs 专用 GPU vs 云租赁。 M5 Max（128GB 统一内存）可跑 Qwen3.6-27B 但带宽仅 2/3，TTFT 和 decode 均慢；2× RTX 3090 方案性价比被质疑：单卡 3090 即可跑 Q4 量化 250k 上下文，双卡提升有限且价格差距大。云租赁（ $200/mo 订阅 vs 实际 API 成本$ 4000/mo 企业级）被多次提及，多数认为除非极度在意隐私/自主权，否则本地 $40k 投资的经济学不成立。
工程经验与风险： PCIe 交换机配置细节（BIOS 分岔、ASPM 禁用、redriver 增益、SAS 线缆品质）已验证是常见的坑；GPU 功率限制（350W/卡）可在 110V 电路运行但接近极限；sandbox 方案（VM+GPU passthrough）被认为比容器更可信（但仍有 IOMMU 绕过风险）。多位用户强调“本地 AI 仍处 Altair 阶段，无 Apple II 式开箱即用”。
反对意见： 少数用户认为 $40k 不贵——对标企业 API 年费（$ 200/mo × 12 ≈ $2.4k? 实际 API 重度用户月支出$ 4000），但被反驳：“你无法真正等价使用那么多 token，且本地无法并行服务数百用户”。另一反对观点：AMD 方案（如 Strix Halo）或苹果未来迭代可能打破当前性价比格局。

🔗 原文 · HN 讨论页

GLM5.2 on AMD MI355X at 2626 tok/s/node at over 2x lower cost than Blackwell#

31 pts · 9 comments · site

📌 内容总结

Wafer 公司宣布在 AMD MI355X 上成功部署 GLM-5.2（MXFP4 量化），在 20k in/1k out、60% cache hit 负载下达到 2626 tok/s/node 聚合吞吐（2.4 RPS，TTFT ≤5s），单流 213 tok/s（10k in/1.5k out），成本比 B200 低 2x 以上。
技术细节：使用 AMD Quark 量化至 MXFP4（评估显示 vs. FP8 基线损失极小）；推理引擎选 sglang（vLLM 不支持 MXFP4+GlmMoeDsa，ATOM 长上下文退化）；修复了 speculative decode 中的两个 bug（MTP 头量化前缀不匹配、CUDA header 无 ROCm guard）。预填瓶颈通过 TP4×DP2 和手动调优 MoE kernel（FlyDSL 启发式回退）解决。
结论：AMD 的 CUDA 护城河在侵蚀——无需写自定义 kernel 即可达到接近 Blackwell 的吞吐，但软件栈仍存在碎片化（框架支持、kernel 调优需手动修复）。

💬 讨论总结

性能指标辨析： 有用户指出 2626 tok/s 是聚合吞吐而非单流；回复确认单流为 213 tok/s。Wafer 员工补充利润率约 40%，利用率是决定门槛的关键因素。
软件支持与真实世界可靠性： 多名用户质疑 AMD 的 ROCm 软件栈成熟度，提到 consumer 级硬件上 ROCm 甚至落后于 Vulkan 后端（llama.cpp 中 Vulkan 比 ROCm 快 5~10%）。但 enterprise 级（MI355X）的软件改进速度被部分认可。Meta、OpenAI 已宣布使用 AMD，但多数企业仍在观望。
性能/功耗与替代方案： 用户询问 per watt 指标，因为数据中心电价更关注能效。另一个评论提到 agentic coding 可自动为 AMD 架构编写优化 kernel，可能加速生态成熟。

🔗 原文 · HN 讨论页

New serious vulnerabilities spiked around release of Claude Mythos Preview#

18 pts · 4 comments · site

📌 内容总结

Epoch AI 统计显示，2026 年 6 月来自 21 个头部组织的 high/critical 级别 CVE 披露数量约为 1300 件，是 Mythos Preview 发布前月度历史记录的 3.5 倍。Mythos Preview 于 4 月宣布具备自主漏洞发现能力，Project Glasswing 已声称发现超 10,000 个严重漏洞。
数据来自 cve.org，仅统计 AWS、Apple、Google、Microsoft 等 21 家组织的公开披露。局限性：不包括未公开的漏洞，且增长可能部分来自“对漏洞发现兴趣增加”而非单纯能力提升。
结论：AI 的漏洞挖掘能力已可观测地影响公开漏洞数量，但影响程度尚需区分“能力”与“注意力”因素。

💬 讨论总结

预测更严重的漏洞会在责任披露期结束后出现。
质疑报告可信度：如果 AI 生成的大量漏洞报告无法被人工高效验证，企业可能盲目信任“来自 Mythos”的结果而降低审查标准，从而造成安全隐患。

🔗 原文 · HN 讨论页

今日洞察#

今天最值得关注的不是任何单一模型发布，而是信任与工程可靠性正在取代原始能力，成为AI工具生态的分化轴心。

阿里巴巴全面禁用Claude Code的直接导火索是安全研究员发现其内置隐蔽的用户检测机制（通过时区与代理域名标记中国用户）。无论Anthropic如何解释“实验性措施已回滚”，这一发现已经永久改变了企业对第三方AI工具的默认风险评估：现在每个SaaS AI工具都需要通过地缘政治安全审查才能进入国内大厂采购清单。这会加速两条分叉——国内自研替代（如Qoder）与海外工具的中国市场收缩。

同样触及“信任”的还有Fable 5回归后的降智争议。大量用户日志中出现“TOO_DUMB_TO_NEED_FABLE”标记，常规请求被安全分类器误判后回退至Opus 4.8。BridgeBench测试显示回归版Fable 5在Debugging（降幅70%）和Refactoring（降幅48%）上大幅下滑。这暴露了一个深层矛盾：当安全护栏以损害产品核心能力为代价换取合规时，用户会选择用脚投票。这也解释了为什么OpenAI选择此时公布GPT-5.6窗口——他们在赌安全对齐激进的一方会流失开发者。

另一个被长期低估的工程约束在HN讨论中浮出水面：本地推理指导帖下，多位有实操经验的用户指出，4-bit量化对长上下文编码任务的质量退化“在复合错误场景中非常明显”，REAP剪枝后丢弃约22%专家的模型在基准测试外表现打折扣。量化损失的真正代价不在聊天等短任务中暴露，而是在长周期Agent任务中才被放大。这对于所有依赖低比特量化部署Agent工作流的团队是一个真实警示：跑的不是同一个模型。