Ornith-1.0 开源,xAI 用 Cursor 数据训练 v9,BigQuery 推 AI.AGG
- Ornith-1.0 开源,397B MoE 版本超 Claude Sonnet 4.6
- xAI v9 补充训练引入 Cursor 数据,2T 参数训练中
- BigQuery AI.AGG() 预览,一行自然语言 SQL 分析百万行
DeepReinforce 开源 Ornith-1.0 系列,提供 9B 至 397B 四种规格,387B MoE 版本在 Terminal-Bench 等基准上超越 Claude Sonnet 4.6;Elon Musk 确认 xAI v9 模型在补充训练中使用了 Cursor 团队的数据,正在进行 2T 参数的新一轮训练,预计 8 月发布;Google Cloud 发布 BigQuery AI.AGG() 预览,支持用自然语言 SQL 对百万行数据进行聚合分析。
1️⃣ 大晓机器人赛博机器狗沪津上岗:搭载A1超级大脑,7×24巡逻#
- 核心发布:大晓机器人正式将”晓途”自主作业系统落地上海西岸和天津,机器狗开启7×24小时城市巡逻,覆盖滑板广场、台阶、人车混流等开放场景。
- 技术突破:机器狗搭载具身超级大脑模组A1,采用端到端一体化网络架构打通感知、决策、规控全流程,具备“即视即行”能力,不再依赖预设轨道或高精地图。
- 落地表现:在黄浦江滨江步道自动识别践踏草坪、遛狗不系绳等不文明行为并语音劝导;面对与地面同色的石砌台阶,通过多模态三维感知计算几何参数自主调整步态。深夜时分通过高动态范围成像穿透黑暗,捕捉江边危险靠近等风险并预警。
- 云端管理:一个人可远程统筹多只机器狗,系统自动生成含事件统计的巡逻简报。值守结束可自主回充,通知其他“同事”替班。
- 行业意义:这标志着具身智能从“PPT和实验室”正式进入“真实城市街区”的常态化服务,机器狗变身为智能基础设施,而非表演性景观。 🔗 爱范儿报道
2️⃣ Google发布BigQuery AI.AGG:一行自然语言SQL,聚合分析百万行数据#
- 核心发布:Google Cloud宣布BigQuery的AI.AGG()函数进入预览阶段,支持用自然语言指令在一行SQL内对百万行非结构化或多模态数据进行总结、聚合和趋势分析。
- 工作原理:
AI.AGG()自动将输入数据分批、聚合各批次结果,最终合成综合回答,用户无需手动管理上下文窗口。支持文本和图像输入(通过外部对象表传递URI)。 - 场景验证:可分析数百万条系统日志中的隐藏效率瓶颈(如内存抖动、时钟漂移),而不必标记为FATAL错误;可自动从产品名称和描述中提取分类体系,并通过
AI.CLASSIFY()等函数完成全量标签化。 - 最佳实践:建议明确指定模型端点(如
gemini-2.5-flash);若结构化字段含NULL整行会被跳过,需用IFNULL()提供后备值。 - 行业意义:把基于LLM的智能分析能力直接嵌入数据分析师最熟悉的SQL界面,大幅降低从非结构化数据中提取洞察的工程门槛。 🔗 Google Cloud Blog
3️⃣ Ornith-1.0开源:自脚手架Agent编程模型,9B-397B全系列覆盖#
- 核心发布:DeepReinforce-AI正式发布Ornith-1.0系列,基于Gemma 4(Apache 2.0)和Qwen 3.5(Apache 2.0)后训练,采用MIT许可开源。目前可以通过LM Studio配合GGUF文件(如ornith-1.0-35b-Q4_K_M.gguf)在本地运行。
- 性能亮点:在Terminal-Bench 2.1、SWE-Bench Verified、ClawEval等多项agentic coding基准上,387B MoE版本超越Claude Sonnet 4.6等闭源模型。Simon Willison实测显示其能流畅执行多轮工具调用的代理任务。
- 创新训练策略:模型采用自改进强化学习,不仅生成代码方案,还会自动生成和优化task-specific scaffolding(脚手架),使模型在agentic coding中产出更高质量的解决方案。
- 规格覆盖:提供9B Dense、31B Dense、35B MoE和397B MoE四种规格,满足从边缘部署到云端推理的不同需求。
- 行业意义:这是目前最完整的开源agentic编程模型全家桶。399B MoE版本在多项编码基准上超越闭源模型,小参数版本的强表现证明了后训练优化技术的进步。 🔗 Simon Willison博客 | Hugging Face
4️⃣ [持续跟踪] xAI v9模型加入Cursor数据训练:Elon Musk透露2T训练预计8月发布#
- 前情提要:昨日Elon Musk宣布Grok 4.5已在SpaceX与Tesla进入私人内测,基于xAI 1.5T参数V9基础模型,早期评估显示性能接近甚至超越Claude Opus。
- 最新进展:Elon Musk在X平台进一步透露,xAI v9模型在补充训练中加入了Cursor团队的训练数据。Cursor团队不仅在训练数据上有独特贡献,还在v9的SFT和RL阶段做出了重大工程贡献。目前1.5T参数的v9运行中,Cursor数据以补充训练方式加入。而几周前已经开始的新一轮2T参数训练“在几乎所有领域的数据范围和质量上都有大幅改进”,预计7月下旬完成,8月正式发布。
- 行业意义:这是首次公开确认将Cursor(以Claude驱动的编程工具)的用户数据用于训练竞争模型。2T参数的新一代训练表明xAI正在快速迭代,可能进入每月发新模型的高频节奏。 🔗 Elon Musk推文 | eric zakariasson评论
5️⃣ [持续跟踪] Anthropic Mythos 5 仅对美国关键基础设施机构解禁#
- 前情提要:6月12日,Anthropic的Mythos 5和Fable 5网络安全模型被美国政府以出口管制为由强制下线。
- 最新进展:今日消息确认,Mythos 5已部分解禁,但仅限美国关键基础设施机构使用。面向普通用户的Fable 5仍未解禁,谈判仍在继续。
- 行业意义:同一模型因太危险被下架、又因太有用被请回,凸显政府在模型安全与商业利益间的摇摆。对非美国用户和开源社区而言,这进一步强化了寻找替代方案的紧迫性。 🔗 AI Will推文
6️⃣ Memora记忆系统发布:ICML 2026,长时任务SOTA减少98%上下文token#
- 核心发布:Microsoft Research发布Memora记忆系统(ICML 2026),专为长周期Agent任务设计,在LoCoMo和LongMemEval基准上刷新SOTA,相比全上下文推理使用最高98%更少的token。
- 核心机制:Memora通过解耦“存储什么”(丰富记忆内容)与“如何检索”(轻量抽象和线索锚点),实现抽象与具体之间的平衡。每个记忆条目包含一个primary abstraction(6-8字短语)和完整的memory value。
- 性能数据:在LoCoMo上达86.3% LLM-judge准确率,LongMemEval上达87.4%,优于RAG、Mem0和全上下文推理。多跳推理场景增益最大。
- 行业意义:当前AI Agent的“无状态”问题是规模化部署的核心瓶颈。Memora提供了一个可落地的架构方案,让Agent在数月甚至数年的时间跨度内维持稳定的上下文记忆。 🔗 Microsoft Research Blog
7️⃣ Cloudflare Windows/macOS客户端GA发布:新增DNS搜索后缀、硬件注册和紧急断开#
- 核心发布:Cloudflare One Client同时发布Windows和macOS的GA版本(2026.6.822.0),将多项beta功能带入稳定版。
- 关键更新:
- DNS搜索后缀:按设备策略推送DNS搜索域列表,自动补全单标签查询。
- 硬件设备注册:Windows使用TPM 2.0+,macOS使用Secure Enclave生成注册token,增强防设备冒用能力。
- 本地紧急断开信号:除HTTPS轮询外,支持监控本地文件触发紧急断开,即使Cloudflare和自身基础设施同时不可达也能生效。
- Dash管理客户端版本:管理员可从Zero Trust仪表板直接升级或降级已注册设备的客户端版本。
- 行业意义:安全客户端向零信任策略的进一步深化,硬件级设备身份注册和本地故障隔离为远程办公环境提供了更强的安全底座。 🔗 Windows GA公告 | macOS GA公告
8️⃣ 中国信通院开源AISHPerf:首个智算运维智能体评测基准#
- 核心发布:中国信息通信研究院(信通院)正式开源AISHPerf,这是全球首个面向AI基础设施运维场景的智能体评测基准,无问芯穹重点参与技术建设。
- 数据基础:团队从无问芯穹成立以来积累的百亿条真实运维数据中筛选,涵盖2024年至2026年初全部用户工单、即时通信、运维文档及线上集群监控告警,最终形成103个高保真评测用例。
- 评测方式:不采用“笔试”式的知识问答,而是实操——故障模拟注入后,智能体需自行调用工具、查看日志、执行命令,在探索中完成问题定位和修复。明确规定智能体必须与环境发生真实交互,仅靠猜测不得分。
- 实测结果:包括Claude在内的多款主流模型测试得分全部低于50分。三类典型失败模式:稳定性不足(工具格式错误)、推理链质量不足(止于表面现象)、安全性问题(执行危险命令)。
- 行业意义:为AI Infra运维Agent的研发提供了“有标可依”的评估框架,尤其覆盖了天数智芯、壁仞科技、华为昇腾等国产算力平台,对国内智算生态建设具有参考价值。 🔗 智东西报道
⭐ GitHub 趋势#
📊 类别速览
| 项目 | 类别 | Stars |
|---|---|---|
| Unclecheng-li/VulnClaw | AI Agent + 安全工具 | 1.1k |
| 0xNyk/council-of-high-intelligence | AI Agent / 多模型编排 | 1.9k |
1. Unclecheng-li/VulnClaw ⭐ 今日 +129#
语言/许可: Python / MIT
总 Stars: 1,115
仓库: GitHub
项目定位:
面向安全测试人员的 AI 驱动渗透测试 CLI 工具,将自然语言指令自动转换为「信息收集 → 漏洞发现 → 利用 → 报告生成」的全流程工作流。
核心功能:
- 目标驱动求解引擎:抛弃固定轮数循环,基于黑板图状态空间搜索,以“目标达成 / 探索耗尽”为终止条件,避免无效空转
- 证据级反幻觉闸门:只采信真实工具输出中逐字符出现的 flag/结论,拒绝模型编造的虚假胜利
- 支持 13 个 LLM Provider(OpenAI / DeepSeek / 千问 等)一键切换,内置 MCP 工具链(fetch、memory、chrome-devtools、burp)
- 21 个渗透 Skill(含 CTF Web/Crypto/Misc)及可扩展漏洞检测插件体系,结果自动归入报告链路
技术亮点:
基于黑板图 + OODA 循环的状态空间搜索架构,结构上杜绝重复探索;自适应反思引擎按 L0-L4 渐进升级 payload 绕过策略。
2. 0xNyk/council-of-high-intelligence ⭐ 今日 +331#
语言/许可: Shell / CC0-1.0
总 Stars: 1,869
仓库: GitHub
项目定位:
面向决策者的多 LLM 辩论框架,通过 18 个预设思想家角色(亚里士多德、费曼、卡尼曼等)跨模型提供商进行结构化多轮审议,输出含分歧分析的决策报告。
核心功能:
- 三种审议模式:Full(3 轮独立分析→交叉质询→终局)、Quick(2 轮快速分析)、Duo(极性配对两角色辩证)
- 内置 20 个领域专用三人小组(Triad,如架构、风险、AI 安全),通过
--triad参数直接调用 - 多提供商自动路由:成员按配置分布在 Claude、OpenAI、Gemini、Ollama 上,确保模型多样性而非单模型变装
- 反群体思维机制:早期同意率 >70% 时强制两名成员对立方论证,并设置异议配额与新颖性门控
技术亮点:
基于极性配对的设计确保认知多样性;结构化问题重述门控(Problem Restate Gate)在分析前强制所有成员重构问题,暴露问题本身的歧义。
🟧 Hacker News 热议#
Qwen 3.6 27B is the sweet spot for local development#
546 pts · 476 comments · quesma.com
📌 内容总结
- 作者对比 Qwen 3.6 的 27B(dense)和 35B A3B(MoE)两个变体,认为 27B 在编码代理场景下质量更高,牺牲速度但更可靠。
- 提供完整的本地部署方案:选用
llama.cpp,推荐 8-bit 量化 + MTP(多 token 预测),在 M5 Max 128GB 上测得约 32 tok/s。 - 实测性能:27B 8-bit 在 M5 Max 上约 32 tok/s,35B A3B 约 105 tok/s;对比 MLX 和 llama.cpp 表现,后者在 Apple Silicon 上更快。
- HN 关注点:
- 硬件门槛:基准测试基于 128GB 统一内存 MacBook(约 $6,700+),多数用户不具备此配置。
- 与替代方案的比较:Gemma 4 31B、DeepSeek V4 Flash(DwarfStar)、Qwen 3.5 122B 各有优劣。
- 实际编码体验分歧:部分用户认为“第一款可以真正作为通用智能的本地模型”,另一部分认为对复杂代码库仍不够用。
💬 讨论总结
-
硬件门槛争议:
- 共识:27B 模型可在 64GB/48GB 上以较低量化运行(4-bit 约 18GB),但交互速度和上下文窗口受限。
- 部分用户认为“买 128GB MacBook 花 $6k+”不合理,不如用 API 或购买多卡桌面 GPU(如 3090)。
- 工程经验:Mac Mini M4 64GB / Intel Arc B70 32GB 是成本更低的替代方案;也可以通过分体式服务器(如 DGX Spark)或老旧 GPU(1080 8GB + 系统 RAM)勉强运行 Qwen 3.6 35B Q4。
-
模型能力评价:
- 正面:大量用户报告 Qwen 3.6 27B 在 24GB VRAM(4090)上以 Q4_K_M 量化可取得 50+ tok/s,编码能力接近中期 2025 的 frontier 模型。
- 反面:部分经验用户指出“零样本绿色项目容易,但修改现有代码库时仍需指导”或“工具调用参数易幻觉”。
- 还有用户坚持认为本地模型完全不如 Claude/OpenAI,但主流共识是“对隐私敏感或避免供应商锁定的场景值得”。
- 提到 Qwen 3.5 122B-A10B 在 SWE-Bench 上表现与 27B 相当甚至更好,说明规模与质量的 Pareto 前沿尚有空间。
-
对手框架的批评:
- 作者推荐 avoid Ollama on ethical grounds,但多数用户对此不关注,更关心实际集成难度。
- 对比 MLX vs llama.cpp:实测 llama.cpp 更快且支持 MTP,而 MLX(特意针对 Apple Silicon)反而落后。
-
个别异议:
- “Local models are a waste of time”被多人反驳,但确实有用户测出工具调用失败。
- 热管理:M5 Max 满负荷下笔记本电脑会变得滚烫且风扇噪音巨大,建议用 Mac Mini 或独立服务器运行。
Ornith-1.0: self-improving open-source models for agentic coding#
139 pts · 30 comments · github.com/deepreinforce-ai
📌 内容总结
- 作者(DeepReinforce 团队)推出基于 Qwen 3.5 和 Gemma 4 的系列模型(9B dense / 35B MoE / 397B MoE),声称通过 RL 联合优化 scaffold 与 rollout 实现“自我改进”。
- 提供完整 benchmark(Terminal-Bench、SWE-bench、NL2Repo 等),显示在同等参数量下明显优于基础模型,部分指标接近 Claude Opus 4.8。
- 支持 vLLM/SGLang/llama.cpp 部署,256K 上下文窗口,MIT 许可证。
- HN 关注点:
- “自我改进”是训练阶段的强化学习,不是模型使用阶段的特性。
- 实际性能:基准测试结果被怀疑是“benchmaxxed”,社区用户实测发现长会话工具调用质量下降。
💬 讨论总结
-
对“自我改进”标题的批评:
- 多数评论认为这是误导性标题:模型本身不会在使用中自我改进,只是训练时用 RL 优化了 agent 的 scaffold。
- 有用户直接评价“clickbait title”。
-
benchmark 可信度质疑:
- 第三方独立测试(Swelljoe 的 Will It Mythos?)显示 Ornith 在非工具场景下幻觉严重,且只找到大多数模型都能找到的单一 bug。
- 另有评论指出 Ornith 397B 在某个排行榜上排名低于 Kimi K2.6,结果不一致,暗示可能存在过拟合或评测差异。
-
实际体验:
- 少量正面:部分 LocalLLaMA 社区用户认为 Ornith-1.0 是“第一个不被立即拒绝的 Qwen 微调”,推荐当作轻量 agent 使用。
- 大量负面:长会话工具调用容易陷入幻觉或错误参数,远不如直接使用 Qwen 3.6 或 3.5 122B。
-
对社区的分歧:
- 有用户声称“LocalLLaMA 社区大部分人讨厌它”,只有少数新用户叫好。
- 另一用户指出:“Qwen 模型本就是最被推荐的本地模型之一,Ornith 作为微调很难比原生更好。”
- 关注到 31B dense 版本没有任何权重或 benchmark 发布,被批评为“画饼”。
Apple Neural Engine: Architecture, Programming, and Performance#
94 pts · 14 comments · arxiv.org
📌 内容总结
- 302 页逆向工程报告,覆盖 A11
A18 和 M1M5 的 ANE,内容包括数据通路、Roofline 模型、编译器、权重压缩、固件与内核驱动协议。 - 核心发现:ANE 在 M1 上提供约 12 fp16 TFLOP/s,能效比 GPU 高 9 倍;但需通过 Core ML 调用,直接用户空间调用不稳定且无文档。
- 文章标注了测量、反编译与预测三类数据来源,并列出未解问题。
- HN 关注点:
- 文本风格被批评为“AI 写作”。
- 缺少对 M5 引入的 Neural Accelerators(Apple 版 Tensor Core)的描述。
- ANE 对于 LLM 推理无实用价值。
💬 讨论总结
-
写作质量争议:
- 第一条评论即为“这看起来很 AI 写的”,有用户指出大量使用“Performance begins with the roofline”这类套话,建议使用 vale 等工具校验。
- 作者未回应,但文章中确有多处类似句式。
-
内容范围不足:
- 一位用户指出报告未覆盖 Neural Accelerators —— Apple 的 Tensor Core 等效单元(仅 M5 引入),认为这是最重要但缺失的部分。
- 回复澄清:Neural Accelerators 属于 GPU 而非神经引擎,所以不在本文范围。
-
对 ANE 实用性判断:
- 有评论简评“这个神经引擎对 LLM 似乎没用,被困在错误的架构里”,未收到反驳,说明社区普遍认可 ANE 主要针对 CV、语音等模型,而非 Transformer 推理(因为其固定矩阵形状和有限的算子支持)。
-
未触及实质技术细节:
- 有用户询问是否有非 AI 写作的信息源,希望获取 GPU/ML 微架构资料,未得到有效回复。
今日洞察#
xAI 调用 Cursor 数据训练 v9,模型训练的数据源博弈进入新阶段。 Elon Musk 公开确认 v9 模型在补充训练中加入了 Cursor 的工程数据,且 Cursor 团队参与了 SFT 和 RL 阶段。Cursor 是以 Claude 为默认后端的编程工具,这意味着开发者在日常使用中生成的数据,正在被用来训练与 Anthropic 竞争的模型。这条信息之所以值得关注,不是因为“xAI 用外部数据”本身,而是因为它是首个公开确认编程工具用户数据直接流向竞品模型训练的案例。二阶影响:开发者对编程工具的数据隐私敏感度将上升,尤其是 Claude 驱动的工具。如果 Claude 用户数据可能被竞品获取并反向提升对手模型,将促使更多企业寻求模型与数据隔离的托管方案。同时,Cursor 作为平台方,其在数据契约和模型中立性上的立场将受到审视——这次合作可能是双向的,但至少暴露了“工具层数据”的战略价值正在被模型层直接定价。
Ornith-1.0 的发布与社区争议,暴露了开源 agentic 模型评测的信任危机。 模型在多个基准上超越 Claude Sonnet 4.6,但 HN 社区快速指出“self-improving”是训练阶段特性而非运行时能力,第三方独立测试(Will It Mythos?)显示非工具场景下幻觉严重,长会话工具调用质量下降。这些批评并非针对 Ornith 本身,而是指向一个长期问题:当开源模型用 RL 优化特定 benchmark 分布后,其泛化能力与其实用价值之间的差距被刻意掩盖。二阶影响:社区对开源 agentic 模型的态度正在从“欢迎替代品”转向“警惕包装”,用户更愿回归 Qwen/Gemma 基础模型或自行微调。对于开源生态而言,这种信任损耗会延长从“发布”到“被采用”的周期,并倒逼项目方提供更透明的运行时评估(如长会话压力测试、非工具场景通用能力测试),而非仅披露标准 benchmark 分数。