标签 Agent 下的文章

先说结论 一、ADB:最底层、最可控的方案 二、uiautomator2:Python 圈的自动化神器 三、多模态 Mobile Agent:最接近"自动驾驶"的路 AppAgent(2023.12)— 多模态 Agent 开创性工作 四、最成熟可用的开源方案:mobilerun 五、实际踩坑:为什么你的 AI 手机控制总是翻车 1. 截图质量决定一切 2. 界面动态内容让 LLM 困惑 3. 隐私数据脱敏 4. 国产定制系统的兼容性问题 六、我的判断 参考文献 本文首发地址 https://h89.cn/archives/580.html 上周我把公司项目跑在 AI 手机控制上,结果有点意外——不是惊喜,是意外。 说白了,现在 AI 控制手机这事,概念很火,但真刀真枪跑起来,要么是玩具,要么是半成品。本文把目前所有主流技术路线摸了一遍,从

- 阅读剩余部分 -

核心发现:6 个百分点的差距 为什么会这样 两层影响机制 第一层:减少基础设施错误(1x → 3x) 第二层:资源开始改变题目难度(3x → uncapped) 一个具体例子 资源限制会奖励不同类型的 Agent SWE-bench 也不是完全免疫 对榜单的影响 对开发者和企业的启发 如果你在看榜单选型 如果你在做 Agent 评测 对国内团队的特别提醒 其他隐藏变量 结语 引用来源 本文首发地址 https://h89.cn/archives/571.html 本文基于 Anthropic 工程博客 Quantifying infrastructure noise in agentic coding evals 整理,原文发布于 2026 年 4 月。 如果你经常关注 Coding Agent 榜单,大概率会看到这样的结论:某个模

- 阅读剩余部分 -

1. 为什么需要 A2A:Agent 互操作的三层困境 2. 协议设计深度解析 2.1 Agent Card:Agent 的数字名片 2.2 通信协议:三种协议绑定 2.3 安全模型:Web 对齐而非重新发明 2.4 流式协作:Agent 的实时对话 3. AP2 支付协议:Agent 经济的基础设施 4. 云平台集成现状:Azure/AWS/GCP 已公开集成 5. A2A vs MCP vs OpenAPI:三层协议栈的分工与协作 6. 生产部署指南 6.1 认证配置要点 6.2 多租户部署 6.3 监控与可观测性 6.4 分页与大规模任务管理 7. 生态全景:从 SDK 到 Inspector 到 TCK 8. 看法与展望:A2A 的挑战与未来 值得肯定的 仍需观察的 展望 参考 本文首发地址 https://h89.cn

- 阅读剩余部分 -

记忆的 1.0 时代:手动贴便签 (Agents.md) 记忆的 2.0 时代:从手动注入到持久化管理 技术深挖:应用层记忆,不等于模型层“有状态” Memory 常见是怎么实现的? 这对开发者意味着什么? 总结 本文首发地址 https://h89.cn/archives/534.html 最近在使用 Trae.ai 的时候,很多开发者可能都注意到了 Agent 侧边栏那个 Memories 图标。 如果你曾经为了让 AI 记住项目规范,不得不在每个对话框里重复“请使用 Compose 开发”“注意内存对齐”,那你大概会直观地感受到:记忆能力一旦做得好,交互成本会明显下降。 今天我们就来聊聊:AI 的记忆机制,是怎么从“手动补上下文”演进到“可复用的记忆管理”的? 记忆的 1.0 时代:手动贴便签 (Agents.md) 在 Trae、Cursor、C

- 阅读剩余部分 -

1. 什么是 Gemini Agent? 2. 如何启用和配置 Gemini Agent 2.1 获取 API Key 2.2 在 Android Studio 中配置 3. 实际使用场景示例 3.1 自动更新依赖版本 3.2 自动接受建议 3.3 自定义项目规则 4. 总结与展望 本文首发地址 https://h89.cn/archives/421.html 本文基于 Android Studio Narwhal Feature Drop | 2025.1.2 或更高版本。 1. 什么是 Gemini Agent? Gemini Agent 是 Android Studio 内置的 AI 编程助手,它利用 Google 最先进的 Gemini 模型,旨在提升开发者的生产力。Agent 模式在您编码时主动

- 阅读剩余部分 -