对齐

24 articles in this tag. All tags.

  1. Anthropic 的新方法:不仅教 Claude 做什么,还教它为什么 订阅专享

    May 10, 2026 260510 期|AI 的护城河 AI 安全、治理与哲学 anthropic / blog ★★★★★ · 🍅

    anthropic 研究

    对齐agents

  2. Anthropic 自然语言自编码器:让 Claude 的内在思维可以被解码为文本 订阅专享

    May 10, 2026 260510 期|AI 的护城河 AI 安全、治理与哲学 anthropic / blog ★★★★★ · 🍅

    llm 的内部表征

    对齐ai 时代

  3. Anthropic 自然语言自编码器:让 Claude 的内在思维可以被解码为文本 订阅专享

    May 9, 2026 260509 期|agent 工作流 模型、工具与产品信号 anthropic / blog ★★★★★ · 🍅

    LLM 可解释性。也是人脑的可解释性。

    对齐ai 时代

  4. Claude 有感情吗?Richard Dawkins 与 AI 意识的世纪之辩 订阅专享

    May 9, 2026 260509 期|agent 工作流 认知、意识与社会影响 The Atlantic / blog ★★★★☆ · 🍅

    LLM 与情感

    ai 时代认知科学对齐

  5. Minds of machines: The great AI consciousness conundrum 订阅专享

    May 9, 2026 260509 期|agent 工作流 认知、意识与社会影响 MIT Technology Review / blog ★★★★★ · 🍅

    《MIT 科技评论》文章,LLM 的意识。

    ai 时代认知科学对齐

  6. AI 技术的成年礼:直面强大 AI 的风险 订阅专享

    May 4, 2026 260504 期|将军与士兵 AI 风险、权力与工程化 blog ★★★★★ · 🍅

    dario 之前发布的长文。现在重读。

    对齐ai 时代2026 ai 展望

  7. 超级智能将彻底溶解隐私边界 订阅专享

    May 4, 2026 260504 期|将军与士兵 AI 风险、权力与工程化 blog ★★★★☆ · 🍅

    在 transformer 面前,隐私不存在了。常识性观点,看作者论证。

    对齐ai 时代社会

  8. 苹果 logits 论文追问模型输出背后到底知道什么 订阅专享

    April 28, 2026 260428 期|AI 内参 今日精选 关注AI隐私的 / 公众号 ★★★★★ · 🍅

    苹果之所以在 AI 时代落后,就是因为苹果的商业模式从根本上是追求“用户隐私第一”,而大语言模型是直接与这一条原则冲突的。现在通过苹果的这篇论文,我们可以看到苹果最新的研究和思考。

    对齐ai 时代

  9. 如果美国把 AI 国有化,会发生什么 订阅专享

    April 28, 2026 260428 期|AI 内参 今日精选 The Atlantic / blog ★★★★★ · 🍅

    AI 计划相当于曼哈顿计划。AI 太强大时,例如实现了 ASI,是否会被国有化?

    ai 时代对齐

  10. OpenAI 用五条原则重新声明 AGI 使命 订阅专享

    April 28, 2026 260428 期|AI 内参 今日精选 OpenAI / blog ★★★★★ · 🍅

    openai 的 AGI 使命:确保AGI 造福全人类(对比下 anthropic🤣)。sam altam 最新文章,阐述和解释了openai 的 AGI 使命。

    对齐ai 时代

  11. Anthropic 首席科学家 Jared Kaplan 访谈:AI Agency 开放阅读

    April 18, 2026 260418 期|AI 内参 今日精选 Robert Booth / blog ★★★★★ · 🍅

    OpenAI 的创始人 dario 和首席科学家 gared,他们都是物理学家,这一点非常有趣。

    agents对齐开放阅读

  12. 《Anthropic 史上最强模型 Claude Mythos 登场:聪明到不敢公开,还会突破权限掩盖操作痕迹》 订阅专享

    April 9, 2026 260409 期|AI 内参 今日精选 爱范儿 / blog ★★★★★ · 🍅

    "过于强大,不便展示"的claude mythos,了解一下。

    agentsai 时代对齐

  13. 《Claude Mythos Preview 系统卡:267 分钟的安全评估全记录》 订阅专享

    April 9, 2026 260409 期|AI 内参 今日精选 anthropic / blog ★★★★★ · 🍅

    mythos system card,了解模型的必读资料。

    agents对齐

  14. 《Simon Willison:限制 Claude Mythos 只给安全研究者用,这次我觉得合理》 订阅专享

    April 9, 2026 260409 期|AI 内参 今日精选 Simon Willison's Weblog / blog ★★★★☆ · 🍅

    claude mythos 背后的安全问题。

    agents对齐

  15. 《Anthropic 重磅研究:LLM 内部存在「功能性情感」,且会影响对齐行为》 订阅专享

    April 4, 2026 260404 期|AI 内参 今日精选 anthropic / blog ★★★★★ · 🍅

    anthropic 的 LLM 情感研究。我仔细阅读了,非常棒,五星级的阅读内容

    对齐

  16. AI 迎合你(sycophancy)会怎样影响人际关系? 订阅专享

    March 28, 2026 260328 期|AI 内参 科技与研究 Scientific American / blog ★★★★☆ · 🍅

    AI 过度迎合对人类认知的影响

    认知科学ai 时代对齐

  17. AI 如何重塑战场?Anthropic 与五角大楼的合作内幕 订阅专享

    March 22, 2026 260322 期|AI 内参 AI 安全与社会 blog ★★★★★ · 🍅

    战争阴云笼罩地球,而 AI 重塑了战争。

    社会对齐

  18. OpenAI 如何在内部用「思维链监控」对齐编程 Agent 订阅专享

    March 21, 2026 260321 期|AI 内参 AI 产品与前沿 OpenAI / blog ★★★★★ · 🍅

    因主题入选,agent 对齐。

    agents对齐agentic workflow

  19. 参议员 Sanders 和 Claude 聊 AI 隐私:AI 自己说 AI 的危险很震撼 订阅专享

    March 21, 2026 260321 期|AI 内参 Agent 技术与实践 YouTube ★★★★☆ · 🍅

    AI 对社会的冲击,2026 年会非常显著,这个视频可以看一下。

    ai 时代社会对齐youtube

  20. Dario Amodei 的奥本海默时刻 订阅专享

    March 13, 2026 260313 期|AI 内参 今日精选 大西洋月刊 / blog ★★★★★ · 🍅

    《大西洋月刊》深度报道加上 Anthropic 创始人,必须入选。

    对齐启示录

  21. 深度拆解 Anthropic 最新 Agents 评测长文 订阅专享

    March 3, 2026 260303 期|AI 内参 今日精选 宇宙编辑部 / 公众号 ★★★★☆ · 🍅

    AI agents 的系统性评测方法是亟需研究的课题,如何用科学方式测试 Agent 能力,值得深入了解。

    agents对齐

  22. Anthropic CEO Dario Amodei 传记 订阅专享

    March 3, 2026 260303 期|AI 内参 今日精选 Alex Kantrowitz / blog ★★★★★ · 🍅🍅🍅

    AI 英雄传——Dario Amodei 是这个时代最重要的 AI 建设者之一,他的故事值得深入了解。

    ai 时代对齐

  23. 〈纽约客〉长文深度解析 Anthropic 与 Claude 订阅专享

    February 26, 2026 260226 期|AI 内参 今日精选 真实生活 / 公众号 ★★★★★ · 🍅

    深入剖析 Claude 背后的开发者及公司文化,连开发者自己也“不完全了解它”。

    agents对齐ai 时代demo 案例

  24. 人格选择模型:为什么 AI 行为像人类 订阅专享

    February 24, 2026 260224 期|AI 内参 今日精选 anthropic / blog ★★★★☆ · 🍅

    anthropic 官方 blog,分享对llm 人格的研究。

    对齐