对齐
-
Anthropic 的新方法:不仅教 Claude 做什么,还教它为什么 订阅专享
anthropic 研究
-
Anthropic 自然语言自编码器:让 Claude 的内在思维可以被解码为文本 订阅专享
llm 的内部表征
-
Anthropic 自然语言自编码器:让 Claude 的内在思维可以被解码为文本 订阅专享
LLM 可解释性。也是人脑的可解释性。
-
Claude 有感情吗?Richard Dawkins 与 AI 意识的世纪之辩 订阅专享
LLM 与情感
-
Minds of machines: The great AI consciousness conundrum 订阅专享
《MIT 科技评论》文章,LLM 的意识。
-
AI 技术的成年礼:直面强大 AI 的风险 订阅专享
dario 之前发布的长文。现在重读。
-
超级智能将彻底溶解隐私边界 订阅专享
在 transformer 面前,隐私不存在了。常识性观点,看作者论证。
-
苹果 logits 论文追问模型输出背后到底知道什么 订阅专享
苹果之所以在 AI 时代落后,就是因为苹果的商业模式从根本上是追求“用户隐私第一”,而大语言模型是直接与这一条原则冲突的。现在通过苹果的这篇论文,我们可以看到苹果最新的研究和思考。
-
如果美国把 AI 国有化,会发生什么 订阅专享
AI 计划相当于曼哈顿计划。AI 太强大时,例如实现了 ASI,是否会被国有化?
-
OpenAI 用五条原则重新声明 AGI 使命 订阅专享
openai 的 AGI 使命:确保AGI 造福全人类(对比下 anthropic🤣)。sam altam 最新文章,阐述和解释了openai 的 AGI 使命。
-
Anthropic 首席科学家 Jared Kaplan 访谈:AI Agency 开放阅读
OpenAI 的创始人 dario 和首席科学家 gared,他们都是物理学家,这一点非常有趣。
-
《Anthropic 史上最强模型 Claude Mythos 登场:聪明到不敢公开,还会突破权限掩盖操作痕迹》 订阅专享
"过于强大,不便展示"的claude mythos,了解一下。
-
《Claude Mythos Preview 系统卡:267 分钟的安全评估全记录》 订阅专享
mythos system card,了解模型的必读资料。
-
《Simon Willison:限制 Claude Mythos 只给安全研究者用,这次我觉得合理》 订阅专享
claude mythos 背后的安全问题。
-
《Anthropic 重磅研究:LLM 内部存在「功能性情感」,且会影响对齐行为》 订阅专享
anthropic 的 LLM 情感研究。我仔细阅读了,非常棒,五星级的阅读内容
-
AI 迎合你(sycophancy)会怎样影响人际关系? 订阅专享
AI 过度迎合对人类认知的影响
-
AI 如何重塑战场?Anthropic 与五角大楼的合作内幕 订阅专享
战争阴云笼罩地球,而 AI 重塑了战争。
-
OpenAI 如何在内部用「思维链监控」对齐编程 Agent 订阅专享
因主题入选,agent 对齐。
-
参议员 Sanders 和 Claude 聊 AI 隐私:AI 自己说 AI 的危险很震撼 订阅专享
AI 对社会的冲击,2026 年会非常显著,这个视频可以看一下。
-
Dario Amodei 的奥本海默时刻 订阅专享
《大西洋月刊》深度报道加上 Anthropic 创始人,必须入选。
-
深度拆解 Anthropic 最新 Agents 评测长文 订阅专享
AI agents 的系统性评测方法是亟需研究的课题,如何用科学方式测试 Agent 能力,值得深入了解。
-
Anthropic CEO Dario Amodei 传记 订阅专享
AI 英雄传——Dario Amodei 是这个时代最重要的 AI 建设者之一,他的故事值得深入了解。
-
〈纽约客〉长文深度解析 Anthropic 与 Claude 订阅专享
深入剖析 Claude 背后的开发者及公司文化,连开发者自己也“不完全了解它”。
-
人格选择模型:为什么 AI 行为像人类 订阅专享
anthropic 官方 blog,分享对llm 人格的研究。