Anthropic推“宪法分类器”，可大幅降低Claude越狱率为解决人工

许攸评体育啊 2025-02-05 17:55:41

Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率

为解决人工智能工具中存在的滥用自然语言提示问题，OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器（constitutionalifiers）”的新概念，这是一种将一套类似人类价值观（实际上就是一部“宪法”）植入大型语言模型的方法。

注意到，Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施，旨在遏制 Claude 3.5 Sonnet（其最新、最先进的大型语言模型）的越狱（即生成超出大型语言模型既定安全防护范围的输出内容）。

作者们发现，在实施宪法分类器后，针对 Claude 模型的成功越狱情况减少了 81.6%，同时该系统对性能的影响极小，“生产流量拒绝率仅绝对增加 0.38%，推理开销增加 23.7%”。

0 阅读：0

许攸评体育啊

感谢大家的关注

作者最新文章

1

DeepSeek：从未发行任何虚拟货币，请大家注意甄别深度求索公司今日发布“关于

2

OpenWrt 24.10 首个稳定版发布：改进 Wi-Fi 6 并初步支持 W

3

Gartner：2024 年全球半导体收入同比增长 18.1%，三星反超英特尔重

4

累计巨亏 600 亿美元，Meta 称 2025 年将是 Metaverse 押

5

Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率为解决人工

6

EA 暗示《EA Sports FC》等多款作品将登陆任天堂 Switch 2据

7

寿命达 6 年，Meta 初代 Oculus Quest 头显退役科技媒体 up

8

NASA VIPER 探测车“复活”在望，将在月球南极附近寻找水冰沉积物美国宇航

9

AMD 与谷歌披露 Zen 1 至 Zen 4 EPYC CPU 关键微码漏洞，

10

奥林巴斯奥之心 100-400mm F5.0-6.3 IS II 相机镜头外观谍

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

体育TOP

1

🔸在飞往超级碗的途中，特朗普总统在空军一号上签署了一项宣言，宣布2025年

2

新一届国家队球员分档：绝对主力：蒋光太、蒋圣龙、胡荷韬、张玉宁、王大雷、高准

3

库兹马女友温妮这身材确实是顶级，但是这个皮肤估计除了库兹玛，没人受得了。#NB

4

疯了嘛？国安2:2申花，两个难以解释的细节。申花获点后裁判也参与了申花的庆祝，更

5

漫威影业新作雷霆特攻队曝光超级碗版极清海报和新剧照！收图！冬兵、黑寡妇、

6

勇士107：111独行侠，一战揭露五个不争的事实。1、巴特勒的到来，改变了金

7

辛纳被禁赛三个月三个月时间不算长，但你这是澳网结束法网开始前罚，感觉是卡着点的

8

随着韩国队点球3:1淘汰乌兹别克斯坦队，日本队点球4:3淘汰伊朗队，U20亚洲杯

9

霍华德：和詹娜交往太累了！詹娜和霍华德分手了！这恋情，比昙花一现还短！

10

太不要脸了吧[捂脸哭]CBA裁判再成笑话广东队客场挑战山西队，山西队外援完成一

体育最新文章

1

不可思议啊，勇士队主要轮换阵容，几乎都是自己选的人：1，库里——首轮第7顺位

2

逆转失败，湖人八连胜惨遭终结！湖人客场101-111惜败凯尔特人，如果只看前

3

湖人输球不可怕，更可怕的是赛后东契奇的一席话。湖人不敌凯尔特人，东契奇再次面对

4

超级冷门之夜啊！拜仁、曼城、勒沃库森、多特这轮同时输球。踢欧冠的德甲三兄弟居然

5

郑钦文创造了历史！在今天下午（北京时间）一点半左右进行的WTT美国阳光赛的比赛

6

王云潞又若祸了在3月6日深夜俄罗斯迪纳摩女排突然宣布与中国主攻王云潞提前终止合

7

随着NBA常规赛以及进入末尾；我预测2025年NBA总冠军必出自以下四支球队：

8

随着欧文报销巴特勒加盟勇士，西部前八基本是这样了！榜1：雷霆——一骑绝尘！

9

瓜迪奥拉崩溃了，曼城惨遭森林绝杀无缘第三！在刚刚结束的英超第3诺丁汉森林大战

10

郑钦文2-0阿扎伦卡，赛后有6个收获1、收获65个积分！2、收获6.04