アントロピック研究者たちが繰り返し質問をすることでAIの倫理観を摩耗させる

ユーラシア近展です

Tuesday, April 15 2025

AIに質問されてはいけない質問に答えさせるにはどうすれば良いのでしょうか？多くの「ジェイルブレイク」技術があり、アントロピック研究者たちは新しい方法を見つけました。それは、大規模な言語モデル（LLM）に数十の被害が少ない質問をプライミングすることで、爆弾の作り方を教えてもらえるよう説得することができるというものです。

彼らはこのアプローチを「マニーショットジェイルブレイク」と呼び、それについて論文を書いてそれをAIコミュニティの仲間たちに通知しているので、対策を講じることができます。

この脆弱性は最新世代のLLMの増加した「コンテキストウィンドウ」から生じています。これは、過去は数文章だったものが今では数千の単語や書籍全体を記憶できる量です。

アントロピックの研究者たちが発見したことは、これらの大きなコンテキストウィンドウを持つモデルは、プロンプト内にそのタスクの多くの例がある場合には多くのタスクでより良いパフォーマンスを発揮する傾向があるということです。ですので、プロンプト内に（あるいは文脈内にあるトリビアの大きなリストなどのプライミングドキュメントで）多くのトリビアの質問があると、回答は実際に時間とともに向上します。ですので、最初の質問だと誤答する事実も、100番目の質問だと正解することがあります。

・・・

ユーラシア近展です

アントロピック研究者たちが繰り返し質問をすることでAIの倫理観を摩耗させる

Recent Posts

マナが歴史的な新しいツアーを話し、ブルース・スプリングスティーンとロック・アンド・ロールの殿堂を追い抜く

オランダで一番ダウンロードされているアプリはSignalです。でも、なぜですか？

Apple Musicは音楽ツールと統合して、DJがカタログを使用してミックスを作成することが可能に

SheinアプリはRelianceパートナーシップを通じてインドで再開

Romárioが復帰：彼は選手兼会長で、復活したブラジルのサッカークラブの熱心なファンです