
AIに質問されてはいけない質問に答えさせるにはどうすれば良いのでしょうか? 多くの「ジェイルブレイク」技術があり、アントロピック研究者たちは新しい方法を見つけました。それは、大規模な言語モデル(LLM)に数十の被害が少ない質問をプライミングすることで、爆弾の作り方を教えてもらえるよう説得することができるというものです。
彼らはこのアプローチを「マニーショットジェイルブレイク」と呼び、それについて論文を書いてそれをAIコミュニティの仲間たちに通知しているので、対策を講じることができます。
この脆弱性は最新世代のLLMの増加した「コンテキストウィンドウ」から生じています。これは、過去は数文章だったものが今では数千の単語や書籍全体を記憶できる量です。
アントロピックの研究者たちが発見したことは、これらの大きなコンテキストウィンドウを持つモデルは、プロンプト内にそのタスクの多くの例がある場合には多くのタスクでより良いパフォーマンスを発揮する傾向があるということです。ですので、プロンプト内に(あるいは文脈内にあるトリビアの大きなリストなどのプライミングドキュメントで)多くのトリビアの質問があると、回答は実際に時間とともに向上します。ですので、最初の質問だと誤答する事実も、100番目の質問だと正解することがあります。
・・・