
過去数年にわたって、基礎モデルと呼ばれる大規模なニューラルネットワークの開発が爆発的に進んでいます。GPT-4、PaLM、Wu Dao 2.0などの基盤モデルは、言語、音声、視覚の分野で優れた機能を発揮しています。これらのモデルは、数十億から数兆のパラメーターを含む巨大なスケールを特徴としており、トレーニングデータから世界に関する幅広い知識を習得できます。
ただし、これらのモデルの規模には、実際のアプリケーションに責任を持って導入する前に解決しなければならない信頼性に関するいくつかの重要な課題があります。
主な課題:幻覚、正確性、透明性
Sapienは、現在の基盤モデルに関する3つの主要な技術的課題を特定しました。
幻覚と検証:モデルは多くの場合、もっともらしいが誤った情報を自信を持って出力するため、出力を検出して検証するメカニズムが必要になります。
精度とキャリブレーション:特に分布外の入力では、パフォーマンスが依然として信頼できないため、強化が必要です。
透明性と診断:モデルはブラックボックスのままであり、診断テストと改善を妨げています。
LLM の背景にある技術的背景
モデルアーキテクチャ
主要な基礎モデルのほとんどは、Vaswani et al. 2017で最初に提案されたTransformerアーキテクチャに基づいています。Transformerは反復や畳み込みを排除し、グローバルな依存関係をモデル化するセルフアテンション・メカニズムに完全に依存しています。主なアーキテクチャコンポーネントには次のものがあります。
レイヤーの埋め込み: 離散入力トークンを連続ベクトル表現に変換します
エンコーダー: 入力要素間の相互作用をモデル化する、マルチヘッド・セルフアテンションとフィードフォワード・サブレイヤーで構成されるレイヤー。
デコーダー (自己回帰モデルのみ): エンコーダと似ていますが、自動エンコーディング順序を維持するために今後の注意が隠されます。
ヘッズ: セルフアテンションモジュール内で使用される変換のグループを分けて、入力の複数の「表現」を行います。
基盤モデルの規模によってすべてのコンポーネントが拡大し、入力埋め込みマッピングの解像度と注意メカニズムの能力が向上します。たとえば、GPT-3には96個のヘッドを持つ96個のレイヤーがあり、寸法は12,288個で、1750億個を超えるパラメーターが生成されます。
事前トレーニング目標
教師なしでの事前トレーニング目標は、モデルがタスク固有の微調整を行う前に言語理解を深めるための学習シグナルとなります。
自己回帰言語モデリング (GPT ライン): 因果変換器を使用して次のトークン予測能力をモデル化します。
マスク言語モデリング (BERT ライン): モデルは双方向コンテキストを使用して、ランダムにマスクされた入力トークンを予測します。通常は次の文の予測タスクで補足されます。
マルチタスク学習: 複数の目標について同時に事前トレーニングを行うモデルもあります。たとえば、PaLMはマスク言語モデリングと因果言語モデリングの両方でトレーニングを行います。
最適化の目標は、トレーニング分布をパラメーターに圧縮して、新しい例を正確に生成または予測できるようにすることです。ただし、これでは一般化できない統計的規則性があまりにも当てはまってしまう可能性があります。
主な課題 #1-出力検証
幻覚の問題
大規模なファンデーションモデルの信頼性に関する主な問題は、幻覚に陥る傾向があることです。つまり、自信はあるがまったく正しくない、または根拠のないステートメントを出力してしまいます。例えば、Chowdhery et al. 2022は、クイズ実験における自信に満ちたGPT3の予測の70%が誤りであることを発見し、幻覚が蔓延していることが浮き彫りになりました。そのため、質問への回答、要約、言語翻訳などのタスク全体にわたって、現実世界に適用できる範囲が大幅に制限されます。
幻覚の原因
モデル出力における幻覚の出現には、いくつかの要因が寄与しています。
スプリアス相関
自己監視型の目標により、モデルは誤った推論につながるトークン間の偶発的な規則性を把握できます。例えば、X国が「輸出Y」という文脈でしばしば議論されるというパターンがデータの中にあれば、そのモデルは過度に一般化して、たとえそのような関係が成り立たないとしても、X国は良いYの主要な輸出国であると述べてしまうかもしれません。
サンプリングエラー
ほとんどのモデルは、トークンを正確に予測するのではなく、ボキャブラリー全体の確率分布を推定するようにトレーニングされています。各ステップで、生成プロセスはこの分布からサンプルを抽出します。ただし、ありそうもないトークンが時折サンプリングされ、長いテキストスパンが組み合わされて、もっともらしい虚偽の主張になることがあります。
接地不足
現実世界の状態とのつながりがないため、モデルには、推論された関係が実際に現実を反映しているかどうかを判断するための基準がありません。確信を持って主張する前に、根拠がないかどうかを検証する仕組みはありません。
有望なソリューション
ありがたいことに、幻覚に広く注目が集まったことで、幻覚に対処するためのさまざまな手法が提案されています。
信頼度スコアリングとありそうもない検出: 各生成ステップでモデルの (不確かさ) をスコアリングすることで、信じがたい出力にフラグを付けて検証することができます。ありそうもないNグラムやセマンティック変換も検出できます。
マルチモデル整合性チェック: エラーはモデルによって異なる場合があるため、複数の出力を生成して一貫性を確認すると、信頼できる主張を判断するのに役立ちます。外部モデルに問い合わせてファクトチェックを行うこともできます。
半監視型虚偽検知:明示的分類器は、人間の判断と敵対的な注意散漫要因を用いて、真実の出力と幻覚の出力とを区別するように訓練できます。
因果分析:因果推論の手法により、実際には因果関係の根拠がないモデルによって悪用された統計的パターンを検出できます。介入によるロバストネス・チェックも、これらのパターンの診断に役立つ可能性がある。
しかし、これらすべてにもかかわらず、出力検証は依然として未解決の課題です。信頼性の高いジェネレーティブ・ファンデーション・モデルを実現するには、トレーニング目標、モデル・アーキテクチャ、アウトプット分析手順にまたがる多面的なアプローチが必要と思われます。幻覚を評価するベンチマークタスクの継続的な進歩は、今後数年間の進歩のきっかけとなるでしょう。
主な課題 #2-精度の向上
精度の問題
基礎モデルは、トレーニングデータの分布内で予測を行うと優れたパフォーマンスを示しますが、分布外の入力では精度を維持するのに苦労します。たとえば、長いテキストコンテキスト、複雑な推論タスク、およびデータが限られているドメインでは、パフォーマンスが急速に低下する可能性があります。信頼性が保証されなければ、現実世界での利用は制限されたままです。
精度制限の原因
精度の脆弱性にはいくつかの要因があります。
データセットバイアス
モデルは、事前トレーニング済みデータに反映されている歪んだ規則性や選択バイアスを誤ってエンコードしてしまいます。その結果、表現が根付いた仮定を超えて一般化できなくなってしまいます。
前提条件の簡略化
アーキテクチャの選択と目的によって、モデル化される領域が暗黙的に簡略化されます。たとえば、GPT-3 のようなモデルの単一シーケンス設計では、複雑な関係推論を明示的にモデル化することはできません。
有望なソリューション
現在の多くの研究分野では、分布外精度の向上が期待されています。
データセットの拡張と拡張
ターゲットドメインの幅をより広くカバーするトレーニングセットを作成すると、堅牢性を高めることができます。データ拡張技術はプログラム的に多様性を高めることができます。
セルフスーパーバイズド・プレトレーニング
多様なコーパスを対象とした教師なしでの集中的な予測タスクを事前にトレーニングすることで、モデルは仕様の策定前により根拠のある表現を学習できます。
ハイブリッドモデル
ニューラルモジュールを構造化された知識ベースおよびデータベースと組み合わせると、推論と根拠に関するコアモデルの制限を補うことができます。
正式保証
プログラムの合成と検証に関する文献から、プルーフシステムを使用して入力クラスのモデル性能に証明された限界値を生成することを提案している人もいます。
まだ大きな問題ではありますが、精度が信頼できないという課題により、研究者の間では、大規模な言語モデルのより厳密で証拠に基づいた基盤の開発に焦点が当てられています。今後の進展には、モデルファミリー、目的、形式的分析手法にまたがる総合的なソリューションが必要になるでしょう。
主な課題 #3-診断と解釈可能性
透明性の問題
基盤モデルは大規模で複雑なため、主にブラックボックスとして動作し、内部の仕組みをほとんど可視化できません。このような透明性の欠如は、モデルの開発と活用の両方に問題を引き起こします。
- モデル開発者には、アーキテクチャコンポーネントの相互作用から特定の動作がどのように発生するかを追跡するための診断手法が不足しています。そのため、モデルのパフォーマンスを改善するための方向付けられた取り組みが妨げられます。
- 推論プロセスが不透明なままであるため、エンドユーザーはモデルの理論的根拠が信頼できるかどうかを判断できません。これにより、医療、財務、ガバナンスなどの機密性の高いアプリケーションへの展開性が低下します。
不透明性の原因
不透明ではありますが、大規模な言語モデルのブラックボックス的な性質は、その技術的基盤に由来しています。
大規模パラメータ化
何十億から何兆ものパラメータが非線形相互作用の網を制御しているため、特定のモデル出力のソースを特定することは天文学的に困難になります。パラメーターから関数への明確な 1 対 1 のマッピングは存在しません。
創発的表現
アテンションレイヤーによって学習された表現は直接プログラムされるのではなく、パラメーターの最適化から間接的に生まれます。したがって、これらの潜在表現の起源は謎に包まれているが、モデル機能にとって極めて重要である。
有望なソリューション
モデルのブラックボックス的な性質を解体するために、さまざまな手法が導入されています。
注意分析
アテンションヒートマップは、パラメトリックインタラクションをある程度可視化し、どの入力が出力に影響するかを示します。ただし、その解釈可能性についてはまだ議論の余地があります。
モジュラーコンポーネントの解剖検査
特定のエンコーダーブロック、レイヤー、ヘッド、ニューロンを注意深くアブレーションまたは変更することで、研究者は特定の機能に対する個別の寄与を測定できます。
コンセプトボトルネックモデル
個別の分類ボトルネックに表現を強制することで、モデルコンセプトの使用法を明示的に操作できるようになり、分析が容易になります。
反事実評価
入力を体系的に操作し、出力への影響を調べると、完全な透明性がなくても、依存性や感受性のパターンを経験的に追跡できます。
次世代モデルの規模が拡大し続ける中、モデルの複雑さと解釈可能性の間の戦場が、透明性に向けた軍拡競争の激化に拍車をかけると予想されます。これらのモデルが診断可能で、デバッグ可能で、かつ安全であり続けるためには、解釈可能性の研究が依然として重要です。
ヒューマンフィードバックからの強化学習の役割
強化学習(RL)は、人間のトレーナーによるアクションのインタラクティブな評価を通じてエージェントが行動を学習するためのフレームワークを提供します。このアプローチは最近、大規模な言語モデルにも適用され、人間のフィードバックを利用して追加のチューニングシグナルを提供するようになりました。
このシステムでは、モデルがテキスト形式のアウトプットを生成し、トレーナーが評価、訂正、またはその他の形式のレビューを通じてそれを批評します。フィードバックは報酬シグナルに変換され、モデルパラメーターを更新して有益な行動を強化し、望ましくない行動を抑止します。
モデルは、インタラクションを重ねていくうちに、トレーナーの好みに合わせた、より高品質で安全かつ信頼性の高いテキストを作成する方法を学習できます。
受動学習に勝るメリット
ヒューマンフィードバックによるRLには、従来の監視対象または教師なし目標に比べていくつかの利点があります。
豊富な評価シグナル
モデルは、静的な履歴データから学習するのではなく、特定のモデルの動作に関する人間の直接の判断から学習します。これにより、より豊かでターゲットを絞ったシグナルが得られます。
安全な探査の可能性
モデルは、トレーナーからの編集提案を検討して、過去のデータに限定されない範囲を超えて機能を拡張できます。ただし、人間による監視により、より安全な実験範囲が可能になります。
スケーラブルなデータ収集
データセットの完全なアノテーションを必要とせずに、モデルは実際のインタラクションのコンテキストから学習できるため、スケーラビリティが向上します。
RLHFに関するチャレンジ
ただし、人間のフィードバックからRLを採用することについては、多くの研究課題が残っています。
フィードバックの品質と信頼性
固定された履歴データセットとは異なり、トレーナーが意見を異にしたり、間違いを犯したりする可能性があるため、人間のフィードバックの品質管理は難しい場合があります。信頼できないシグナルを軽減することには未解決の問題があります。
サンプル効率
モデルスケールに比べてインタラクションエピソードが限られているため、人間の各判断から最大限の学習を行うことは重要ですが、簡単ではありません。より効率的なアルゴリズムが必要です。
リワードゲームとマニピュレーション
モデルによっては、フィードバックメカニズムに意図しない悪用が発見され、基盤となるパフォーマンスを向上させずに報酬を最大化することがあります。連携を確保することは依然として困難である。
既存のパラダイムとの統合
RLの目標を、教師付き、半教師付き、自己指導型のトレーニングとシームレスに組み合わせることは、多くの可能性を秘めたオープンアーキテクチャ上の課題です。
こうした緊張を解消するための研究が続けられる中、人間のフィードバックによる強化学習は、相乗的な人間と人工知能の相互作用を通じてモデルのパフォーマンスと信頼性の両方を向上させることが期待されています。そのため、Sapienはこのソリューションに注力しています。
RLHFの未来とLLMの最も複雑な技術的課題
サピエンでは、進歩には相互に関連する4つの分野にわたるコミットメントが必要であると考えています。
目標:人間のフィードバックによる強化学習や自己教師付き予測タスクなどのトレーニングスキームは、主要な事前トレーニング目標に加えて有用な補助信号を提供できます。ハイブリッドアプローチが必要な場合があります。
アーキテクチャ: 推論、検証、基盤構築に特化したモジュールは、中核となるジェネレーティブ・インフラストラクチャーを補完するものでなければなりません。より構造化されたアーキテクチャは、解釈可能性を高めることができる。
[データ]: ターゲットディストリビューションを網羅した、広範なマルチドメインコーパスが必要です。より完全な表現を行うには、データ拡張と合成の手法を採用すべきである。
分析: モデルの動作を解釈し、パフォーマンスを保証するには、正式な検証システムと改善された診断プロトコルが不可欠です。
Sapienでデモを予約して、LLM向けのスケーラブルなデータラベリングについて詳しく学んでください
この記事全体を通して、データカバレッジの不十分、サンプル効率の制約、データ品質保証など、大規模言語モデルの既存のトレーニングパラダイムの限界を明らかにしようと努めてきました。ありがたいことに、Sapien のようなデータラベリングを専門とするプロバイダーが、こうした障害への対処を支援してくれるようになってきています。
Sapienは、法律から医学まで幅広い分野の専門家からなるグローバルネットワークを通じて、安全でカスタマイズ可能なデータラベリングを提供しています。当社のヒューマン・イン・ザ・ループ・プラットフォームにより、モデルはテキスト、画像、音声データの出力に関するリアルタイムのフィードバックからインタラクティブに学習できます。品質保証プロセスにより、信号の明瞭さと関連性が最大化されます。
当社のサービスは、これまで扱ってきた強化学習環境におけるモデル幻覚、配信外の精度制限、安全な探索などの課題に直接対処できます。忠実度の高いラベル付きデータ生成をスケーリングすることで、次世代モデルの信頼性と透明性を高めることができます。スケーリングされたモデルアーキテクチャが進歩を後押ししたように、スケーラブルなデータインフラストラクチャは、人間の指導のもとで AI の可能性を最大限に引き出すことが期待されます。
当社のLLM向けソリューションの詳細については、 デモを予約 Sapienから私たちのプラットフォームを探索してください。