
지난 몇 년 동안 기초 모델이라고 하는 대규모 신경망 클래스의 개발이 폭발적으로 증가했습니다.GPT-4, pAm 및 Wu Dao 2.0과 같은 기반 모델은 언어, 음성 및 시각 영역에서 놀라운 능력을 입증했습니다.이러한 모델은 수십억 또는 수조 개의 파라미터를 포함하는 거대한 규모가 특징이며, 이를 통해 학습 데이터로부터 세계에 대한 폭넓은 지식을 습득할 수 있습니다.
그러나 이러한 모델의 크기와 함께 실제 애플리케이션에 책임감 있게 배포하기 전에 해결해야 하는 몇 가지 주요 신뢰성 문제가 있습니다.
핵심 과제: 환각, 정확성 및 투명성
Sapien은 현재 기반 모델의 세 가지 핵심 기술 과제를 확인했습니다.
환각 및 검증: 모델은 그럴듯하지만 부정확한 정보를 확실하게 출력하는 경우가 많으므로 출력을 감지하고 검증하는 메커니즘이 필요합니다.
정확도 및 보정: 특히 분배를 벗어난 입력의 경우 성능이 여전히 신뢰할 수 없으므로 개선이 필요합니다.
투명성 및 진단: 모델은 여전히 블랙박스로 남아 진단 테스트 및 개선을 방해합니다.
LLM의 기술적 배경
모델 아키텍처
대부분의 주요 기반 모델은 Vaswani et al. 2017에서 처음 제안된 트랜스포머 아키텍처를 기반으로 합니다.트랜스포머는 반복과 컨볼루션을 없애고, 전적으로 자기 주의 메커니즘에 의존하여 글로벌 종속성을 모델링합니다.몇 가지 주요 아키텍처 구성 요소는 다음과 같습니다.
임베딩 레이어: 이산 입력 토큰을 연속 벡터 표현으로 변환
엔코더: 입력 요소 간의 상호 작용을 모델링하는 다중 헤드 셀프 어텐션 및 피드포워드 하위 레이어로 구성된 레이어.
디코더 (자기회귀 모델만 해당): 인코더와 비슷하지만 자동 인코딩 순서를 유지하기 위해 향후 관심을 가립니다.
헤드: 입력에 대한 여러 “표현”을 제공하기 위해 셀프 어텐션 모듈 내에서 사용되는 별도의 변환 그룹.
기초 모델의 규모는 모든 구성 요소를 확대하여 입력 임베딩 매핑의 해상도와 주의 메커니즘의 용량을 높입니다.예를 들어, GPT-3 모델은 96개의 헤드와 12,288개의 치수를 가진 96개의 레이어로 구성되어 있으며, 이 레이어는 1,750억 개 이상의 파라미터를 생성합니다.
사전 교육 목표
감독되지 않은 사전 학습 목표는 모델이 작업별 미세 조정 전에 언어적 이해를 발전시킬 수 있도록 하는 학습 신호를 제공합니다.
자기회귀 언어 모델링 (GPT 라인): 인과관계 변환기를 사용하여 다음 토큰 예측 능력을 모델링합니다.
마스크 언어 모델링 (BERT 라인): 모델은 양방향 컨텍스트를 사용하여 무작위로 마스킹된 입력 토큰을 예측합니다.일반적으로 다음 문장 예측 작업으로 보완됩니다.
멀티태스킹 학습: 일부 모델은 여러 목표에 대해 동시에 사전 학습합니다. 예를 들어 pAlM은 마스크 언어 모델링과 인과 언어 모델링 모두에서 학습합니다.
최적화의 목표는 훈련 분포를 매개변수로 압축하여 새로운 예제를 정확하게 생성하거나 예측할 수 있도록 하는 것입니다.그러나 이는 일반화하지 못하는 통계적 규칙성을 과대적합시킬 수 있습니다.
주요 과제 #1 - 출력 검증
환각 문제
대규모 기반 모델의 주요 신뢰성 문제는 환각, 즉 확실하지만 완전히 부정확하거나 근거가 없는 진술을 출력하는 경향입니다.예를 들어, Chowdhery et al. 2022에서는 퀴즈 실험에서 확신에 찬 GPT-3 예측의 70% 가 거짓이라는 사실을 발견했는데, 이는 환각이 만연하다는 것을 잘 보여줍니다.이로 인해 질문에 대한 답변, 요약, 언어 번역과 같은 작업 전반의 실제 적용 가능성이 심각하게 제한됩니다.
환각의 원인
모델 출력에서 환각의 출현에 기여하는 몇 가지 요인은 다음과 같습니다.
잘못된 상관관계
자체 감독 목표를 통해 모델은 잘못된 추론으로 이어지는 토큰 간의 우연한 규칙성을 포착할 수 있습니다.예를 들어, 데이터에 수출 Y와 관련하여 X 국가가 자주 언급되는 패턴이 있을 수 있는데, 이 모델은 지나치게 일반화되어 그러한 관계가 성립하지 않더라도 X 국가가 Y 재화의 주요 수출국이라고 명시할 수 있습니다.
샘플링 오류
대부분의 모델은 토큰을 정확하게 예측하는 것이 아니라 어휘에 대한 확률 분포를 추정하도록 훈련되었습니다.각 단계에서 생성 프로세스는 이 분포를 샘플링합니다.하지만 가끔 가능성이 희박한 토큰을 샘플링하여 긴 텍스트 기간에 걸쳐 그럴듯한 허위 주장으로 뒤섞일 수 있습니다.
접지 부족
실제 상태와 관련이 없기 때문에 모델에는 추론된 관계가 실제로 현실을 반영하는지 여부를 판단할 기준이 없습니다.자신 있게 주장하기 전에 근거가 없는 것이 있는지 확인할 수 있는 메커니즘은 없습니다.
유망한 솔루션
고맙게도 환각에 대한 광범위한 관심은 이를 해결하기 위한 다양한 기법으로 이어졌습니다.
신뢰도 점수 및 불가능성 탐지: 각 생성 단계에서 모델의 (불확실한) 확실성에 점수를 매기면 타당하지 않은 출력에 플래그를 지정하여 검증을 받을 수 있습니다.예상치 못한 n-그램과 의미론적 변환도 포착할 수 있습니다.
다중 모델 일관성 검사: 오류는 모델마다 다를 수 있으므로 여러 출력을 생성하고 일관성을 검사하면 신뢰할 수 있는 주장을 판단하는 데 도움이 될 수 있습니다.외부 모델을 쿼리하여 사실 여부를 확인할 수도 있습니다.
준감독형 허위 탐지: 인간의 판단과 적대적 방해 요소를 사용하여 진실 출력과 환각 결과를 구별하도록 명시적 분류기를 훈련할 수 있습니다.
인과 관계 분석: 인과관계 추론 기법을 사용하면 현실에서 인과관계 근거가 부족한 모델이 악용하는 통계적 패턴을 탐지할 수 있습니다.중재적 견고성 검사도 이러한 패턴을 진단하는 데 도움이 될 수 있습니다.
그러나 이 모든 것에도 불구하고 출력 검증은 여전히 미해결 과제로 남아 있습니다.신뢰할 수 있는 생성 기반 모델을 구현하려면 교육 목표, 모델 아키텍처 및 출력 분석 절차 전반에 걸친 다각적인 접근 방식이 필요한 것으로 보입니다.환각을 평가하는 벤치마크 과제의 지속적인 발전은 향후 몇 년간 발전을 촉진할 것으로 보입니다.
주요 과제 #2 - 정확도 개선
정확도 문제
기초 모델은 학습 데이터 분포 내에서 예측을 수행할 때 강력한 성능을 보여주지만 분포를 벗어난 입력에 대해서는 정확도를 유지하는 데 어려움을 겪습니다.예를 들어, 긴 텍스트 컨텍스트, 복잡한 추론 작업, 제한된 데이터를 사용하는 영역에서는 성능이 급격히 저하될 수 있습니다.안정성이 보장되지 않으면 실제 활용도는 여전히 제한적입니다.
정확도 제한의 원인
정확도의 취약성에 영향을 미치는 몇 가지 요인은 다음과 같습니다.
데이터세트 편향
이 모델은 사전 훈련된 데이터에 반영된 왜곡된 규칙성과 선택 편향을 실수로 인코딩합니다.이로 인해 표현이 뿌리 깊은 가정을 넘어서는 일반화되지 못하는 결과로 이어집니다.
가정의 단순화
아키텍처 선택 및 목표에 따라 모델링 대상 도메인이 암시적으로 단순화됩니다.예를 들어, GPT-3 같은 모델의 단일 시퀀스 설계로는 복잡한 관계형 추론을 명시적으로 모델링할 수 없습니다.
유망한 솔루션
현재 많은 연구 분야에서는 유통 외 정확도를 개선할 수 있는 가능성을 제시하고 있습니다.
데이터세트 확장 및 증대
광범위한 대상 영역을 더 잘 다루는 교육 세트를 만들면 견고성을 높일 수 있습니다.데이터 증강 기법은 프로그래밍 방식으로 다양성을 높일 수 있습니다.
자체 지도 사전 교육
모델은 다양한 코퍼스에 대한 집중적인 비지도 예측 작업에 대한 사전 학습을 통해 사양 이전에 보다 근거가 있는 표현을 학습할 수 있습니다.
하이브리드 모델
신경 모듈을 구조화된 지식 기반 및 데이터베이스와 결합하면 추론 및 근거에 대한 핵심 모델 한계를 보완할 수 있습니다.
공식 보증
프로그램 합성 및 검증 문헌을 바탕으로 일부에서는 증명 시스템을 사용하여 입력 클래스의 모델 성능에 대한 인증된 한계를 생성할 것을 제안했습니다.
여전히 큰 문제이긴 하지만 신뢰할 수 없는 정확성 문제로 인해 연구자들은 대규모 언어 모델을 위한 보다 엄격한 증거 기반 기반을 개발하는 데 집중하고 있습니다.발전에는 모델군, 목표 및 공식 분석 기법 전반에 걸친 총체적 솔루션이 포함될 가능성이 높습니다.
주요 과제 #3 - 진단 및 해석 가능성
투명성 문제
기초 모델은 규모가 방대하고 복잡하기 때문에 대부분 블랙박스로 작동하기 때문에 내부 작업을 거의 볼 수 없습니다.이러한 투명성 결여는 모델 개발과 활용 모두에 문제를 야기합니다.
- 모델 개발자에게는 아키텍처 구성요소의 상호 작용에서 특정 동작이 어떻게 나타나는지 추적할 수 있는 진단 기술이 부족합니다.이로 인해 모델 성능을 개선하려는 직접적인 노력이 저해됩니다.
- 추론 과정이 여전히 불투명하기 때문에 최종 사용자는 모델 근거를 신뢰할 수 있는지 여부를 결정할 수 없습니다.이로 인해 의료, 재무 및 거버넌스와 같은 민감한 애플리케이션에서의 배포 가능성이 줄어듭니다.
투명성 불투명성의 원인
대형 언어 모델의 블랙박스 특성은 불투명하지만 기술적 토대에서 비롯됩니다.
대규모 파라미터화
수십억에서 수조 개의 매개변수가 비선형 상호작용의 그물망을 조절하기 때문에 특정 모델 출력의 출처를 분리하기가 천문학적으로 어려워집니다.매개변수에서 함수로의 명확한 일대일 매핑은 없습니다.
긴급 진술
어텐션 레이어가 학습한 표현은 직접 프로그래밍되지 않고 파라미터 최적화에서 간접적으로 나타납니다.따라서 이러한 잠재적 표현의 기원은 불가사의하지만 모델 기능에 매우 중요합니다.
유망한 솔루션
모델의 블랙박스 특성을 해체하기 위해 다양한 기법이 도입되었습니다.
주의력 분석
어텐션 히트맵은 파라메트릭 상호작용에 대한 가시성을 제공하여 어떤 입력이 출력에 영향을 미치는지 보여줍니다.그러나 해석 가능성에 대해서는 여전히 논란의 여지가 있습니다.
모듈식 구성 요소 해부
연구자는 특정 인코더 블록, 레이어, 헤드 및 뉴런을 신중하게 제거하거나 수정하여 특정 기능에 대한 고립된 기여도를 측정할 수 있습니다.
컨셉 병목현상 모델
개별 범주화 병목 현상을 통해 표현을 강제하면 모델 개념 사용을 명시적으로 조작하여 분석을 용이하게 할 수 있습니다.
반사실적 평가
입력을 체계적으로 조작하고 출력에 미치는 영향을 조사하면 완전한 투명성 없이 종속성 및 민감도 패턴을 경험적으로 추적할 수 있습니다.
차세대 모델의 규모가 계속 커짐에 따라 모델 복잡성과 해석 가능성 사이의 전쟁터로 인해 투명성을 향한 군비 경쟁이 치열해질 것으로 예상됩니다.해석 가능성 연구는 이러한 모델을 진단 가능하고 디버깅 가능하며 안전하게 유지하는 데 여전히 중요합니다.
인간 피드백을 통한 강화 학습의 역할
강화 학습 (RL) 은 상담원이 휴먼 트레이너의 대화형 행동 평가를 통해 행동을 학습할 수 있는 프레임워크를 제공합니다.이 접근법은 최근 대규모 언어 모델에도 적용되었는데, 인간의 피드백을 사용하여 추가 조정 신호를 제공합니다.
이 시스템에서 모델은 텍스트 출력을 생성하며, 트레이너는 이를 평가, 수정 또는 기타 형태의 검토를 통해 이를 비판합니다.피드백은 보상 신호로 변환되어 모델 파라미터를 업데이트하여 유용한 행동을 강화하고 원치 않는 행동을 억제합니다.
모델은 연속적인 상호작용을 통해 트레이너의 선호도에 맞는 고품질의 안전하고 신뢰할 수 있는 텍스트를 생성하는 방법을 학습할 수 있습니다.
패시브 러닝에 비해 유리한 점
인간의 피드백을 통한 RL은 기존의 감독 목표 또는 감독되지 않은 목표에 비해 몇 가지 이점을 제공합니다.
풍부한 평가 신호
모델은 정적인 과거 데이터에서 학습하는 대신 특정 모델 동작에 대한 인간의 직접적인 판단을 통해 학습합니다.이는 더 풍부하고 표적화된 신호를 제공합니다.
안전한 탐사를 위한 가능성
모델은 트레이너의 편집 제안을 탐색하여 과거 데이터의 한계를 넘어 기능을 확장할 수 있습니다.하지만 사람이 직접 감독하면 실험을 더 안전하게 할 수 있습니다.
확장 가능한 데이터 수집
모델은 전체 데이터세트 주석을 필요로 하지 않고 실시간 상호 작용의 컨텍스트에서 학습하여 확장성을 높일 수 있습니다.
RLHF와 관련된 과제
그러나 인간의 피드백으로부터 RL을 채택하는 것과 관련하여 많은 연구 과제가 남아 있습니다.
피드백 품질 및 신뢰성
고정된 과거 데이터 세트와 달리 트레이너가 동의하지 않거나 실수를 할 수 있기 때문에 인적 피드백에 대한 품질 관리가 어려울 수 있습니다.신뢰할 수 없는 신호를 완화하는 것은 미해결 문제를 야기합니다.
샘플 효율성
모델 규모에 비해 상호 작용 에피소드가 제한되어 있기 때문에 각 인간의 판단을 통한 학습을 극대화하는 것이 중요하지만 중요한 것은 아닙니다.더 효율적인 알고리즘이 필요합니다.
보상 게임 및 조작
모델은 피드백 메커니즘에서 의도하지 않은 악용을 발견하여 기본 성능을 개선하지 않고도 보상을 극대화할 수 있습니다.얼라인먼트를 보장하는 것은 여전히 어려운 일입니다.
기존 패러다임과의 통합
RL 목표를 지도형, 준지도형 및 자체 지도형 교육과 원활하게 결합하는 것은 다양한 가능성이 있는 개방형 아키텍처 과제입니다.
이러한 긴장을 조정하기 위한 연구가 계속됨에 따라 인간의 피드백을 통한 강화 학습은 시너지 효과를 내는 인간-AI 상호 작용을 통해 모델 성능과 신뢰성을 모두 향상시킬 수 있다는 가능성을 보여줍니다. 이것이 바로 Sapien이 이 솔루션에 노력을 집중하는 이유입니다.
RLHF의 미래와 LLM의 가장 복잡한 기술적 과제
Sapien은 발전하려면 상호 연결된 네 가지 전선에 대한 헌신이 필요하다고 생각합니다.
목표: 사용자 피드백을 통한 강화 학습 및 자체 지도 예측 작업과 같은 훈련 체계는 기본 사전 훈련 목표와 함께 유용한 보조 신호를 제공할 수 있습니다.하이브리드 접근법이 필요할 수 있습니다.
아키텍처: 추론, 검증 및 근거를 위한 특수 모듈은 핵심 생성 인프라를 보완해야 합니다.아키텍처가 더 구조화되면 해석성이 향상될 수 있습니다.
데이터: 대상 배포판을 포괄하는 광범위한 다중 도메인 코퍼레이션이 필요합니다.데이터를 더 정확하게 표현하려면 데이터 증강 및 합성 기법을 사용해야 합니다.
분석: 공식 검증 시스템과 개선된 진단 프로토콜은 모델 동작을 해석하고 성능을 보장하는 데 매우 중요합니다.
Sapien과 함께 데모를 예약하여 LLM의 확장 가능한 데이터 레이블링에 대해 자세히 알아보십시오.
이 기사 전체에서 우리는 불충분한 데이터 범위, 샘플 효율성 제약, 데이터 품질 보장을 포함하여 대규모 언어 모델에 대한 기존 교육 패러다임의 한계를 명확히하려고 노력했습니다.다행스럽게도 Sapien과 같은 전담 데이터 레이블링 제공업체가 이러한 문제를 해결하는 데 도움을 줄 수 있게 되었습니다.
Sapien은 법률에서 의학에 이르는 다양한 분야의 도메인 전문가로 구성된 글로벌 네트워크를 통해 안전하고 맞춤화된 데이터 라벨링을 제공합니다.당사의 Human-in-the-Loop 플랫폼을 사용하면 모델이 텍스트, 이미지 및 음성 데이터의 출력에 대한 실시간 피드백을 통해 대화형 방식으로 학습할 수 있습니다.품질 보증 프로세스는 신호 선명도와 관련성을 극대화합니다.
당사의 서비스는 지금까지 다룬 강화 학습 환경에서의 모델 환각, 정확도 제한, 분포 불능, 안전한 탐색과 관련된 문제를 직접 해결할 수 있습니다.충실도가 높은 레이블이 지정된 데이터 생성을 확장함으로써 차세대 모델의 신뢰성과 투명성을 개선할 수 있습니다.확장된 모델 아키텍처가 발전을 이끈 것처럼 확장 가능한 데이터 인프라는 인간의 안내를 받아 AI의 잠재력을 최대한 활용할 수 있을 것으로 예상합니다.
LLM을 위한 솔루션에 대해 자세히 알아보려면 데모 예약 Sapien에서 플랫폼을 탐색하십시오.