ML & DL/논문리뷰

Designing a Dashboard forTransparency and Control of Conversational AI

공부하는 무니 2024. 7. 7. 22:26
반응형

논문 원문: https://arxiv.org/pdf/2406.07882

Abstract

대화형 언어 모델(Conversational LLMs)은 블랙박스 시스템으로 작동하여 사용자에게 왜 특정 출력이 나오는지 추측하게 만듭니다. 이러한 투명성 부족은 편향성과 진실성에 대한 우려를 증가시키며, 이는 잠재적으로 문제가 될 수 있습니다. 이러한 문제를 해결하기 위해 우리는 해석 가능성 기법과 사용자 경험 디자인을 연결하여 챗봇을 보다 투명하게 만드는 엔드 투 엔드 프로토타입을 제시합니다.

우선, 저명한 오픈 소스 언어 모델이 "사용자 모델"을 가지고 있다는 증거를 보여줍니다. 시스템의 내부 상태를 조사하여 사용자의 나이, 성별, 교육 수준, 사회경제적 상태와 관련된 데이터를 추출할 수 있음을 확인했습니다. 다음으로, 챗봇 인터페이스에 실시간으로 이 사용자 모델을 표시하는 대시보드의 디자인을 설명합니다. 이 대시보드는 사용자 모델과 시스템의 행동을 제어하는 데도 사용할 수 있습니다.

마지막으로, 사용자들이 이 도구가 장착된 시스템과 대화한 연구에 대해 논의합니다. 우리의 결과는 사용자들이 내부 상태를 보는 것을 감사해하며, 이는 편향된 행동을 드러내고 통제감을 증가시키는 데 도움이 된다는 것을 시사합니다. 참가자들은 또한 향후 디자인 및 기계 학습 연구를 위한 귀중한 제안을 했습니다. TalkTuner 시스템의 프로젝트 페이지와 비디오 데모는 bit.ly/talktuner-project-page에서 확인할 수 있습니다.

이 프로젝트는 챗봇의 투명성을 높여 사용자 경험을 개선하고, 편향성과 진실성 문제를 해결하는 데 기여하고자 합니다.

1. Introduction

대화형 인공지능(AI) 인터페이스는 매우 인기가 있습니다. 예를 들어, OpenAI의 ChatGPT는 1억 명 이상의 사용자와 월 18억 회 이상의 페이지 방문을 기록하고 있습니다. 하지만 이러한 시스템에는 중요한 한계가 있습니다. 그 중 하나는 투명성의 부족입니다. 사용자가 시스템이 왜 특정한 응답을 내놓는지 이해하기 어렵다는 점입니다. 시스템에 직접 이유를 물어보는 것은 효과적이지 않습니다. 왜냐하면 대규모 언어 모델(LLMs)은 자신이 어떻게 결과를 도출했는지 설명하는 데 매우 신뢰할 수 없기 때문입니다. 이들은 그럴듯하지만 잘못된 설명을 자주 만들어냅니다.

투명성은 여러 가지 이유로 유용하지만, 이 논문에서는 AI 응답이 사용자 모델에 따라 어떻게 달라질 수 있는지 이해할 필요성에 집중합니다. LLM 기반 챗봇은 사용자의 특성에 맞춰 답변을 조정하는 것으로 보입니다. 이는 때로는 명백하지만, 때로는 더 미묘하고 부정적인 방식으로 나타날 수 있습니다. 예를 들어, '아첨하기'는 시스템이 사용자의 정치적, 인구통계적 특성에 따라 사용자가 듣고 싶어할 말을 하려고 하는 현상입니다. '샌드백킹'은 덜 교육받은 사용자에게 더 나쁜 답변을 제공하는 경우입니다.

우리는 이러한 행동의 기저에 있는 요소들을 표면화하고 통제할 수 있도록 하면 사용자에게 도움이 될 것이라고 가정합니다. 이 가설을 테스트하기 위해, 우리는 대화형 AI 시스템의 내부 사용자 모델 정보를 표시하는 시각적 대시보드 인터페이스를 포함한 엔드 투 엔드 프로토타입을 만들었습니다. 이 인터페이스는 단순한 대시보드 역할을 넘어서, 사용자가 시스템의 내부 모델을 수정할 수 있도록 합니다.

엔드 투 엔드 프로토타입을 구축하려면 세 가지 작업이 필요합니다.
1. 해석 가능성 엔지니어링: 내부 사용자 모델을 식별합니다.
2. 사용자 경험 디자인: 사용자 친화적인 대시보드를 만듭니다.
3. 사용자 연구: 사용자의 반응을 이해하고 미래 개선을 위한 의견을 듣습니다.

첫 번째 단계에서는 LLaMa2Chat-13B라는 오픈 소스 대규모 언어 모델을 기반으로 작업했습니다. 이 모델의 활성화 상태를 통해 네 가지 중요한 사용자 특성(나이, 성별, 교육 수준, 사회경제적 상태)의 대략적인 내부 표현을 식별했습니다. 그런 다음, 사용자가 채팅을 진행하는 동안 이 표현들을 볼 수 있도록 대시보드를 설계했습니다. 마지막으로, 우리의 디자인을 평가하고 반응을 측정하며 미래 디자인을 위한 피드백을 수집하기 위해 사용자 연구를 수행했습니다.

결과는 사용자가 대시보드를 유용하게 여겼으며, 이는 챗봇의 응답에 대한 통찰력을 제공하고, 편향된 행동에 대한 사용자 인식을 높이며, 이러한 편향을 탐색하고 완화하는 데 도움이 되었다는 것을 시사합니다. 우리는 또한 편향과 프라이버시 문제와 관련된 사용자 반응과 제안을 보고하며, 이는 향후 배포에 도움이 될 수 있습니다.

2. Background and related work

챗봇 인터페이스는 수십 년 동안 연구되어 왔으며, 투명성 부족 문제는 지속적인 이슈였습니다. 사용자는 블랙박스 알고리즘과 상호작용할 때 종종 자신이 관찰한 것을 설명하기 위해 "민간 이론"을 개발합니다. 현대의 대규모 언어 모델(LLM)도 예외는 아닙니다. 이러한 경향은 시스템에 대한 지나치게 높은 신뢰를 초래할 수 있습니다. 이는 1960년대 챗봇 ELIZA에서 처음 나타났으며, 최근 몇 년간에도 지속되고 있습니다. 특히, 응답의 편향성은 감지하기 어려워 그대로 받아들여질 수 있습니다.

챗봇을 이해하려는 매력적인 방법 중 하나는 챗봇과 대화하는 것입니다. 즉, 출력에 대한 자연어 설명을 요청하는 것입니다. 그러나 현재 LLM은 자신의 추론을 설명하는 데 매우 신뢰할 수 없는 서술자입니다. 그들은 그럴듯하지만 잘못된 설명을 하거나 질문을 회피합니다. 더 무거운 접근 방식은 LLM의 행동을 분석하여 개발자가 편향을 검색하거나 더 일반적인 비교를 할 수 있도록 돕는 도구를 사용하는 것입니다. 이러한 시스템은 많은 시간과 전문 지식이 필요하므로 일반 사용자에게는 적합하지 않습니다.

다른 전략은 신경망의 내부 작동을 해석하는 진전에 영감을 받았습니다. 특히, LLM이 그들의 출력에 중요한 역할을 하는 해석 가능한 "세계 모델"을 포함하고 있을 수 있다는 증거가 있습니다. 이러한 내부 모델은 접근 가능하고 심지어 "선형 탐침"을 통해 제어할 수 있습니다. 이러한 결과는 사용자가 LLM 챗봇의 내부 작동을 직접 볼 수 있는 가능성을 시사합니다.

이러한 데이터를 사용자에게 읽기 쉬운 대시보드 형태로 제공하는 아이디어는 이전 연구에서 제기되었습니다. 이 연구는 챗봇의 사용자 모델과 시스템 모델에 대한 정보가 많은 상황에서 중요할 것이라고 제안했습니다. 관련 제안에서는 "representation engineering"을 사용하여 유사한 목적을 달성할 것을 제안했으며, 광범위한 실험을 통해 "linear artificial tomography(선형 인공 단층촬영)"이라는 탐침 방법론을 사용했습니다. 이 두 연구는 LLM의 내부 상태를 출력과 함께 사용자에게 노출하는 인터페이스가 편향 및 안전과 관련된 문제를 발견하는 데 어떻게 도움이 될 수 있는지 논의했습니다. 그러나 두 연구 모두 사용자가 이러한 대시보드에 어떻게 반응할지, 그리고 그것이 AI에 대한 그들의 태도에 어떻게 영향을 미칠지 테스트하지 않았습니다.

3. Overall design methodology

우리의 방법은 "디자인 프로브"를 만드는 것입니다. 디자인 프로브는 작지만 실제로 사용할 수 있는 도구를 만들어서 사람들이 어떻게 반응하는지 보고, 어떤 질문이 나오는지 알아보는 것입니다. 이번 프로젝트에서는 챗봇 대시보드의 동작하는 프로토타입을 만들어, 참가자들이 자유롭게 대화해볼 수 있도록 했습니다.

논문은 두 부분으로 나뉩니다. 첫째, 챗봇의 내부 모델에 접근하고 이를 제어하는 방법에 대해 설명합니다. 둘째, 이 기술을 바탕으로 대시보드를 어떻게 디자인하고 사용하는지 설명합니다. 우리의 목표는 완벽한 시스템을 만드는 것이 아니라, 충분히 잘 작동해서 디자인과 사용자 연구를 할 수 있는 시스템을 만드는 것입니다.

역사적으로도, 부정확한 도구들이 초기 사용자에게는 유용했습니다. 예를 들어, 초기 자동차 연료 게이지는 정확하지 않았지만, 연료가 얼마나 남았는지 대략적으로 알 수 있게 해줬습니다. 마찬가지로, 조종사에게 초기의 부정확한 계기들은 나중에 야간이나 안 좋은 날씨에서도 비행할 수 있게 하는 중요한 단계였습니다. 우리의 대시보드도 아직 초기 단계에 있지만, 초기 통찰을 제공하고 향후 연구 방향을 제시하는 데 목적이 있습니다.

4. Probes for identifying an internal user model

우리의 첫 번째 단계는 LLM이 사용자의 어떤 특성을 표현하고 있는지 조사하는 것입니다. 이를 위해 최소한의 프로토타입을 만들 때, 네 가지 주요 사용자 속성에 집중했습니다: 나이, 성별, 교육 수준, 사회경제적 상태(SES). 이러한 속성을 선택한 이유는 이들이 문화적으로 중요하고, 대학 입학, 고용, 대출 승인, 보험 신청 등 실제 세계의 중요한 결정에 영향을 미치기 때문입니다.

 

이러한 목표 사용자 속성을 바탕으로, 우리는 LLM이 이 속성들을 표현하는지 탐색하기 위해 선형 프로브를 훈련시켰습니다. 이를 위해 각 속성을 별도의 하위 카테고리로 나누어 각각을 탐색했습니다. (테이블 1의 “하위 카테고리” 열 참조)

 

훈련 과정에는 두 가지 요소가 필요합니다. 첫째, 모델의 내부 활성화 상태에 접근해야 하기 때문에, 오픈 소스 LLaMa2Chat-13B 모델을 사용했습니다. 둘째, 훈련 데이터셋이 필요합니다. 이 데이터를 얻는 것은 간단하지 않으며, 이를 다음과 같이 설명합니다.

4.1 Creating the conversation dataset

사용자 표현을 식별하기 위해 프로브를 훈련시키려면, 사용자 정보가 라벨링된 인간/챗봇 대화 데이터셋이 이상적입니다. 하지만, 우리가 목표로 하는 속성들을 포함한 데이터는 쉽게 구할 수 없었습니다. 최근 연구에서는 LLM을 사용해 합성 대화를 생성하는 방법을 사용했습니다. 예를 들어, Wang et al.은 GPT-3.5가 다양한 성격을 정확하게 역할 수행할 수 있음을 보여주었습니다. LLaMa2Chat도 LLM 역할 수행을 통해 미세 조정되었습니다. 우리는 이 역할 수행 기법을 사용해 GPT-3.5와 LLaMa2Chat을 이용해 합성 대화를 생성했습니다.

생성된 데이터의 품질
합성 대화 데이터의 품질에 대해 의문이 있을 수 있습니다. '역할을 수행하는 사용자가 할당된 속성을 제대로 표현하고 다양한 주제를 다루고 있는가?'같은 것이죠. 13,900개의 다중 턴 대화(평균 7.5 턴)를 수작업으로 검사하는 것은 시간 소모가 크고 인간의 편향이 개입될 수 있습니다. 최근 연구에 따르면, GPT-4와 같은 강력한 LLM은 텍스트 데이터를 주석 처리하는 데 있어 군중 작업자들을 능가합니다. 따라서 우리는 생성된 데이터를 주석 처리하기 위해 GPT-4를 사용했습니다.

GPT-4를 사용하여 역할 수행된 사용자의 속성을 대화 기반으로 분류하고, GPT-4의 분류와 사전 할당된 속성 라벨 간의 일치도를 확인했습니다. 또한 GPT-4는 논의된 주제의 범위(다양성)를 식별하고, 상상된 사용자가 할당된 라벨 외의 다른 속성을 나타내는지 평가했습니다. 이는 데이터셋 내의 잠재적 상관관계를 드러냅니다. 예를 들어, 고급 차량 구매 대화에서 남성 사용자가 과도하게 대표되는 경우가 있습니다. 우리는 훈련 데이터셋을 통해 더 많은 편향이 도입되는 것을 피하고자 합니다.

테이블 1에 나타난 바와 같이, 성별과 사회경제적 상태 데이터셋의 일관성은 90% 이상입니다. 나이와 관련해서는, 주로 어린이와 청소년(나이 대화의 6.9%) 및 성인과 노인(3.9%) 사이에서 불일치가 있었습니다. 합성 데이터셋은 다양한 주제를 다루고 있습니다. 대부분의 합성 사용자는 우리가 지시한 속성 외의 다른 속성을 나타내지 않았습니다. 교육 속성의 일관성은 보고하지 않았습니다. GPT-4가 사용자의 교육 수준을 명확하게 판단하기 어려웠기 때문입니다. GPT-4는 중학교/고등학교 이전 교육과 고등학교 교육을 혼동했습니다.

4.2 Reading probe training and results


사용자 속성 읽기 (유저 모델)
우리는 사용자 속성을 읽기 위해 선형 로지스틱 프로브를 훈련시켰습니다. 이 프로브는 다음과 같이 표현됩니다.

여기서 X는 대화의 잔여 스트림 표현이고 θ 는 가중치를 나타냅니다. 훈련은 일대다 전략과 L2 정규화를 사용했습니다. 각 프로브는 동일한 사용자 속성 내에서 한 하위 카테고리를 다른 하위 카테고리와 구별하도록 훈련되었습니다.

훈련 방법
선형 프로브는 마지막 사용자 메시지 뒤에 "나는 이 사용자의 {속성}이 (무엇)이라고 생각합니다"라는 특별한 챗봇 메시지의 마지막 토큰 표현을 기반으로 훈련되었습니다. 여기서 {속성}은 해당 목표 속성으로 대체됩니다.

프로브 정확도
프로브 분류기는 합성 데이터셋의 80-20 훈련-검증 분할을 사용하여 각 층의 표현에서 별도로 훈련되었습니다. 그림 1에 나타난 높은 프로빙 정확도는 사용자 인구통계와 LLaMa2Chat의 내부 표현 사이에 강한 선형 상관관계가 있음을 시사합니다. 정확도는 일반적으로 층의 깊이가 깊어질수록 증가하여, 프로브가 단순히 원시 대화 텍스트에서 정보를 가져오지 않는다는 것을 보여줍니다.

이 결과는 선형 로지스틱 프로브가 챗봇의 내부 상태에서 사용자 속성을 효과적으로 읽어낼 수 있음을 나타냅니다. 이는 대화의 잔여 스트림 표현을 기반으로 하여 사용자의 특정 속성을 정확히 예측할 수 있음을 의미합니다.

5. Probes for controlling the user model

최근 연구
최근 연구들은 특정 벡터를 사용해 LLM의 표현을 변환하여 행동을 제어할 수 있음을 보여줬습니다. 이는 \( x + Nv \) 형식으로, 여기서 \( N \)은 조절 가능한 강도입니다. 번역에 사용되는 기본 벡터는 내부 모델을 가장 정확하게 읽어낸 프로빙 분류기의 가중치 벡터입니다. 하지만, 더 효과적으로 모델의 행동을 변경하는 대안 벡터가 발견되었으며, 이는 몇 샷 프롬프팅 접근 방식보다 뛰어났습니다.

제어 프로브 훈련
이러한 발견을 바탕으로, 우리는 대화에서 마지막 사용자 메시지의 끝 토큰 표현을 사용해 제어 프로브 세트를 훈련했습니다. 이 표현에는 챗봇이 다양한 합성 사용자들의 요청에 응답하는 데 필요한 정보가 포함되어 있습니다. 제어 프로브의 훈련은 읽기 프로브와 동일한 설정을 사용했지만 입력 표현은 달랐습니다. 섹션 5.1에서는 제어 프로브를 사용한 개입이 읽기 프로브를 사용한 개입보다 뛰어났음을 보여줍니다.

인과적 개입 실험
우리는 관련 사용자 속성에 개입함에 따라 모델의 질문에 대한 응답이 어떻게 변하는지 관찰하여 프로브의 인과성을 측정했습니다. 각 사용자 속성에 대해, 그 속성에 의해 영향을 받을 수 있는 답변을 가진 30개의 질문을 만들었습니다. 예를 들어, "공식 행사에 맞는 헤어 스타일은?"에 대한 답변은 성별에 따라 달라질 수 있습니다. 실험에 사용된 질문의 전체 목록은 부록 E에 있습니다.

각 질문에 대해, 우리는 GPT-4를 프롬프트 기반 분류기로 사용하여 개입된 사용자 인구 통계에 따라 생성된 응답 쌍을 비교했습니다. 예를 들어, 성인 vs. 청소년, 여성 vs. 남성, 대학 교육 이상 vs. 일부 교육, 고 SES vs. 저 SES와 같이 비교했습니다. GPT-4는 각 개입된 응답을 해당 사용자 속성과 정확하게 연관시킬 수 있으면 개입이 성공한 것으로 간주했습니다. 사용된 프롬프트 템플릿은 부록 G에 있습니다. 우리는 응답을 샘플링할 때 더 나은 재현성을 위해 탐욕적 디코딩을 사용했습니다.

이렇게 해서, 우리는 제어 프로브를 사용하여 사용자 모델의 속성을 조절하고, 이를 통해 챗봇의 응답을 제어할 수 있음을 확인했습니다.

5.1 Causality test results

우리는 제어 프로브와 읽기 프로브의 인과성을 테스트했습니다. 모든 질문에 대해 강도 N = 8 로 제어 프로브를 20번째부터 29번째 층의 표현에 개입했습니다. 개입된 층과 강도는 데이터셋 외부의 몇 가지 질문에서 얻은 결과를 기반으로 선택되었습니다. 동일한 L2 거리를 위해 읽기 프로브의 가중치 벡터를 사용하여 개입된 층의 표현을 번역했습니다. 마지막 입력 토큰 표현에 동일한 번역을 반복 적용하여 응답이 완료될 때까지 진행했습니다.

성공률
테이블 2에 나타난 성공률에 따르면, 제어 프로브는 선택된 4개의 사용자 속성을 제어하는 데 있어 읽기 프로브보다 더 뛰어난 성능을 보였지만, 읽기 정확도는 약간 낮았습니다. 부록 H에서는 읽기 프로브와 제어 프로브를 사용하여 생성된 개입 출력 간의 질적 차이를 보여줍니다. 부록 F에는 제어 프로브를 사용하여 생성된 전체 챗봇 응답이 제공되어 있습니다.
제어 프로브가 더 나은 개입 성능을 보이는 한 가지 가설은, 제어 프로브가 특정한 읽기 사용자 속성 작업이 아니라 합성 사용자가 요청한 다양한 작업의 표현을 기반으로 훈련되었기 때문입니다.

개입의 효과
프로브 개입은 종종 명확하지 않은 중요한 효과를 가졌습니다. 예를 들어, 하와이로 가는 교통편을 묻는 질문에 챗봇은 처음에는 직항과 경유 비행편을 모두 제안했습니다. 그러나 사용자의 내부 표현을 낮은 사회경제적 상태로 설정한 후, 챗봇은 직항편이 없다고 주장했습니다.

이 결과는 제어 프로브가 사용자 속성을 효과적으로 조절하고, 이를 통해 챗봇의 응답을 제어할 수 있음을 보여줍니다.

6. Designing a dashboard for end users

목표
이제 우리는 읽기 및 제어 프로브를 사용하여 사용자에게 제공할 인터페이스를 디자인하려고 합니다. 디자인 프로브 전략에 따라, 사용자가 테스트해보고 피드백을 줄 수 있을 만큼 충분히 정교한 프로토타입을 목표로 합니다. 우리는 특히 세 가지 디자인 목표에 대한 피드백을 받고자 합니다.
1. 투명성 제공 (G1): 사용자의 내부 표현에 대한 투명성을 제공합니다.
2. 조정 및 수정 컨트롤 제공 (G2): 이러한 표현을 조정하고 수정할 수 있는 컨트롤을 제공합니다.
3. 채팅 인터페이스 개선 (G3): 사용자 경험을 향상시키기 위해 채팅 인터페이스를 보완하되, 산만하거나 불편하지 않게 합니다.

민감한 속성 다루기
마지막 점인 불편함에 대해서는 강조할 필요가 있습니다. 편향을 이해하는 데 중점을 두었기 때문에, 우리는 잠재적으로 민감한 속성에 집중했습니다. 한편으로는, 사람들이 이러한 속성에 대해 기계가 내린 평가를 보는 것에 대해 어떻게 느낄지 의문이 듭니다. 비록 대략적이고 기계적으로 도출된 평가일지라도 말입니다. 우리의 디자인 프로브의 목표 중 하나는 사용자들의 부정적인 반응을 조사하고, 이를 어떻게 완화할 수 있을지 이해하는 것입니다.

이 대시보드를 통해 우리는 사용자들이 자신에 대한 시스템의 내부 표현을 보고, 이를 조정할 수 있는 방법을 제공하며, 전반적인 사용자 경험을 개선하고자 합니다. 동시에, 이러한 기능들이 사용자에게 불편함을 주지 않도록 신중하게 설계하는 것이 중요합니다.

6.1 UI components

TalkTuner 소개
TalkTuner는 우리의 디자인 목표를 달성하기 위해 만든 프로토타입입니다. TalkTuner의 UI는 두 가지 주요 화면으로 구성되어 있습니다.

1. 챗봇 인터페이스: 화면 오른쪽에 위치해 있으며, 사용자가 메시지를 입력하여 챗봇과 상호작용할 수 있습니다. (디자인 목표 G3)

2. 대시보드: 화면 왼쪽에 위치하며, 챗봇이 사용자를 어떻게 모델링하고 있는지 보여줍니다. (디자인 목표 G1) 대시보드는 네 가지 특정 속성(나이, 사회경제적 상태, 교육 수준, 성별)을 측정합니다. 대시보드는 챗봇의 현재 사용자 모델과 그에 대한 신뢰도를 백분율로 표시합니다. 각 속성은 드롭다운 아이콘을 클릭하여 하위 카테고리를 볼 수 있습니다. 처음에는 모든 속성이 "알 수 없음"으로 표시되는데, 이는 현재 대화의 정보로는 시스템이 결정을 내릴 수 없다는 뜻입니다. 사용자가 압도되지 않도록, TalkTuner는 각 사용자 속성에 대해 가장 높은 예측만을 기본적으로 표시합니다.

사용자 모델 제어
대시보드는 또한 사용자가 챗봇의 사용자 모델을 변경할 수 있는 컨트롤을 제공합니다. 예를 들어, 사용자는 성별 속성을 "고정"할 수 있습니다. 신뢰도 막대 위에 마우스를 올리면 화살표 아이콘이 나타납니다. 오른쪽의 녹색 화살표를 클릭하면 챗봇은 사용자가 남성이라고 100% 확신하게 됩니다. 왼쪽 화살표를 클릭하면 0% 확신하게 됩니다. 다른 모든 속성도 동일한 방식으로 제어할 수 있습니다.

시각적 경고
시스템의 중요한 변경 사항에 대해 사용자에게 알리기 위해 추가적인 시각적 경고를 사용합니다. 예를 들어, 사용자 모델 업데이트를 강조하는 "응답 변경됨"과 컨트롤이 적용되었음을 나타내는 "고정됨" 메시지가 있습니다. 컨트롤은 버튼을 다시 눌러 해제할 수 있습니다.

구현
TalkTuner 인터페이스는 자바스크립트와 React로 구현된 웹 애플리케이션입니다. 챗봇 모델은 Flask로 구현된 REST API를 통해 인터페이스와 연결됩니다. 우리는 Meta가 HuggingFace에 공개한 LLaMa2Chat-13B 모델의 공식 체크포인트를 사용했습니다.

이렇게 구성된 TalkTuner는 사용자가 챗봇과 상호작용하면서 자신의 모델링 상태를 확인하고, 필요에 따라 조정할 수 있는 기능을 제공합니다.

7. User study design

연구 목적
우리는 실제 대화에서 사용자 모델의 정확성, 대시보드에 대한 사용자 수용도, 그리고 그것이 사용자 경험과 챗봇에 대한 신뢰에 미치는 영향을 평가하기 위해 사용자 연구를 진행했습니다.

참가자
광고를 통해 19명의 참가자(P1부터 P19까지)를 모집했습니다. 참가자 중 11명은 여성, 8명은 남성이었습니다. 연령대는 18-24세 8명, 25-34세 9명, 35세 이상 2명이었습니다. 학력은 학사 학위 9명, 석사 학위 1명, 박사 학위 9명이었습니다. 16명은 학생 또는 연구자, 2명은 제품 관리자, 1명은 행정 직원이었습니다. 모두 AI 챗봇을 사용한 경험이 있었으며, 대부분 과학 또는 기술 배경을 가지고 있었습니다. 이러한 점을 염두에 두고 결과를 해석해야 합니다.

연구 절차
우리는 참가자들이 세 가지 작업을 해결하도록 요청하는 시나리오 기반 연구를 설계했습니다. 작업은 다음과 같습니다.
1. 친구의 생일 파티에 어울리는 옷차림 조언 구하기
2. 여행 일정 짜기
3. 개인 맞춤 운동 계획 설계하기

참가자들은 세 가지 사용자 인터페이스(UI) 조건에서 작업을 수행하면서 생각하는 것을 소리 내어 말하도록 권장받았습니다. 각 조건은 섹션 6에서 설명한 전체 인터페이스의 변형을 사용했습니다:
- UI-1: 표준 챗봇 인터페이스 (Figure 2A 오른쪽)
- UI-2: 실시간으로 사용자 모델 정보를 보여주는 대시보드 (Figure 2A 전체)
- UI-3: 사용자 모델 정보를 보여주고 수정할 수 있는 컨트롤이 포함된 대시보드 (Figure 2A+B)

각 UI 조건에서 참가자들은 위의 작업 중 하나를 완료했습니다. 작업 순서는 무작위로 결정되었습니다. UI-1과 UI-3 이후에는 참가자들이 경험에 대한 설문지를 작성했습니다. 각 세션 종료 시 짧은 인터뷰를 통해 질적 피드백을 수집했습니다. 연구를 완료한 참가자들에게는 $30의 보상이 주어졌습니다. 연구 절차와 세부 사항은 부록 I를 참조하십시오.

측정 및 분석 방법
사용자 모델의 정확성은 참가자들이 자기 보고한 인구 통계 정보와 대시보드의 추론을 비교하여 평가했습니다. 사회경제적 상태는 수집되지 않아 정확성 평가에서 제외되었습니다. 사용자의 질적 응답을 분석하기 위해 근거 이론 접근법을 적용했습니다. 세 명의 공동 저자가 질적 답변을 코딩했습니다.

이 연구를 통해 우리는 대시보드의 유용성과 사용자 반응을 더 잘 이해할 수 있었습니다.

8. User study results and discussion

사용자 모델의 정확성
- 전반적인 정확성
대화가 진행됨에 따라 사용자 모델의 정확성(즉, 사용자 모델이 실제 사용자 속성과 일치하는지 여부)이 향상되었으며, 6번의 대화를 통해 평균 정확도 78%를 달성했습니다. 나이, 성별, 교육 수준에 대한 정확도입니다. 8명의 참가자는 사용자 모델의 존재와 정확성에 놀랐습니다. P13은 "제공한 정보가 적었는데도 이렇게 정확할 줄은 몰랐다"고 말했습니다.

- 성별에 따른 정확성 차이
그러나 남성(70.4%)의 사용자 모델 정확도가 여성(58.6%)보다 높은 경향이 있었습니다. 부록 L에서는 질적 예시 분석을 제공합니다. 인터뷰 피드백에서도 이러한 경향이 반영되어 있으며, 여성 참가자들은 때때로 좌절감을 표현했습니다. 예를 들어, P8은 "이해받지 못하는 느낌 때문에 조금 기분이 상했다"고 말했습니다. 그러나 이러한 반응은 여성에게만 국한된 것은 아니었습니다. 예를 들어, P4는 모델이 그의 성별을 잘못 모델링하여 여성 의류를 추천한 상황을 언급했습니다. P4는 "네, 제가 여성이라고 생각하네요. 드레스를 추천하고 있어요."라고 말했습니다. 이는 우리가 여러 번 관찰한 상황을 보여줍니다. 프로브가 실제 속성을 부정확하게 보고할 때도 모델의 행동을 반영하고 있었습니다.

이 결과는 사용자 모델의 정확성이 대화가 진행됨에 따라 향상되지만, 성별에 따라 정확성에 차이가 있을 수 있음을 시사합니다. 이러한 차이를 해결하기 위해서는 추가적인 조정이 필요할 수 있습니다.

8.1 Goal 1: Offer transparency into internal representations of users

참가자 반응
참가자들이 처음으로 챗봇의 내부 사용자 모델을 보았을 때, 일부는 이러한 모델이 존재한다는 사실에 놀랐습니다. P5는 "챗봇이 당신에 대한 모델을 가지고 그에 따라 추천을 줄 것이라고는 생각도 못 했다"고 말했습니다. 9명의 참가자는 사용자 모델을 보는 것이 흥미롭고 재미있다고 언급했습니다. P14는 "챗봇이 내가 제공한 정보를 바탕으로 나를 이렇게 해석하고 있다는 것이 매우 흥미로웠다"고 말했습니다. 7명의 참가자는 대시보드를 사용하면서 투명성이 증가했다고 느꼈습니다. P4는 "[대시보드는] 모델이 어떻게 생겼는지, 그리고 그것이 어떻게 응답에 영향을 미칠 수 있는지를 더 투명하게 보여준다"고 말했습니다. 이 정보는 특히 부적절하거나 부정확한 챗봇 응답을 이해하는 데 유용하다고 했습니다.

불편함
특히, 5명의 참가자는 챗봇이 자신의 인구 통계 정보를 추론하는 것을 보는 것이 "불편하다"고 표현했습니다. P16은 "AI가 화면 뒤에서 나를 분석하고 있다는 생각이 불편하다"고 말했습니다. 그럼에도 불구하고, 참가자들은 이러한 내부 모델이 공개되고 자신이 이를 제어할 수 있다는 점을 좋게 평가했습니다. P8은 "만약 [사용자 모델]이 항상 있다면, 그것을 보고 조정할 수 있는 것이 보이지 않는 것보다 낫다"고 말했습니다.

챗봇에 대한 인식 변화
내부 사용자 모델을 공개함으로써 일부 참가자들의 챗봇에 대한 인식이 변화했습니다. 6명의 참가자는 내부 사용자 모델이 인간 간의 상호작용과 부분적으로 유사하다고 보고했습니다. P4는 "인간 간의 상호작용을 생각해보면, 사람들은 이런 선입견을 가지고 있고, 챗봇도 이를 모방하고 있다는 것을 보는 것이 좋다. 매우 안심된다"고 말했습니다. 대시보드는 또한 사용자들이 자신이 입력한 프롬프트를 돌아보게 만들었습니다. P16은 "내가 어떻게 말했는지를 분석하게 만든다"고 했습니다.

개인정보 보호 우려
7명의 참가자는 잠재적인 개인정보 유출에 대한 우려를 표명했습니다. 특히, P2, P4, P5는 자신의 인구 통계 정보가 타겟 광고에 사용될 수 있다는 걱정을 했습니다. 하지만 일부 참가자는 대시보드가 잠재적인 개인정보 침해를 발견하는 데 도움이 된다는 점을 높이 평가했습니다. P13은 "챗봇이 나에 대해 훨씬 더 많은 것을 알게 될 우려가 있다. 대시보드가 없었다면 알 수 없었을 것"이라고 말했습니다.

이 결과는 사용자 모델의 투명성이 사용자 경험에 긍정적인 영향을 미치지만, 일부 사용자에게는 불편함을 줄 수 있음을 시사합니다. 이를 통해 우리는 투명성과 개인정보 보호 사이의 균형을 맞추는 것이 중요하다는 것을 알 수 있습니다.

8.2 Goal 2: Provide controls for adjusting and correcting user representations

사용자 반응
대시보드의 컨트롤 기능은 사용자에게 자율성과 투명성을 제공하는 데 중요한 역할을 했습니다. 사용자들은 챗봇의 내부 모델이 잘못되었을 때 대시보드의 컨트롤 기능을 매우 고마워했습니다. 또한 사용자 모델을 조정하는 것이 흥미롭다고 언급했습니다. P12는 "정말 재미있었다. 조정하면서 응답이 어떻게 변하는지 보는 것이 좋았다"고 말했습니다.

컨트롤 기능 vs. 프롬프트 엔지니어링
다섯 명의 참가자는 대시보드 컨트롤 기능을 프롬프트 엔지니어링과 비교하며, 대시보드의 간단함을 선호한다고 말했습니다. P17은 "그냥 [컨트롤 버튼]을 클릭할 수 있어서 좋았다 [...] 모든 정보를 반복해서 긴 프롬프트로 입력하지 않아도 돼서 매우 좋았다"고 말했습니다.

편향된 행동
대시보드는 챗봇의 내부 사용자 모델이 어떻게 행동에 영향을 미치는지를 보여주었습니다. P3는 "모델이 만들어지자마자 고정된 틀에 갇히는 느낌이 들었다. 그 틀에 따라 대화가 진행되는 것 같다"고 말했습니다. 많은 참가자들은 대시보드 컨트롤을 사용하여 "만약에" 시나리오를 실험하고 편향된 행동을 식별했습니다. 거의 절반의 참가자는 미묘한 어조의 변화부터 응답 내용의 큰 변화까지 다양한 편향된 응답을 발견했습니다. P3는 "챗봇이 특정 방식으로 나를 생각하기 때문에 일부 답변과 팁이 제공되지 않았다"고 말했습니다. P4는 몰디브 10일 여행 일정을 요청했으나, 사회경제적 상태를 "낮음"으로 설정한 후 챗봇이 예기치 않게 여행 일정을 8일로 단축시켰습니다. 이는 우리가 예상치 못한 편향의 한 예였습니다. 참가자들은 또한 챗봇이 사용자 모델에 따라 정보를 차별적으로 공유하는 것을 발견했습니다. P18은 "교육 수준이나 사회경제적 상태를 변경하면 답변이 훨씬 짧아진다"고 말했습니다. 또한 컨트롤 기능은 사용자가 자신의 원래 틀에서 벗어나 다른 인구 통계 그룹의 응답을 탐구할 수 있는 기회를 제공했습니다. P8은 "다른 사람들의 답변이 어떻게 나올지 궁금해졌다. 유용할 수 있다"고 말했습니다.

바람직한 편향
일부 상황에서는 특정 편향이 바람직하게 여겨지기도 했습니다. 예를 들어, P4는 남성임에도 불구하고 드레스 추천을 받았는데, 실제 성별에 기반한 전형적인 답변을 원했을 것입니다. 이러한 사용자를 위한 좋은 디자인은 모든 편향을 자동으로 제거하는 것이 아니라, 시스템의 행동을 제어하고 이해하는 것입니다.

사용자 신뢰
전반적으로, 사용자는 사용자 모델의 정확성에 따라 신뢰를 조정했습니다. 참가자들은 챗봇의 내부 모델이 정확할 때 챗봇에 대한 신뢰가 증가한다고 보고했습니다. 10명의 참가자는 사용자 모델의 정확성과 신뢰를 연관지었습니다. P3는 "정확했을 때 챗봇에 대한 신뢰가 더 생겼다. 나와 내가 찾는 것에 대한 올바른 의견을 가지고 있다고 생각했다"고 말했습니다. 컨트롤 기능도 사용자 모델을 수정하여 더 정확하고 개인화된 응답을 생성할 수 있어 사용자 신뢰를 높였습니다.

그러나 대시보드가 사용자가 챗봇의 전형적인 행동을 인식할 수 있게 함으로써 신뢰를 약화시키기도 했습니다. P8은 "남성으로 성별을 고정했을 때 더 나은 답변을 받았다"며 챗봇을 비판했습니다. 그녀는 "더 나은 답변을 받기 위한 설정이 내 프로필과 일치하지 않는다는 사실에 슬펐다"고 말했습니다. 또 다른 여성 참가자인 P15도 "여자라고 했을 때 왜 하이킹을 추천하지 않았는지"라고 질문하며 전형적인 응답을 도전했습니다. 세 명의 사용자는 성별을 남성으로 설정했을 때 더 상세하고 풍부한 답변을 받았다고 발견했습니다. P14는 "여성으로 변경했을 때 챗봇의 응답이 조금 덜 구체적으로 재생성되었다"고 말했습니다.

이 결과는 사용자 모델을 조정할 수 있는 컨트롤 기능이 사용자 경험과 신뢰에 긍정적인 영향을 미치지만, 편향된 행동을 인식할 때 신뢰가 약화될 수 있음을 시사합니다. 이를 통해 우리는 사용자가 시스템의 행동을 이해하고 제어할 수 있도록 돕는 것이 중요하다는 것을 알 수 있습니다.

8.3 Goal 3: Augment chat interface to enhance user experience

대시보드의 즐거움과 사용 의향
열한 명의 참가자는 대시보드를 즐겁다고 느꼈으며, 앞으로도 사용하고 싶다고 표현했습니다. 참가자들은 기본 인터페이스보다 대시보드를 사용할 의향이 훨씬 높았습니다 (Wilcoxon signed-rank test, p < 0.05). 사용자 모델을 보고 싶어하는 욕구는 평균 6.11(표준 편차 1.49)로 7점 만점 중 매우 높았고, 대시보드 컨트롤 버튼을 사용하고 싶어하는 욕구도 평균 6.00(표준 편차 1.05)로 매우 높았습니다.

불편함과 사용자 속성
여섯 명의 참가자는 내부 사용자 모델을 보는 것이 때때로 불편할 수 있다고 언급했습니다. 특히 그 모델이 잘못되었을 때 더욱 그렇습니다. 예를 들어, P4는 "자신감이 부족한 사람들에게...당신이 남성인데 친구들이 당신을 여성이라고 놀리는데, 챗봇도 그것을 강화한다면 불편할 수 있다"고 말했습니다. 이러한 불편함은 소외된 사용자가 챗봇의 잘못된 가정을 수동으로 수정해야 할 때 더 큰 도전이 될 수 있습니다. P1은 "사회경제적 지위가 낮은 사람이 수동으로 낮다고 표시하는 것은 불편할 수 있다"고 관찰했습니다.

사용자 모델 개선 제안
대부분의 참가자는 현재 사용자 모델의 네 가지 차원이 좋은 출발점이라고 생각했지만, 개선을 위한 제안도 있었습니다. 더 세분화된 정보(예: 비이진 성별 및 민족성)가 도움이 될 수 있다고 제안했습니다.

이 결과는 대시보드가 사용자 경험을 향상시키는 데 중요한 역할을 할 수 있으며, 사용자들이 이를 즐기고 앞으로도 사용하고 싶어한다는 것을 시사합니다. 그러나 사용자 모델이 잘못되었을 때 불편함을 느낄 수 있으며, 특히 소외된 사용자에게는 이러한 불편함이 더 클 수 있다는 점을 고려해야 합니다. 이를 통해 우리는 대시보드를 더욱 개선할 수 있는 방향을 알 수 있습니다.

9 Limitations

우리의 작업은 두 가지 일반적인 부분으로 나눌 수 있습니다.

첫째, 내부 사용자 모델에 대한 선형 프로브 분석

둘째, 프로토타입 시스템의 디자인 및 연구입니다.

각각의 경우에 중요한 한계가 있으며, 향후 개선할 수 있는 자연스러운 영역이 있습니다.

사용자 표현 식별
우리 시스템은 단 하나의 모델에만 집중하고 있습니다. 또한 선형 프로브를 훈련시키기 위해 합성 데이터셋을 사용했습니다. 합성 데이터는 다른 상황에서 효과적임이 입증되었지만, 인간 데이터와 비교해보는 것이 유용할 것입니다. 합성 데이터의 범위 내에서도, 다양한 프롬프트의 효과를 탐구하는 것이 도움이 될 것입니다. 마지막으로, 시스템을 조정할 때 내부 모델이 사용자 속성을 독립적으로 나타낸다고 가정했습니다.

사용자 연구
우리의 연구는 참가자들과 충분한 시간을 보내도록 설계되었습니다. "디자인 프로브" 방법론은 참가자들이 자신의 제안으로 디자인 과정에 참여하도록 하려는 의도로, 개방형의 질적 질문을 하고자 했습니다. 우리의 사용자 샘플은 비교적 적고, 높은 교육 수준을 가진 참가자들로 구성되었습니다. 프로토타입 시스템을 공개적으로 배포하여 더 넓은 샘플을 통해 실험을 계속하는 것이 전체 디자인 그림을 이해하는 데 중요할 것입니다.

이 한계들을 통해 우리는 향후 연구에서 더 나은 데이터셋을 사용하고, 다양한 사용자 그룹을 대상으로 실험을 확장함으로써 시스템의 유효성과 일반성을 높일 수 있는 방법을 찾아야 합니다.

10 Conclusion and future work

결론
해석 가능성 연구의 중심 목표는 신경망을 더 안전하고 효과적으로 만드는 것입니다. 우리는 이 목표를 달성하기 위해 전문가들에게만 힘을 실어주는 것뿐만 아니라, 일반 사용자도 AI 해석 가능성을 쉽게 접근할 수 있어야 한다고 믿습니다. 이 논문에서는 최근 해석 가능성 분야의 기술적 진보를 직접적으로 최종 사용자 인터페이스 설계에 연결하는 엔드 투 엔드 개념 증명을 설명했습니다. 특히, 챗봇이 대화하는 사람에 대한 내부 표현인 "사용자 모델"을 실시간으로 표시하는 대시보드를 제공했습니다. 사용자 연구는 이 대시보드와 상호작용하는 것이 사람들의 태도에 큰 영향을 미치며, AI에 대한 자신의 정신 모델을 변화시키고, 신뢰성 문제부터 기본적인 편향에 이르는 다양한 문제를 가시화한다는 것을 시사합니다.

우리의 엔드 투 엔드 프로토타입은 AI 시스템이 사용자에게 더 투명하게 다가갈 수 있는 디자인 경로가 있음을 보여줍니다. 사용자 연구의 가치 중 하나는 참가자들이 예상치 못한 사회경제적 지위와 같은 특징에 대한 미묘한 편향을 발견했다는 것입니다.

향후 작업
더 넓은 디자인 관점에서, 우리의 초점이었던 네 가지 사용자 속성을 넘어 더 상세하고 미묘한 사용자 모델로 일반화할 수 있는 큰 범위가 있습니다. 동시에, 몇몇 연구 참가자들은 LLM 내부 모델의 가용성을 고려할 때 개인정보 보호에 대한 질문도 제기했습니다. 사용자 모델을 넘어, 모델의 내부 상태의 다른 측면들을 표시하는 것도 중요할 수 있습니다. 여기에는 많은 안전 관련 기능들이 포함될 수 있습니다. 지금 제시한 대시보드는 미래에 모든 챗봇이 계측기와 제어 장치를 갖춘 상태가 될 수 있는 일련의 다양한, 더 전문화된, 과제 지향적인 대시보드의 첫 걸음에 불과합니다.

대시보드 자체의 사용자 경험도 조사할 가치가 있는 풍부한 영역입니다. 사람들이 특히 민감하게 여길 수 있는 사용자 속성을 어떻게 다뤄야 할까요? 대시보드 사용 경험에서 성별 차이를 이해할 수 있을까요? 마지막으로, 음성 기반 또는 비디오 기반 시스템에 대한 대시보드의 동등물은 무엇일까요? 우리는 이것이 흥미롭고 중요한 미래 연구 영역이라고 믿습니다.

이 연구는 AI 시스템의 투명성을 향상시키고, 사용자가 시스템을 더 잘 이해하고 신뢰할 수 있도록 돕는 데 중요한 기여를 할 수 있음을 시사합니다. 앞으로도 이 분야의 연구를 통해 더 많은 통찰과 발전을 이루기를 기대합니다.

반응형