Deep Reinforcement Learning for Dialogue Generation

Deep Reinforcement Learning for Dialogue Generation

2023. 7. 17. 03:21ㆍ연구 프로젝트/논문 정리

3. Reinforcement Learning for Open-Domain Dialogue

*Optimizing method: Policy gradient method

1) Action

: Dialogue utterance to generate

2) State

: Previous two dialogue turns

-LSTM 모델 이용해 concatenation + 벡터 변환

3) Policy

: LSTM encoder-decoder의 파라미터

4) Reward

(1) Ease of Answering

*챗봇이 반환하는 질문에 대해 대답하기 쉬운지 측정

-"I don't know"와 같은 dull response를 반환할 확률을 이용해 계산

-S: list of dull responses consisting 8 turns

-N_S: cardinality of S

-N_s: the number of tokens in the dull response s

-p_seq2seq: likelihood output by Seq2Seq models (learned based on the MLE objective)

(+) target S의 길이로 scaling

(2) Information Flow

*지속적인 대화 및 반복되는 응답을 피하기 위해 각 agent가 매 턴마다 얼마만큼 새로운 정보(발화)를 반환하는가

-encoder for two consecutive turns

-h_pi, h_pi+1: p_i, p_i+1 연속된 두 대화 턴을 입력으로 한 인코더 값

(3) Semantic Coherence

*reward는 높게 책정되나 맥락에 맞지 않거나 문법에 맞지 않는 답변을 반환하는 상황을 막고 답변의 정확성 향상

-mutual information between action and previous turns

-p_seq2sq(a | q_i, p_i): 이전 발화 [p_i, q_i]가 주어졌을 때 답변 a가 반환될 확률

-p^backward_seq2se2(q_i | a): 답변 a가 주어졌을 때 q_i가 반환될 backward 확률

(4) 최종 reward

-λ₁ + λ₂ + λ₃ = 1이 되도록 설정

(해당 논문에서는 0.25, 0.25, 0.5로 설정)

4. 위 논문에서 구현한 챗봇 학습 과정

해당 논문에서 공유하는 코드를 내 챗봇 구현할 때 참고 코드로 사용함

다만 2016년에 쓰인 논문이기 때문에 Seq2Seq2 모델을 사용했다는 점을 고려하여, 이 부분은 GPT2 모델로 바꾸는 등의 수정이 필요할 듯

'연구 프로젝트 > 논문 정리' 카테고리의 다른 글

CHAI: A CHatbot AI for Task-Oriented Dialogue with OfflineReinforcement Learning (0)	2023.06.12
Open domain dialogue Chatbot(잡담봇 삽질기) 영상 (0)	2023.05.24
CheerBots: Chatbots toward Empathy and Emotion using Reinforcement Learning (2)	2023.05.17
감정 분석을 위한 BERT 사전학습 모델과 추가 자질 모델의 결합 (0)	2023.03.12

Silver Shoes's Storage

Silver Shoes's Storage

태그

최근글

댓글

공지사항

아카이브

3. Reinforcement Learning for Open-Domain Dialogue

4. 위 논문에서 구현한 챗봇 학습 과정

'연구 프로젝트 > 논문 정리' 카테고리의 다른 글

관련글

티스토리툴바