ChatGPT 基于 GPT-3.5 模型微調而成,以語言服務模型 InstructGPT 為基礎,通過人類回饋增強學習訓練模型 RLHF,不過數據設置略有不同。它以對話方式進行交互,既能夠做到回答問題,也能承認錯誤、質疑不正確的前提以及拒絕不恰當的請求,能以更貼近一般人的對話方式與使用者互動。
有了GPT-3.5的加持,ChatGPT經訓練后提升了對答如流的能力。GPT-3只預測任何給定的單詞串之后的文本,而ChatGPT則試圖以一種更像人類的方式與用戶發生互動。ChatGPT的互動通常是非常流暢的,并且有能力參與各種主題,與幾年前才面世的聊天機器人相比,顯示出了巨大的改進。
OpenAI官方稱,ChatGPT是在人類的幫助下創建并訓練的,人類訓練師對該AI早期版本回答查詢的方式進行排名和評級。然后,這些信息被反饋到系統中,系統會根據訓練師的偏好來調整答案——這是一種訓練人工智能的標準方法,被稱為強化學習。