Taiyi dev

AboutNotes

AI

Skills

Progressive Disclousure 漸進式揭露

Context Window

Orchestrator

Deep Dive into LLMs like ChatGPT

Deep Dive into LLMs like ChatGPT - YouTube

Pretrained

  1. download and preprocess the internet
  2. tokenization
  1. neural Network Training

pretrained完的model還不能作為助理,他只是一個token simulator,能夠持續接龍的模型。

Post-Training

這步驟要讓base model能夠變成助理,能夠回答問題。
用特殊的token來表示現在是使用者說話,還是助理說話。
用對話文本來訓練模型,資料來源是human labeler。

避免模型產生幻覺(hallucination)

  1. 允許模型說不知道
  2. 提供外部工具(external tool)來幫助模型回答問題

Supervised Fine-Tuning (SFT)

用問題和答案來訓練模型

Reinforcement learning

同一個prompt,跑很多次會得到不同的結果,標記好的結果,用來調整模型參數,讓模型更傾向於產生好的結果。

Reinforcement Learning from Human Feedback(RLHF)

對於沒有正確答案的問題,像是詩、笑話等等。讓人類評分,然後用這些評分來調整模型參數。

訓練太長會產生特例: adversarial example

References

;