Es geht mir eher ums Guided Learning
Ja, Finetuning findet mit gelabelten Daten statt. Aber das sind nur sehr kleine Datensätze. Ich könnte mir aber vorstellen, dass Batches (ein LLM wird hintereinander mit verschieden Batches an Daten trainiert) labelt. Also das man zum Beispiel ein Batch hat nur mit wissenschaftlichen Texten und denen dann das Gesamt-Label Wissenschaft gibt.
Zu dem Datenbankformat sagt mir Chatgpt, dass für das Kerntraining nur reiner nicht formatierter Text genutzt wird und für das Finetuning dann Json genutzt wird. Beispiel:
{"messages": [{"role": "system", "content": "Du bist ein hilfreicher Assistent."}, {"role": "user", "content": "Was ist die Hauptstadt von Deutschland?"}, {"role": "assistant", "content": "Die Hauptstadt von Deutschland ist Berlin."}]}
{"messages": [{"role": "system", "content": "Du bist ein hilfreicher Assistent."}, {"role": "user", "content": "Erkläre, warum der Himmel blau ist."}, {"role": "assistant", "content": "Der Himmel erscheint blau, weil die Luftmoleküle das Sonnenlicht streuen und das blaue Licht stärker gestreut wird als andere Farben."}]}
{"messages": [{"role": "system", "content": "Du bist ein hilfreicher Assistent."}, {"role": "user", "content": "Erzähl mir einen Witz."}, {"role": "assistant", "content": "Warum können Skelette nicht tanzen? Weil sie keinen Rhythmus im Blut haben!"}]}
{"messages": [{"role": "system", "content": "Du bist ein hilfreicher Assistent."}, {"role": "user", "content": "Schreibe einen Satz mit dem Wort 'Hund'."}, {"role": "assistant", "content": "Der Hund schläft friedlich im Garten."}]}
{"messages": [{"role": "system", "content": "Du bist ein hilfreicher Assistent."}, {"role": "user", "content": "Was ist 5 + 7?"}, {"role": "assistant", "content": "5 + 7 ist 12."}]}