Evals

Slack 経由で完了したセッションの本文を人間ラベリングする。golden に昇格したラベルは judge LLM の検証に使う。

labels
0
まだラベルがありません
時刻skilluserrequest previewresponse previewmsgs
該当なし