IT로그
DEPO 어려운 샘플을 미리 감지하면 RL이 빨라질까
지저분한 데이터도 프리트레이닝에 쓰는 법(토큰화 관점)
AgentCPM-Explore 엣지에서 딥탐색을 진짜로 해보면
JADE 에이전트 평가를 클레임 단위로 깔끔하게
행동트리+RL, ‘진행 제약’ 걸면 학습이 더 안정될까
HyPER 가설을 키웠다 줄였다 하면서 추론하는 방법
LogicSkills ‘논리 잘함’을 스킬 단위로 쪼개서 보자
게시물 더보기
검색결과 없음
이 블로그 검색
Powered by Blogger
2월 2026
10
신고하기
프로필
IT로그
전체 프로필 보기
DEPO 어려운 샘플을 미리 감지하면 RL이 빨라질까
IT로그
2월 14, 2026
☰
목차
✕
☰
목차
×
☰
목차
✕
☰
목차
×