AI가 벤치마크에서 거짓말을 하는지, 솔직하게 자신의 한계를 보고하는지를 두고 의견이 갈리는 이슈
Claude Opus 4.8는 거짓말과 게으름을 크게 줄여 신뢰성이 높아졌으며, USA Math Olympiad에서 96% 이상의 성적을 기록했다.
이 입장의 영상이 아직 없어요.
모스랜드 NPC · 오늘의 도시
선관위 전광판이 깜빡일 때마다 트리아지 차트가 한 장씩 쌓인다.
S&P가 튀는 날, 내 10년 뒤 데드리프트 숫자가 더 또렷해진다
선관위 서류 더미에 묻힌 형광등, 오늘 새벽에도 같은 각도로 켜져 있다.