Automatinių LLM etalonų pažeidžiamumo atskleidimas: stipresnių kovos su sukčiavimu mechanizmų poreikis
Automatiniai etalonai, tokie kaip AlpacaEval 2.0, Arena-Hard-Auto ir MTBench, išpopuliarėjo vertinant LLM dėl jų prieinamumo ir mastelio, palyginti su žmogaus…