Pajamų gavimas iš tyrimų, skirtų AI mokymui: rizika ir geriausia praktika


Augant generatyvaus dirbtinio intelekto paklausai, didėja ir aukštos kokybės duomenų, skirtų šioms sistemoms mokyti, alkis. Mokslo leidėjai pradėjo gauti pajamų iš savo tyrimų turinio, kad pateiktų mokymo duomenis apie didelius kalbos modelius (LLM). Nors ši plėtra sukuria naują pajamų šaltinį leidėjams ir įgalina dirbtinį intelektą moksliniams atradimams, kyla kritinių klausimų dėl naudojamų tyrimų vientisumo ir patikimumo. Tai kelia esminį klausimą: ar parduodami duomenų rinkiniai yra patikimi ir kokią įtaką ši praktika turi mokslo bendruomenei ir generuojamiesiems AI modeliams?

Pajaustų mokslinių tyrimų pasiūlymų augimas

Pagrindiniai akademiniai leidėjai, įskaitant Wiley, Taylor & Francis ir kitus, pranešė apie dideles pajamas iš licencijavimo technologijų įmonėms, kuriančios generatyvius AI modelius. Pavyzdžiui, vien šiais metais Wiley iš tokių sandorių atskleidė daugiau nei 40 mln. Šie susitarimai leidžia dirbtinio intelekto įmonėms prieiti prie įvairių ir plačių mokslinių duomenų rinkinių, o tai tikriausiai pagerina jų AI įrankių kokybę.

Leidėjų pasiūlymas yra aiškus: licencijavimas užtikrina geresnius AI modelius, naudingus visuomenei, o autoriams atlyginant honorarais. Šis verslo modelis naudingas ir technologijų įmonėms, ir leidėjams. Tačiau didėjanti tendencija paversti mokslines žinias pinigais kelia pavojų, daugiausia tada, kai abejotini tyrimai prasiskverbia į šiuos AI mokymo duomenų rinkinius.

Netikrų tyrimų šešėlis

Mokslininkų bendruomenei nesvetimi nesąžiningų tyrimų klausimai. Tyrimai rodo, kad daugelis paskelbtų išvadų yra klaidingos, šališkos arba tiesiog nepatikimos. 2020 m. atlikta apklausa parodė, kad beveik pusė tyrėjų pranešė apie tokias problemas kaip atrankinis duomenų teikimas arba prastai parengti lauko tyrimai. 2023 m. daugiau nei 10 000 dokumentų buvo atsiimta dėl suklastotų ar nepatikimų rezultatų – šis skaičius kasmet didėja. Ekspertai mano, kad šis skaičius yra ledkalnio viršūnė, nes mokslinėse duomenų bazėse sklando daugybė abejotinų tyrimų.

Krizę pirmiausia lėmė „popieriaus fabrikai“, šešėlinės organizacijos, rengiančios išgalvotus tyrimus, dažnai reaguodamos į akademinį spaudimą tokiuose regionuose kaip Kinija, Indija ir Rytų Europa. Apskaičiuota, kad apie 2% žurnalų visame pasaulyje pateikiami iš popieriaus gamyklų. Šie netikri dokumentai gali būti panašūs į teisėtus tyrimus, tačiau juose gausu fiktyvių duomenų ir nepagrįstų išvadų. Nerimą kelia tai, kad tokie straipsniai praslysta per tarpusavio peržiūrą ir patenka į gerbiamus žurnalus, o tai kelia pavojų mokslinių įžvalgų patikimumui. Pavyzdžiui, COVID-19 pandemijos metu klaidingi ivermektino tyrimai klaidingai įrodė jo veiksmingumą kaip gydymo priemonę, sukelia painiavą ir atitolina veiksmingą visuomenės sveikatos atsaką. Šis pavyzdys pabrėžia galimą nepatikimų tyrimų platinimo žalą, kai klaidingi rezultatai gali turėti didelį poveikį.

AI mokymo ir pasitikėjimo pasekmės

Poveikis yra didžiulis, kai LLM mokosi duomenų bazėse, kuriose yra apgaulingų arba žemos kokybės tyrimų. AI modeliai naudoja modelius ir ryšius savo mokymo duomenyse, kad generuotų rezultatus. Jei įvesties duomenys yra sugadinti, išėjimai gali išsaugoti netikslumus ar net juos sustiprinti. Ši rizika ypač didelė tokiose srityse kaip medicina, kur neteisingos AI sukurtos įžvalgos gali turėti gyvybei pavojingų pasekmių.
Be to, ši problema kelia grėsmę visuomenės pasitikėjimui akademine bendruomene ir dirbtiniu intelektu. Kadangi leidėjai ir toliau sudaro susitarimus, jie turi spręsti susirūpinimą dėl parduodamų duomenų kokybės. Jei to nepadarysite, gali pakenkti mokslo bendruomenės reputacijai ir pakenkti galimai dirbtinio intelekto naudai visuomenei.

Patikimų AI duomenų užtikrinimas

Norint sumažinti klaidingų tyrimų, sutrikdančių dirbtinio intelekto mokymą, riziką, reikia bendrų leidėjų, AI įmonių, kūrėjų, tyrėjų ir platesnės bendruomenės pastangų. Leidėjai turi patobulinti tarpusavio peržiūros procesą, kad gautų nepatikimus tyrimus prieš įtraukdami juos į mokymo duomenų rinkinius. Gali padėti geresnių atlygių siūlymas apžvalgininkams ir aukštesnių standartų nustatymas. Atviras peržiūros procesas čia yra labai svarbus. Tai suteikia daugiau skaidrumo ir atskaitomybės, padeda stiprinti pasitikėjimą tyrimais.
Dirbtinio intelekto įmonės turi būti atsargesnės dėl to, su kuo jos bendradarbiauja, teikdamos tyrimus dirbtinio intelekto mokymui. Labai svarbu pasirinkti tvirtą reputaciją turinčius leidėjus ir žurnalus dėl aukštos kokybės, gerai peržiūrėtų tyrimų. Šiame kontekste verta atidžiai pažvelgti į leidėjo įrašus, pvz., kaip dažnai jie atsiima straipsnius arba kaip atvirai žiūri į savo peržiūros procesą. Atrankumas padidina duomenų patikimumą ir sukuria AI ir mokslinių tyrimų bendruomenių pasitikėjimą.

AI kūrėjai turi prisiimti atsakomybę už naudojamus duomenis. Tai reiškia, kad reikia dirbti su ekspertais, atidžiai tikrinti tyrimus ir lyginti kelių tyrimų rezultatus. Patys AI įrankiai taip pat gali būti sukurti taip, kad nustatytų įtartinus duomenis ir sumažintų abejotinų tyrimų tolesnio plitimo riziką.

Skaidrumas taip pat yra esminis veiksnys. Leidėjai ir dirbtinio intelekto įmonės turėtų atvirai dalytis informacija apie tai, kaip naudojami moksliniai tyrimai ir kur skiriami honorarai. Tokie įrankiai kaip „Generative AI Licensing Agreement Tracker“ yra daug žadantys, tačiau juos reikia plačiau pritaikyti. Tyrėjai taip pat turėtų turėti įtakos jų darbo naudojimui. Pasirinkimo politika, kaip ir Cambridge University Press, leidžia autoriams kontroliuoti savo indėlį. Tai ugdo pasitikėjimą, užtikrina sąžiningumą ir verčia autorius aktyviai dalyvauti šiame procese.

Be to, turėtų būti skatinama atvira prieiga prie aukštos kokybės mokslinių tyrimų, kad būtų užtikrintas įtraukimas ir sąžiningumas kuriant DI. Vyriausybės, ne pelno organizacijos ir pramonės veikėjai gali finansuoti atviros prieigos iniciatyvas, sumažindamos kritinių mokymo duomenų rinkinių priklausomybę nuo komercinių leidėjų. Be to, dirbtinio intelekto pramonei reikia aiškių etiško duomenų tiekimo taisyklių. Sutelkdami dėmesį į patikimus, gerai peržiūrėtus tyrimus, galime sukurti geresnius AI įrankius, apsaugoti mokslinį vientisumą ir išlaikyti visuomenės pasitikėjimą mokslu ir technologijomis.

Esmė

Pajamų gavimas iš tyrimų, skirtų AI mokymui, suteikia ir galimybių, ir iššūkių. Nors akademinio turinio licencijavimas leidžia kurti galingesnius AI modelius, tai taip pat kelia susirūpinimą dėl naudojamų duomenų vientisumo ir patikimumo. Klaidingi tyrimai, įskaitant „popieriaus gamyklų“ atliekamus tyrimus, gali sugadinti AI mokymo duomenų rinkinius, todėl gali atsirasti netikslumų, kurie gali pakenkti visuomenės pasitikėjimui ir galimai dirbtinio intelekto naudai. Siekdami užtikrinti, kad dirbtinio intelekto modeliai būtų sukurti remiantis patikimais duomenimis, leidėjai, AI įmonės ir kūrėjai turi dirbti kartu, kad pagerintų tarpusavio peržiūros procesus, padidintų skaidrumą ir teiktų pirmenybę aukštos kokybės, gerai patikrintiems tyrimams. Tai darydami galime apsaugoti dirbtinio intelekto ateitį ir palaikyti mokslo bendruomenės vientisumą.



Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -