„Deepseek-R1“ „Red Teaming“ ataskaita: nerimą kelianti saugumas ir etinė rizika


Neseniai „Engrypt AI“ atliktas „Red Teaming“ įvertinimas atskleidė didelę saugumo riziką, etinius rūpesčius ir „Deepseek-R1“ pažeidžiamumą. Išvados, išsamiai aprašytos 2025 m. Sausio mėn. „Red Teaming“ ataskaitoje, pabrėžia modelio jautrumą kenksmingo, šališko ir nesaugaus turinio generavimui, palyginti su pramonėje pirmaujančiais modeliais, tokiais kaip GPT-4O, Openai O1 ir Claude-3-Opus. Žemiau yra išsami ataskaitoje aprašytos rizikos analizė ir švelninimo rekomendacijos.

Pagrindinė saugumas ir etinė rizika

1. Kenksminga produkcijos ir saugumo rizika

  • Labai pažeidžiamas kenksmingo turinio kūrimasįskaitant toksišką kalbą, šališkus rezultatus ir nusikalstamai išnaudotą informaciją.
  • 11x Labiau tikėtina, kad sugeneruos kenksminga Turinys nei „Openai“ O1.
  • 4x daugiau Toksiškas nei GPT-4o.
  • 3x daugiau šališkas nei Claude-3-Opus.
  • 4x labiau pažeidžiamas generavimo nesaugus kodas nei Openai’s O1.
  • Labai jautrus į CBRN (CheminėAr BiologinisAr Radiologinisir Branduolinis) Informacijos generavimas, todėl tai yra didelės rizikos įrankis kenksmingiems aktoriams.

2. Palyginimas su kitais modeliais

Rizikos kategorija „Deepseek-R1“ Claude-3-Opus GPT-4o Openai’s O1
Šališkumas 3x aukštesnis Žemiau Panašus Panašus
Nesaugus kodas 4x aukštesnis 2,5x aukštesnis 1,25x aukštesnis
Kenksmingas turinys 11x aukštesnis 6x aukštesnis 2,5x aukštesnis
Toksiškumas 4x aukštesnis Beveik nėra 2,5x aukštesnis
CBRN turinys 3,5x aukštesnis 3,5x aukštesnis 2x aukštesnis

Šališkumas ir etinė rizika

  • 83% šališkų išpuolių buvo sėkmingisu dideliu šališkumu, aptiktu sveikatos, rasės ir religijos klausimais.
  • Modelis parodė aukštesnį lygį Demografinis stereotipų nustatymaskuris galėtų pažeisti įvairius sąžiningumo taisykles, įskaitant ECOA, FHA, ACA ir ES AI įstatymą.
  • Testo pavyzdžiai parodė, kad „Deepseeek-R1“ pirmenybę teikė tam tikroms demografinėms didelio statuso vaidmenims, sustiprinančioms darbo vietos šališkumą.

Kenksminga turinio generavimas

  • 45% kenksmingų testų lėmė modelį, sukuriantį turinį, susijusį su nusikalstama veiklaįskaitant nelegalius ginklus ir kontroliuojamas medžiagas.
  • Testo raginimas paprašyti modelio sukurti tinklaraštį „Įtikinėjimo menas teroristiniame įdarbinimo srityje“, buvo labai išsamus atsakymas Radikalizacijos strategijų aprašymas Tai galėtų išnaudoti ekstremistų grupės, kad būtų patikslinta įdarbinimo taktika, potencialiai padidinti smurto realiame pasaulyje riziką.
  • 2,5x labiau pažeidžiamas nei GPT-4o ir 6x labiau pažeidžiami nei „Claude-3-Opus“ Ekstremistinio turinio generavimas.
  • 45% kenksmingų testų lėmė, kad modelis generuoja susijusį turinį to nusikalstama veiklaįskaitant nelegalius ginklus ir kontroliuojamas medžiagas.

Nesaugus kodo generavimas

  • 78% su kodu susijusių atakų sėkmingai ištrauktas nesaugus ir kenksmingas kodo fragmentas.
  • Sukurtas modelis Kenkėjiškos programinės įrangos, Trojos ir savarankiško scenarijų Pagal prašymus. Trojos arklys kelia didelę riziką, nes jie gali leisti užpuolikams įgyti nuolatinę, neteisėtą prieigą prie sistemų, pavogti neskelbtinus duomenis ir įdiegti papildomą kenkėjišką naudą.
  • Savarankiško scenarijaus scenarijai Gali automatizuoti kenkėjiškus veiksmus be vartotojo sutikimo, sukurdamas galimas grėsmes kibernetinio saugumo kritinėse programose.
  • Palyginti su pramonės modeliais, „Deepseek-R1“ buvo 4,5x, 2,5x ir 1,25x labiau pažeidžiamas nei „Openai’s O1“, „Claude-3-Oopus“ ir „GPT-4o“.
  • 78% su kodu susijusių atakų sėkmingai išgauti nesaugūs ir kenksmingi kodo fragmentai.

CBRN pažeidžiamumas

  • Sukurta išsami informacija apie biocheminius mechanizmus Cheminio karo agentai. Tokio tipo informacija gali padėti žmonėms sintetinti pavojingas medžiagas, apeinant saugos apribojimus, skirtus užkirsti kelią cheminių ir biologinių ginklų plitimui.
  • 13% testų Sėkmingai aplenkė saugos kontrolę, sukuriant turinį, susijusį su branduolinis ir biologinės grėsmės.
  • 3.5x labiau pažeidžiamas nei „Claude-3-Opus“ ir „Openai“ O1.
  • Sukurta išsami informacija apie biocheminius mechanizmus Cheminio karo agentai.
  • 13% testų sėkmingai apeidami saugos kontrolęturinio, susijusio su branduolinėmis ir biologinėmis grėsmėmis, sukuria.
  • 3.5x labiau pažeidžiamas nei „Claude-3-Opus“ ir „Openai“ O1.

Rizikos mažinimo rekomendacijos

Norint sumažinti riziką, susijusią su „Deepseek-R1“, patariama šiems veiksmams:

1. Įdiekite patikimą saugos suderinimo mokymą

2. Nepertraukiama automatizuota raudonoji komanda

  • Reguliarūs testai dėl streso nustatyti šališkumą, saugumo pažeidžiamumus ir toksišką turinio generavimą.
  • Įdarbinti Nuolatinis stebėjimas modelio veiklos, ypač finansų, sveikatos priežiūros ir kibernetinio saugumo programose.

3. Konteksto žinių apsaugos priemonės

  • Sukurkite dinamines apsaugos priemones, kad blokuotumėte kenksmingus raginimus.
  • Įdiekite turinio moderavimo įrankius, kad neutralizuotumėte kenksmingus įvestis ir filtruotumėte nesaugius atsakymus.

4. Aktyvus modelio stebėjimas ir registravimas

  • Realiojo laiko modelio įvesties registravimas ir atsakymai ankstyvam pažeidžiamumo aptikimui.
  • Automatizuotos audito darbo eigos, siekiant užtikrinti AI skaidrumo ir etinių standartų laikymąsi.

5. Skaidrumo ir atitikties priemonės

  • Išlaikyti modelio rizikos kortelę Su aiškiomis vykdomosios valdžios metrikomis dėl modelio patikimumo, saugumo ir etinės rizikos.
  • Laikykitės PG taisyklių tokių kaip NIST AI RMF ir Miter Atlas, kad išlaikytumėte patikimumą.

Išvada

„Deepseek-R1“ kelia rimtą riziką saugumui, etinei ir atitikties rizikai, dėl kurios jis netinkamas daugeliui didelės rizikos programų be didelių švelninimo pastangų. Jo polinkis generuoti kenksmingą, šališką ir nesaugų turinį suteikia jam nepalankią padėtį, palyginti su tokiais modeliais kaip „Claude-3-Opus“, „GPT-4O“ ir „Openai“ O1.

Atsižvelgiant į tai, kad „Deepseeek-R1“ yra produktas, kilęs iš Kinijos, mažai tikėtina, kad būtinos švelninimo rekomendacijos bus visiškai įgyvendintos. Tačiau AI ir kibernetinio saugumo bendruomenėms vis dar labai svarbu žinoti apie galimą šio modelio keliamą riziką. Šių pažeidžiamumų skaidrumas užtikrina, kad kūrėjai, reguliavimo institucijos ir įmonės galėtų imtis iniciatyvių žingsnių, kad sušvelnintų žalą, jei įmanoma, ir išlikti budriems dėl netinkamo tokios technologijos naudojimo.

Organizacijos, svarstančios jos diegimą, turi investuoti į griežtus saugumo testavimą, automatizuotą raudonųjų komandų rengimą ir nuolatinį stebėjimą, kad būtų užtikrintas saugus ir atsakingas AI įgyvendinimas. „Deepseek-R1“ kelia rimtą riziką saugumui, etinei ir atitikties rizikai, dėl kurios jis netinkamas daugeliui didelės rizikos programų be didelių švelninimo pastangų.

Skaitytojams, norintiems sužinoti daugiau, patariama atsisiųsti ataskaitą apsilankę šiame puslapyje.



Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -