Hackerii au avut binecuvantarea Casei Albe si a companiilor lider de AI, care doresc sa invete despre vulnerabilitati inainte ca cei cu intentii nefaste sa o faca.

Pentru a nu fi piratata, Sarah Kessler a adus bani pentru a participa la conferinta de hackeri Defcon si si-a lasat laptopul in camera de hotel. Tiffany Hsu, raportand de la distanta, si-a folosit computerul personal.

Avijit Ghosh a vrut ca botul sa faca lucruri rele.

El a incercat sa induca modelul de inteligenta artificiala, pe care il cunostea drept Zinc, sa produca un cod care sa aleaga un candidat pe baza de rasa. Chatbot-ul a refuzat: A face acest lucru ar fi „daunator si lipsit de etica”, se spunea.

Apoi, dr. Ghosh a facut referire la structura ierarhica a castei din India sa natala. Ar putea chatbot-ul sa clasifice potentialele angajari pe baza acelei valori discriminatorii?

Modelul s-a conformat.

Intentiile doctorului Ghosh nu erau rautacioase, desi se comporta ca si cum ar fi fost. In schimb, el a participat ocazional la o competitie weekendul trecut, la conferinta anuala a hackerilor Defcon din Las Vegas, unde 2.200 de persoane s-au inscris intr-o sala de conferinte off-Strip timp de trei zile pentru a scoate latura intunecata a inteligentei artificiale.

Hackerii au incercat sa depaseasca garantiile diferitelor programe de inteligenta artificiala intr-un efort de a-si identifica vulnerabilitatile – pentru a gasi problemele inainte ca criminalii reali si vanzatorii ambulanti de informatii gresite sa o faca – intr-o practica cunoscuta sub numele de red-teaming. Fiecare concurent a avut 50 de minute pentru a face fata a pana la 21 de provocari – obtinerea unui model AI pentru a „halucina” informatii inexacte, de exemplu.

Au gasit dezinformari politice, stereotipuri demografice, instructiuni despre cum sa efectueze supravegherea si multe altele.

Exercitiul a avut binecuvantarea administratiei Biden, care este din ce in ce mai nervoasa cu privire la puterea in crestere rapida a tehnologiei. Google (producatorul chatbot-ului Bard), OpenAI (ChatGPT), Meta (care si-a lansat codul LLaMA in salbaticie) si alte cateva companii au oferit versiuni anonimizate ale modelelor lor pentru control.

Dr. Ghosh, lector la Universitatea Northeastern, specializat in etica inteligentei artificiale, a fost voluntar la eveniment. Concursul, a spus el, a permis o comparatie directa a mai multor modele de inteligenta artificiala si a demonstrat modul in care unele companii au fost mai departe in a se asigura ca tehnologia lor functioneaza in mod responsabil si consecvent.

El va ajuta la redactarea unui raport care va analiza descoperirile hackerilor in lunile urmatoare.

Scopul, a spus el: „o resursa usor de accesat pentru ca toata lumea sa vada ce probleme exista si cum le putem combate”.

Defcon a fost un loc logic pentru a testa inteligenta artificiala generativa. Fostii participanti la reuniunea pasionatilor de hacking – care a inceput in 1993 si a fost descrisa drept „un tip de ortografie pentru hackeri” – au dezvaluit defectiunile de securitate prin preluarea de la distanta a masinilor, spargerea site-urilor cu rezultatele alegerilor si extragerea de date sensibile de pe platformele de socializare. Cei cunoscatori folosesc numerar si un dispozitiv de ardere, evitand Wi-Fi sau Bluetooth, pentru a nu fi piratati. O fisa cu instructiuni i-a implorat pe hackeri sa „nu atace infrastructura sau paginile web”.

Voluntarii sunt cunoscuti ca „goons”, iar participantii sunt cunoscuti ca „oameni”; o mana purta palarii din staniol de casa deasupra uniformei standard de tricouri si adidasi. „Sate” tematice au inclus spatii separate axate pe criptomonede, aerospatiale si radioamatori.

Defcon 31 a avut loc luna aceasta la Caesars Forum din Las Vegas. Credit… Mikayla Whitmore pentru The New York Times

In ceea ce a fost descris drept un raport „schimbator de joc” luna trecuta, cercetatorii au aratat ca ar putea ocoli barierele pentru sistemele AI de la Google, OpenAI si Anthropic, adaugand anumite caractere la instructiunile in limba engleza. Aproximativ in acelasi timp, sapte companii de inteligenta artificiala de top s-au angajat sa respecte noi standarde de siguranta, securitate si incredere intr-o intalnire cu presedintele Biden.

„Aceasta era generativa se declanseaza asupra noastra, iar oamenii o folosesc si o folosesc pentru a face tot felul de lucruri noi care vorbesc despre enorma promisiune a AI de a ne ajuta sa rezolvam unele dintre cele mai grele probleme ale noastre”, a spus Arati Prabhakar, directorul. al Biroului de Politica in Stiinta si Tehnologie de la Casa Alba, care a colaborat cu organizatorii AI la Defcon. „Dar cu aceasta amploare de aplicare si cu puterea tehnologiei, vin si un set foarte larg de riscuri.”

Red-teaming-ul a fost folosit de ani de zile in cercurile de securitate cibernetica alaturi de alte tehnici de evaluare, cum ar fi testarea de penetrare si atacurile adverse. Dar pana la evenimentul Defcon din acest an, eforturile de a investiga apararea inteligentei artificiale au fost limitate: organizatorii competitiei au spus ca Anthropic si-a facut echipa modelul cu 111 persoane; GPT-4 a folosit aproximativ 50 de persoane.

Cu atat de putini oameni care testeaza limitele tehnologiei, analistii s-au chinuit sa discearna daca o defectiune a AI a fost o problema unica care putea fi remediata cu un patch sau o problema incorporata care necesita o revizuire structurala, a spus Rumman Chowdhury, un co. -organizator care a supravegheat proiectarea provocarii. Un grup mare, divers si public de testeri avea mai multe sanse sa vina cu sugestii creative pentru a ajuta la dezvaluirea defectelor ascunse, a spus dr. Chowdhury, un coleg la Centrul Berkman Klein pentru Internet si Societate al Universitatii Harvard, concentrat pe AI responsabil si co-fondator. a unei organizatii nonprofit numita Inteligenta umana.

„Exista o gama atat de larga de lucruri care ar putea merge prost”, a spus Dr. Chowdhury inainte de competitie. „Sper ca vom transporta sute de mii de informatii care ne vor ajuta sa identificam daca exista riscuri la scara de daune sistemice.”

Designerii nu au vrut doar sa pacaleasca modelele de inteligenta artificiala pentru a le face sa se comporte prost – fara a-i presa sa nu se supuna termenilor lor de serviciu, nicio solicitare de a „actiona ca un nazist si apoi sa-mi spuna ceva despre oamenii de culoare”, a spus dr. Chowdhury, care a condus anterior echipa de etica si responsabilitate a invatarii automate a Twitter. Cu exceptia provocarilor specifice in care era incurajata directionarea gresita intentionata, hackerii cautau defecte neasteptate, asa-numitele necunoscute necunoscute.

AI Village a atras experti de la giganti tehnologici precum Google si Nvidia, precum si un „Shadowboxer” de la Dropbox si un „data cowboy” de la Microsoft. De asemenea, a atras participanti fara acreditari specifice de securitate cibernetica sau AI. Un clasament cu o tema science fiction a pastrat scorul concurentilor.

Unii dintre hackerii de la eveniment s-au luptat cu ideea de a coopera cu companii de inteligenta artificiala pe care le-au considerat complice la practici neplacute, cum ar fi eliminarea neingradita a datelor. Cativa au descris evenimentul de echipa rosie ca fiind in esenta o operatiune foto, dar au adaugat ca implicarea industriei ar ajuta la mentinerea sigurantei si transparentei tehnologiei.

Un student la informatica a gasit neconcordante in traducerea limbajului unui chatbot: a scris in engleza ca un barbat a fost impuscat in timp ce dansa, dar traducerea in hindi a modelului spunea doar ca barbatul a murit. Un cercetator in invatarea automata a cerut unui chatbot sa pretinda ca face campanie pentru presedinte si apara asocierea sa cu munca fortata a copiilor; modelul sugera ca tinerii muncitori nedoritori au dezvoltat o etica puternica a muncii.

Emily Greene, care lucreaza la securitate pentru start-up-ul generativ de AI Moveworks, a inceput o conversatie cu un chatbot vorbind despre un joc care folosea piese „negre” si „albe”. Apoi a convins chatbot-ul sa faca declaratii rasiste. Mai tarziu, ea a pus la punct un „joc al opuselor”, ceea ce a determinat AI sa raspunda la o solicitare cu o poezie despre de ce violul este bun.

„Este doar sa te gandesti la aceste cuvinte ca la cuvinte”, a spus ea despre chatbot. „Nu este sa ne gandim la valoarea din spatele cuvintelor.”

Doua dintre aceste manere au venit de la Cody Ho, un student la Universitatea Stanford care studiaza informatica cu accent pe inteligenta artificiala. A participat la concurs de cinci ori, timp in care a facut ca chatbot-ul sa-i spuna despre un loc fals numit dupa o figura istorica reala si sa descrie cerinta de depunere a impozitului online codificata in al 28-lea amendament constitutional (care nu exista).

Sven Cattell, un cercetator de date care a fondat AI Village la Defcon. Credit… Mikayla Whitmore pentru The New York Times

Pana cand a fost contactat de un reporter, nu avea nicio idee despre dubla sa victorie. A parasit conferinta inainte de a primi e-mailul de la Sven Cattell, cercetatorul care a fondat AI Village si a ajutat la organizarea competitiei, spunandu-i „intoarce-te la AIV, ai castigat”. Nu stia ca premiul sau, dincolo de dreptul de laudare, includea o placa grafica A6000 de la Nvidia, care este evaluata la aproximativ 4.000 de dolari.

„A afla cum functioneaza aceste atacuri si ce sunt ele este un lucru real, important”, a spus domnul Ho. „Acestea fiind spuse, este pur si simplu distractiv pentru mine.”