I dagens v?rld h?ller artificiell intelligens (AI) p? att f?r?ndra viktiga omr?den som sjukv?rd, transport och finans. Med stora spr?kmodeller (LLM) i framkant ?r det mer kritiskt ?n n?gonsin att s?kerst?lla deras s?kerhet, begr?nsningar och risker.
F?r att hj?lpa till att g?ra etiska val har trov?rdigheten hos olika LLM:er utv?rderats med hj?lp av DecodingTrust-ramverket. Denna plattform, som vann ett pris vid NeurIPs’23, ger detaljerade bed?mningar av LLM:s risker och p?litlighet.
Vi unders?ker hur bed?mningarna g?rs och, viktigast av allt, vilka AI-modeller du b?r anv?nda om f?rtroende ?r din h?gsta prioritet.
Viktiga slutsatser om de mest tillf?rlitliga AI-modellerna
- Claude 2.0 rankas som den s?kraste AI-modellen med en tillf?rlitlighetspo?ng p? 85.
- GPT-4 ?r mer k?nslig f?r vilseledande uppmaningar j?mf?rt med GPT-3.5.
- Ingen enskild AI-modell utm?rker sig p? alla omr?den; alla har unika styrkor och s?rbarheter.
Topp 10 mest p?litliga AI-modeller
Fr?n och med 2024 rankade LLM Safety Leaderboard, v?rd av Hugging Face och baserat p? DecodingTrust, Anthropics Claude 2.0 som den s?kraste modellen, med en 85 p?litlighetspo?ng.
Claude 2.0 f?ljdes av Meta’s Llama-2-7b-chat-hf (75 p?litlighetspo?ng) och OpenAI’s GPT-3.5-turbo-0301 (po?ng p? 72).
N?gra topplinjeslutsatser som kommer fr?n testerna inkluderar:
- GPT-4 ?r mer s?rbar ?n GPT-3.5, s?rskilt n?r det g?ller vilseledande uppmaningar.
- Ingen enskild LLM ?r b?st inom alla tillf?rlitlighetsomr?den. Olika modeller utm?rker sig i olika aspekter.
- F?rb?ttring av ett tillf?rlitlighetsomr?de kan leda till s?mre prestanda inom ett annat.
- LLM:er f?rst?r sekretessbegrepp p? olika s?tt. GPT-4 kanske t.ex. inte l?cker privat information n?r den tillfr?gas med “i f?rtroende”, men kanske g?r det n?r den tillfr?gas med “konfidentiellt”.
- LLM:er kan vilseledas av mots?gelsefulla eller knepiga instruktioner.
P?litliga AI-modeller: Vad menar vi med “p?litlig”?
LLM Safety Leaderboard anv?nder DecodingTrust-ramverket, som tittar p? ?tta huvudsakliga trov?rdighetsaspekter:
- Toxicitet
DecodingTrust testar hur v?l AI:n hanterar utmanande uppmaningar som kan leda till giftiga eller skadliga svar. Den anv?nder verktyg f?r att skapa sv?ra scenarier och kontrollerar sedan AI:ns svar f?r att uppt?cka eventuellt giftigt inneh?ll.
- Stereotyper och f?rdomar
Utv?rderingen tittar p? hur partisk AI:n ?r mot olika demografiska grupper och stereotypa ?mnen. AI:n testas flera g?nger p? olika uppmaningar f?r att se om den behandlar n?gon grupp or?ttvist.
- Robusthet mot motspelare
H?r testas hur v?l AI:n kan f?rsvara sig mot knepiga, vilseledande indata som ?r utformade f?r att f?rvirra den. Det anv?nder fem olika attackmetoder p? flera ?ppna modeller f?r att se hur robust AI ?r.
- Robusthet utanf?r distributionen
H?r kontrolleras hur AI:n hanterar ovanliga inmatningsstilar, t.ex. Shakespeares spr?k eller poetiska former, och om den kan svara p? fr?gor n?r den kunskap som kr?vs inte ingick i dess utbildning.
- Sekretess
Integritetstester kontrollerar om AI:n l?cker k?nslig information som e-postadresser eller kreditkortsnummer. Det utv?rderas ocks? hur v?l AI:n f?rst?r integritetsrelaterade termer och situationer.
- Robusthet mot kontroversiella demonstrationer
AI:n testas med demonstrationer som inneh?ller falsk eller vilseledande information f?r att avg?ra dess f?rm?ga att identifiera och hantera dessa knepiga scenarier.
- Maskinens etik
H?r testas AI:ns f?rm?ga att k?nna igen och undvika omoraliskt beteende. S?rskilda dataset och uppmaningar anv?nds f?r att se om AI:n kan identifiera och reagera p? etiska fr?gor p? l?mpligt s?tt.
- R?ttvisa
R?ttvisetestet ser om AI:n behandlar alla individer lika, oavsett bakgrund. Modellen st?lls inf?r utmanande fr?gor f?r att s?kerst?lla att den inte visar partiskhet i sina svar.
Varje aspekt po?ngs?tts fr?n 0-100, d?r h?gre po?ng inneb?r b?ttre prestanda.
F?r att AI-modeller ska vara ansvarsfulla m?ste de klara sig bra inom alla dessa omr?den. DecodingTrust ger en ?vergripande p?litlighetspo?ng, d?r h?gre po?ng visar mer p?litliga modeller.
Slutsatsen om ?rets mest p?litliga AI-modeller
Insatserna ?r h?ga. I takt med att AI-modellerna forts?tter att ta sig in p? viktiga omr?den ?r tillf?rlitliga data inte ett tillval – de ?r helt avg?rande.
De senaste resultaten visar att ingen enskild modell ?r den b?sta inom alla omr?den, utan att alla har sina styrkor och svagheter. Anthropics Claude 2.0 ?r f?r n?rvarande den s?kraste modellen, men GPT-4:s h?gre s?rbarhet f?r vilseledande uppmaningar visar att det finns ett akut behov av f?rb?ttringar.
Vi efterlyser d?rf?r fortsatt forskning och innovation. Att skapa mer tillf?rlitliga och etiska AI-tekniker ?r inte bara en teknisk utmaning utan ocks? en moralisk plikt. Framtiden beror p? hur v?l vi lyckas med denna utmaning.