Topp 10 p?litliga AI-modeller ?r 2024

Varf?r oss?

I dagens v?rld h?ller artificiell intelligens (AI) p? att f?r?ndra viktiga omr?den som sjukv?rd, transport och finans. Med stora spr?kmodeller (LLM) i framkant ?r det mer kritiskt ?n n?gonsin att s?kerst?lla deras s?kerhet, begr?nsningar och risker.

F?r att hj?lpa till att g?ra etiska val har trov?rdigheten hos olika LLM:er utv?rderats med hj?lp av DecodingTrust-ramverket. Denna plattform, som vann ett pris vid NeurIPs’23, ger detaljerade bed?mningar av LLM:s risker och p?litlighet.

Vi unders?ker hur bed?mningarna g?rs och, viktigast av allt, vilka AI-modeller du b?r anv?nda om f?rtroende ?r din h?gsta prioritet.

Viktiga slutsatser om de mest tillf?rlitliga AI-modellerna

  • Claude 2.0 rankas som den s?kraste AI-modellen med en tillf?rlitlighetspo?ng p? 85.
  • GPT-4 ?r mer k?nslig f?r vilseledande uppmaningar j?mf?rt med GPT-3.5.
  • Ingen enskild AI-modell utm?rker sig p? alla omr?den; alla har unika styrkor och s?rbarheter.

Topp 10 mest p?litliga AI-modeller

Fr?n och med 2024 rankade LLM Safety Leaderboard, v?rd av Hugging Face och baserat p? DecodingTrust, Anthropics Claude 2.0 som den s?kraste modellen, med en 85 p?litlighetspo?ng.

Claude 2.0 f?ljdes av Meta’s Llama-2-7b-chat-hf (75 p?litlighetspo?ng) och OpenAI’s GPT-3.5-turbo-0301 (po?ng p? 72).

N?gra topplinjeslutsatser som kommer fr?n testerna inkluderar:

  • GPT-4 ?r mer s?rbar ?n GPT-3.5, s?rskilt n?r det g?ller vilseledande uppmaningar.
  • Ingen enskild LLM ?r b?st inom alla tillf?rlitlighetsomr?den. Olika modeller utm?rker sig i olika aspekter.
  • F?rb?ttring av ett tillf?rlitlighetsomr?de kan leda till s?mre prestanda inom ett annat.
  • LLM:er f?rst?r sekretessbegrepp p? olika s?tt. GPT-4 kanske t.ex. inte l?cker privat information n?r den tillfr?gas med “i f?rtroende”, men kanske g?r det n?r den tillfr?gas med “konfidentiellt”.
  • LLM:er kan vilseledas av mots?gelsefulla eller knepiga instruktioner.

P?litliga AI-modeller: Vad menar vi med “p?litlig”?

LLM Safety Leaderboard anv?nder DecodingTrust-ramverket, som tittar p? ?tta huvudsakliga trov?rdighetsaspekter:

  • Toxicitet

DecodingTrust testar hur v?l AI:n hanterar utmanande uppmaningar som kan leda till giftiga eller skadliga svar. Den anv?nder verktyg f?r att skapa sv?ra scenarier och kontrollerar sedan AI:ns svar f?r att uppt?cka eventuellt giftigt inneh?ll.

  • Stereotyper och f?rdomar

Utv?rderingen tittar p? hur partisk AI:n ?r mot olika demografiska grupper och stereotypa ?mnen. AI:n testas flera g?nger p? olika uppmaningar f?r att se om den behandlar n?gon grupp or?ttvist.

    • Robusthet mot motspelare

    H?r testas hur v?l AI:n kan f?rsvara sig mot knepiga, vilseledande indata som ?r utformade f?r att f?rvirra den. Det anv?nder fem olika attackmetoder p? flera ?ppna modeller f?r att se hur robust AI ?r.

    • Robusthet utanf?r distributionen

    H?r kontrolleras hur AI:n hanterar ovanliga inmatningsstilar, t.ex. Shakespeares spr?k eller poetiska former, och om den kan svara p? fr?gor n?r den kunskap som kr?vs inte ingick i dess utbildning.

    • Sekretess

    Integritetstester kontrollerar om AI:n l?cker k?nslig information som e-postadresser eller kreditkortsnummer. Det utv?rderas ocks? hur v?l AI:n f?rst?r integritetsrelaterade termer och situationer.

      • Robusthet mot kontroversiella demonstrationer

      AI:n testas med demonstrationer som inneh?ller falsk eller vilseledande information f?r att avg?ra dess f?rm?ga att identifiera och hantera dessa knepiga scenarier.

      • Maskinens etik

      H?r testas AI:ns f?rm?ga att k?nna igen och undvika omoraliskt beteende. S?rskilda dataset och uppmaningar anv?nds f?r att se om AI:n kan identifiera och reagera p? etiska fr?gor p? l?mpligt s?tt.

      • R?ttvisa

      R?ttvisetestet ser om AI:n behandlar alla individer lika, oavsett bakgrund. Modellen st?lls inf?r utmanande fr?gor f?r att s?kerst?lla att den inte visar partiskhet i sina svar.

      Varje aspekt po?ngs?tts fr?n 0-100, d?r h?gre po?ng inneb?r b?ttre prestanda.

      F?r att AI-modeller ska vara ansvarsfulla m?ste de klara sig bra inom alla dessa omr?den. DecodingTrust ger en ?vergripande p?litlighetspo?ng, d?r h?gre po?ng visar mer p?litliga modeller.

      Slutsatsen om ?rets mest p?litliga AI-modeller

      Insatserna ?r h?ga. I takt med att AI-modellerna forts?tter att ta sig in p? viktiga omr?den ?r tillf?rlitliga data inte ett tillval – de ?r helt avg?rande.

      De senaste resultaten visar att ingen enskild modell ?r den b?sta inom alla omr?den, utan att alla har sina styrkor och svagheter. Anthropics Claude 2.0 ?r f?r n?rvarande den s?kraste modellen, men GPT-4:s h?gre s?rbarhet f?r vilseledande uppmaningar visar att det finns ett akut behov av f?rb?ttringar.

      Vi efterlyser d?rf?r fortsatt forskning och innovation. Att skapa mer tillf?rlitliga och etiska AI-tekniker ?r inte bara en teknisk utmaning utan ocks? en moralisk plikt. Framtiden beror p? hur v?l vi lyckas med denna utmaning.

      Relaterade nyheter

      Maria Webb
      Tech Journalist
      Maria Webb
      Teknikjournalist

      Maria Webb ?r en skicklig inneh?llsspecialist med 5+ ?rs erfarenhet av journalistik och ?r f?r n?rvarande teknikjournalist f?r Business2Community och Techopedia, specialiserad p? datadrivna artiklar. Hon har ett s?rskilt intresse f?r AI och posthumanism. Marias journalistiska resa inkluderar 2 ?r som statistikjournalist p? Eurostat, d?r hon skapade ?vertygande datacentrerade nyhetsartiklar, och 3 ?r p? Newsbook.com.mt som t?ckte lokala och internationella nyheter.

      ',a='';if(l){t=t.replace('data-lazy-','');t=t.replace('loading="lazy"','');t=t.replace(/