hvor får AI information fra

Hvor får AI sine oplysninger fra?

Har du nogensinde siddet og kløet dig i hovedet og spekuleret på ... hvor kommer det her egentlig fra ? Jeg mener, kunstig intelligens roder ikke gennem støvede biblioteksstabler eller ser YouTube-shorts i smug. Alligevel finder den på en eller anden måde svar på alt - fra lasagne-tricks til sorte hullers fysik - som om den har et bundløst arkivskab indeni. Virkeligheden er mere mærkelig og måske mere spændende, end man skulle tro. Lad os pakke det lidt ud (og ja, måske aflive et par myter undervejs).


Er det trolddom? 🌐

Det er ikke trolddom, selvom det nogle gange føles sådan. Det, der sker under motorhjelmen, er dybest set mønsterforudsigelse . Store sprogmodeller (LLM'er) lagrer ikke fakta på samme måde, som din hjerne holder fast i din bedstemors småkageopskrift; i stedet er de trænet til at gætte det næste ord (token) baseret på det, der kom før [2]. I praksis betyder det, at de hænger fast i relationer: hvilke ord hænger sammen, hvordan sætninger normalt tager form, hvordan hele ideer bygges op som stilladser. Det er derfor, outputtet lyder rigtigt, selvom det - fuld ærlighed - er statistisk efterligning, ikke forståelse [4].

Så hvad gør egentlig AI-genereret information nyttig ? En håndfuld ting:

  • Datadiversitet - at hente data fra utallige kilder, ikke én smal strøm.

  • Opdateringer - uden opdateringscyklusser bliver det hurtigt forældet.

  • Filtrering - ideelt set at fange skrammel, før det siver ind (selvom, lad os være ærlige, det net har huller).

  • Krydstjek - at læne sig op ad autoritetskilder (tænk på NASA, WHO, større universiteter), hvilket er et must-have i de fleste håndbøger om AI-styring [3].

Alligevel opdigter det sig nogle gange – selvsikkert. De såkaldte hallucinationer ? Dybest set poleret vrøvl leveret med et sejt ansigt [2][3].

Artikler du måske har lyst til at læse efter denne:

🔗 Kan AI forudsige lotterital
Udforskning af myter og fakta om AI-lotteriforudsigelser.

🔗 Hvad vil det sige at have en holistisk tilgang til AI
Forståelse af AI med afbalancerede perspektiver på etik og effekt.

🔗 Hvad siger Bibelen om kunstig intelligens
En undersøgelse af bibelske perspektiver på teknologi og menneskets skabelse.


Hurtig sammenligning: Hvor AI trækker fra 📊

Ikke alle kilder er lige, men hver spiller sin rolle. Her er et øjebliksbillede.

Kildetype Hvem bruger det (AI) Omkostninger/værdi Hvorfor det virker (eller ikke virker...)
Bøger og artikler Store sprogmodeller Uvurderlig (nok) Tæt, struktureret viden - ældes bare hurtigt.
Hjemmesider og blogs Stort set alle AI'er Gratis (med støj) Vild variation; en blanding af genialitet og absolut elendighed.
Akademiske artikler Forskningstunge AI'er Nogle gange betalingsmure Strenge + troværdighed, men formuleret i tung jargon.
Brugerdata Personlige AI'er Meget følsom ⚠️ Skarp skrædderkunst, men masser af privatlivsproblemer.
Realtidsweb Søgeforbundne AI'er Gratis (hvis online) Holder informationen opdateret; ulempen er risikoen for rygteforstærkning.

Træningsdatauniverset 🌌

Dette er "barndommens læringsfase". Forestil dig at give et barn millioner af historiebøger, nyhedsudklip og Wikipedia-kaninhuller på én gang. Sådan ser prætræning ud. I den virkelige verden blander udbydere offentligt tilgængelige data, licenserede kilder og trænergenereret tekst [2].

Lagdelt ovenpå: udvalgte menneskelige eksempler - gode svar, dårlige svar, skub i den rigtige retning - før forstærkningen overhovedet starter [1].

Advarsel om gennemsigtighed: Virksomheder afslører ikke alle detaljer. Nogle sikkerhedsforanstaltninger er hemmeligholdelse (IP, sikkerhedsproblemer), så du får kun et delvist indblik i den faktiske sammenhæng [2].


Søgning i realtid: Den ekstra topping 🍒

Nogle modeller kan nu kigge uden for deres træningsboble. Det er retrieval-augmented generation (RAG) - dybest set trækker man dele fra et liveindeks eller dokumentlager og væver dem derefter ind i svaret [5]. Perfekt til hurtigt skiftende ting som nyhedsoverskrifter eller aktiekurser.

Problemet? Internettet er lige dele genialitet og røgelse. Hvis filtre eller provenienskontroller er svage, risikerer du, at junkdata sniger sig ind igen – præcis hvad risikorammer advarer om [3].

En almindelig løsning: virksomheder kobler modeller til deres egne interne databaser, så svarene citerer en aktuel HR-politik eller et opdateret produktdokument i stedet for at lade være. Tænk: færre "uh-oh"-øjeblikke, mere troværdige svar.


Finjustering: AI's poleringstrin 🧪

Rå, prætrænede modeller er klodsede. Så de finjusteres :

  • At lære dem at være hjælpsomme, harmløse og ærlige (via forstærkende læring fra menneskelig feedback, RLHF) [1].

  • Slibning af usikre eller giftige kanter (justering) [1].

  • Justering af tone - om den er venlig, formel eller legende sarkastisk.

Det handler ikke så meget om at slibe en diamant, som om at tvinge en statistisk lavine til at opføre sig mere som en samtalepartner.


Bumpene og fiaskoerne 🚧

Lad os ikke lade som om, det er fejlfrit:

  • Hallucinationer - skarpe svar, der er direkte forkerte [2][3].

  • Bias - den afspejler mønstre, der er indbygget i dataene; kan endda forstærke dem, hvis den ikke kontrolleres [3][4].

  • Ingen førstehåndserfaring - den kan tale om suppeopskrifter, men har aldrig smagt en [4].

  • Overdreven selvtillid - prosaen flyder, som om den ved det, selv når den ikke gør. Risikorammer understreger antagelser, der er usikker [3].


Hvorfor det føles som at vide 🧠

Den har ingen overbevisninger, ingen hukommelse i menneskelig forstand og bestemt intet selv. Men fordi den sætter sætninger sammen i en gnidningsløs kæde, læser din hjerne det, som om den forstår . Det, der sker, er blot en massiv, næste-token-forudsigelse : knusning af billioner af sandsynligheder på splitsekunder [2].

"Intelligens"-vibrationen er emergent adfærd – forskere kalder det, lidt ironisk, den "stokastiske papegøje" -effekt [4].


Børnevenlig analogi 🎨

Forestil dig en papegøje, der har læst alle bøgerne på biblioteket. Den forstår historierne, men kan mikse ordene sammen til noget, der føles klogt. Nogle gange er det spot-on; nogle gange er det nonsens - men med nok flair kan man ikke altid se forskel.


Opsummering: Hvor AI's information kommer fra 📌

I enkle vendinger:

  • Massive træningsdata (offentlige + licenserede + trænergenererede) [2].

  • Finjustering med menneskelig feedback for at forme tone/adfærd [1].

  • Hentningssystemer , når de er tilsluttet live datastrømme [5].

AI "ved" ikke ting - den forudsiger tekst . Det er både dens superkraft og dens akilleshæl. Konklusionen? Sammenlign altid vigtige ting med en pålidelig kilde [3].


Referencer

  1. Ouyang, L. et al. (2022). Træning af sprogmodeller til at følge instruktioner med menneskelig feedback (InstructGPT) . arXiv .

  2. OpenAI (2023). GPT-4 Teknisk Rapport - blanding af licenserede, offentlige og menneskeskabte data; mål og begrænsninger for forudsigelser af næste token. arXiv .

  3. NIST (2023). AI Risk Management Framework (AI RMF 1.0) - oprindelse, troværdighed og risikostyring. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Om farerne ved stokastiske papegøjer: Kan sprogmodeller være for store? PDF .

  5. Lewis, P. et al. (2020). Retrieval-Augmented Generation til vidensintensiv NLP . arXiv .


Find den nyeste AI i den officielle AI-assistentbutik

Om os

Tilbage til bloggen