Om AI innebär lika stor förändring som den industriella revolutionen så underskattar många förändringen vi står inför

Intressant och svindlande.

Vad tror du detta gör med mänsklighetens allmänna intelligens när vi får allt mer hjälp?

En cool artikel, iaf att någon försöker undersöka om dessa modeller kan lösa nya problem :smiling_face_with_sunglasses:

Ett nytt benchmark :smiling_face_with_sunglasses:

https://openai.com/index/gdpval/

Tydligen är Claude 4.1 bäst :flexed_biceps:

Edit:

Någon har redan sammanfattat det viktiga, 14 min, :smiling_face_with_sunglasses:

2 gillningar

Dagens experiment, har hittat ett sätt som ingen modell klarar av att räkna saker i bilder :sweat_smile:

Detta är exempelet:

Har testat liknade bilder, men en bit kvar där.

1 gillning

Om någon undrade vad jag menade med att vi sakta men säkert kommer övergå till en AI civilisation, så har jag några exempel på hur framtiden skulle kunna bli.

  • GPT-6 Pro föreslår ett experiment.
  • GPT-6 Codex sammanställer datan, räknar ut felmarginalen och skapar graferna.
  • GPT-6 main skriver en vetenskaplig artikel från det.

Är detta mänsklig forskning eller AI forskning?

  • Gemini 4 sammanfattar 100 av de artiklar ovan.
  • Claude 5 skriver en rad mainstream nyhetsartiklar om rapporten.
  • Grok 6 skapar memes, kommentarer och AI-influensers kring dessa nyhetsartiklar.
  • En vanlig algoritm för rekommendationer sprider det Grok 6 nyss skapade.

Är det då människor eller AI som kontrollerar informationsflödet?

  • En agent byggd på GPT-11 beslutar att bygga en ny gruva.
  • Robotar och självkörande grävskopor åker dit och börjar bryta mineral.
  • Dessa råvaror säljs på marknaden.
  • Mer än 50% av dessa råvaror köps av företag som bygger robotar, grafikkort och solceller.

Är detta en gruva för människor eller AI?

  • Grok 42 beslutar att SpaceX ska bygga ett datacenter i rymden.
  • Tesla Optimus 37 åker upp och genomför bygget.

Är detta starten på en Dysonsvärm för människor eller AI?

Idag kanske det känns en bit bort, men under de kommande åren och decennierna så kommer vi nog få se liknande saker bli verklighet :face_with_peeking_eye:

3 gillningar

Jag påminns osökt om den där roboten det postades om för några år sedan som dödar mördarsniglar. Den inte bara jagar och dödar sniglarna, den äter dem dessutom för att kemiskt skapa energi så att den kan jaga fler sniglar :sweat_smile:

Eller klassiska gem-exemplet där en AI med dåliga instruktioner använder alla resurser i universum för att skapa gem.

3 gillningar

DeepMind är i farten igen :robot:

1 gillning

Lite läsning för den som vill tro att AI inte befinner sig i en teknisk bubbla :train:

Intressant påstående om beräkningskraften använd vid träningen av GPT-5 :thinking:

8 gillningar

De har uppdaterat detta benchmark med en ny version:

Jag tyckte den graf var spännande :smiling_face_with_sunglasses:

Åtminstone någon chef som tror på AI :popcorn:

Skönt att utvecklingen saknar ner :upside_down_face:

Ska bli spännande och se hur bra den är i verkligheten :smiling_face_with_sunglasses:

Länk:

Edit:

En video från någon som testat den, 15 min. Låter ju lovande :smiling_face_with_sunglasses:

1 gillning

Har du något mått du använder? Antar att du är ironisk, men 1,8 % på ett artificiellt test på 4 månader är väl knappast tecken på någon exponentiell utveckling heller?

Samma lika, upplever jag efter några tester.

1 gillning

Kontinuerlig procentuell utveckling är lite av definitionen av exponentiell utveckling :sweat_smile:

2 gillningar

Att det inte betydelsen av den emojin?

Att det kommer ut någon ny SOTA modell varje månad gör det inte direkt enkelt att hänga med, främst det jag syftade på. Man hinner precis lära sig hur man ska använda en modell innan nästa kommer.

Hade det varit konstant 1,8% var 4e månad då vore det nog det, eller?

Dock skulle jag påstå att utvecklingen kan ses reaktivt fort även om procenten går lite upp och ner över tid, för så länge vi minst en gång per år ser en modell som är x% bättre än den bästa från förra året, då befinner vi oss i en tydlig trend.

Argumenten verkar vara:

  1. Människor har svårt att förstå exponentiella trender.
  2. Graferna över resultaten på olika benchmarks ser fortfarande exponentiella ut (förutom en som såg ut att plana ut).
  3. Eftersom vi sett en exponentiell utveckling så här långt så skulle det vara osannolikt att den inte fortsätter.

Citat:

Given consistent trends of exponential performance improvements over many years and across many industries, it would be extremely surprising if these improvements suddenly stopped.

Varför? Den måste sluta någon gång, många nya tekniker har en exponentiell utveckling i början tills man når ett tak för vad tekniken kan leverera. Jag skulle hellre vilja se en diskussion kring vad som kan driva fortsatt utveckling, inte bara dra trendlinjer på grafer…

3 gillningar

Bra fråga. Här är mitt svar, om vi tittar på den grafen han tycks prata mest om.

Det tycks som längden AI modeller klarar av att jobba på en uppgift dubblar var 7e månad. Denna trend kan rimligen fortsätta i ett antal år till, eftersom:

  • Tiden är fortfarande relativt kort, minuter eller timmar, beroende på vilken typ av uppgift och vilken kvalitet du vill ha.
  • Eftersom tiden är kort kommer det gå relativt enkelt att skapa riktigt mycket data att träna på, både från människor och syntetisk.
  • Eftersom detta är ett krav för att AI agenter ska bli något, så satsar många AI företag på detta.
  • Blir det inget med AI agenter så kommer vi få en AI bubbla snart, då investeringarna inte rättfärdigas enbart med chat-botar.

Troligen kommer trenden att plana ut kring 2030 när vi når månader/år i längd, för det kommer bli svårt att skapa data för den typen av uppgifter/projekt.

1 gillning

Varför?

1 gillning

Jo, det var därför jag antog att du var ironisk… så det fungerade :+1:

Aha, jag trodde faktiskt du menade att utvecklingen accelererar. Därav min fråga.

Ber om ursäkt, jag glömmer ibland att det hänger många ingenjörer på forumet :grin: Ni har givetvis matematiskt korrekt. Men jag syftade (förvånansvärt nog!) inte på en exponentiell funktion, utan på att trenden är praktiskt taget linjär. Förhoppningsvis framgår min poäng.

Jag kan inte SWE Bench i detalj men min upplevelse är att den inte verkar korrelera speciellt bra med verklighetsnära problem. Till exempel är ju antalet tokens i modellens context window helt avgörande för att lösa problem, imo - det borde ge en skarp skiljelinje i resultaten. Så för mig är alltså den övergripande faktiska utvecklingen och enskilda benchmark scores rätt svagt korrelerade.

1 gillning