Intressant och svindlande.
Vad tror du detta gör med mänsklighetens allmänna intelligens när vi får allt mer hjälp?
Intressant och svindlande.
Vad tror du detta gör med mänsklighetens allmänna intelligens när vi får allt mer hjälp?
En cool artikel, iaf att någon försöker undersöka om dessa modeller kan lösa nya problem ![]()
Ett nytt benchmark ![]()
https://openai.com/index/gdpval/
Tydligen är Claude 4.1 bäst ![]()
Edit:
Någon har redan sammanfattat det viktiga, 14 min, ![]()
Dagens experiment, har hittat ett sätt som ingen modell klarar av att räkna saker i bilder ![]()
Detta är exempelet:
Har testat liknade bilder, men en bit kvar där.
Om någon undrade vad jag menade med att vi sakta men säkert kommer övergå till en AI civilisation, så har jag några exempel på hur framtiden skulle kunna bli.
Är detta mänsklig forskning eller AI forskning?
Är det då människor eller AI som kontrollerar informationsflödet?
Är detta en gruva för människor eller AI?
Är detta starten på en Dysonsvärm för människor eller AI?
Idag kanske det känns en bit bort, men under de kommande åren och decennierna så kommer vi nog få se liknande saker bli verklighet ![]()
Jag påminns osökt om den där roboten det postades om för några år sedan som dödar mördarsniglar. Den inte bara jagar och dödar sniglarna, den äter dem dessutom för att kemiskt skapa energi så att den kan jaga fler sniglar ![]()
Eller klassiska gem-exemplet där en AI med dåliga instruktioner använder alla resurser i universum för att skapa gem.
DeepMind är i farten igen ![]()
Lite läsning för den som vill tro att AI inte befinner sig i en teknisk bubbla ![]()
Intressant påstående om beräkningskraften använd vid träningen av GPT-5 ![]()
Åtminstone någon chef som tror på AI ![]()
Skönt att utvecklingen saknar ner ![]()
Ska bli spännande och se hur bra den är i verkligheten ![]()
Länk:
Edit:
En video från någon som testat den, 15 min. Låter ju lovande ![]()
Har du något mått du använder? Antar att du är ironisk, men 1,8 % på ett artificiellt test på 4 månader är väl knappast tecken på någon exponentiell utveckling heller?
Samma lika, upplever jag efter några tester.
Kontinuerlig procentuell utveckling är lite av definitionen av exponentiell utveckling ![]()
Att det inte betydelsen av den emojin?
Att det kommer ut någon ny SOTA modell varje månad gör det inte direkt enkelt att hänga med, främst det jag syftade på. Man hinner precis lära sig hur man ska använda en modell innan nästa kommer.
Hade det varit konstant 1,8% var 4e månad då vore det nog det, eller?
Dock skulle jag påstå att utvecklingen kan ses reaktivt fort även om procenten går lite upp och ner över tid, för så länge vi minst en gång per år ser en modell som är x% bättre än den bästa från förra året, då befinner vi oss i en tydlig trend.
Argumenten verkar vara:
Citat:
Given consistent trends of exponential performance improvements over many years and across many industries, it would be extremely surprising if these improvements suddenly stopped.
Varför? Den måste sluta någon gång, många nya tekniker har en exponentiell utveckling i början tills man når ett tak för vad tekniken kan leverera. Jag skulle hellre vilja se en diskussion kring vad som kan driva fortsatt utveckling, inte bara dra trendlinjer på grafer…
Bra fråga. Här är mitt svar, om vi tittar på den grafen han tycks prata mest om.
Det tycks som längden AI modeller klarar av att jobba på en uppgift dubblar var 7e månad. Denna trend kan rimligen fortsätta i ett antal år till, eftersom:
Troligen kommer trenden att plana ut kring 2030 när vi når månader/år i längd, för det kommer bli svårt att skapa data för den typen av uppgifter/projekt.
Varför?
Jo, det var därför jag antog att du var ironisk… så det fungerade ![]()
Aha, jag trodde faktiskt du menade att utvecklingen accelererar. Därav min fråga.
Ber om ursäkt, jag glömmer ibland att det hänger många ingenjörer på forumet
Ni har givetvis matematiskt korrekt. Men jag syftade (förvånansvärt nog!) inte på en exponentiell funktion, utan på att trenden är praktiskt taget linjär. Förhoppningsvis framgår min poäng.
Jag kan inte SWE Bench i detalj men min upplevelse är att den inte verkar korrelera speciellt bra med verklighetsnära problem. Till exempel är ju antalet tokens i modellens context window helt avgörande för att lösa problem, imo - det borde ge en skarp skiljelinje i resultaten. Så för mig är alltså den övergripande faktiska utvecklingen och enskilda benchmark scores rätt svagt korrelerade.