Var ser du 1.8%, för övrigt?
Lite oberoende testning har nu kommit in, ser hyfsat ut, men inget stort steg framåt generellt.
Ser ut som bäst i klassen för programmering, och detta är ett benchmark jag föredrar framför SWE bench.
Edit:
En intressant vinkel, Claude 4.5 tycks vara gjord för att bli motorn till en agent ![]()
För tydlighetens skull, jag menar sluta utvecklas exponentiellt, inte sluta utvecklas alls. Jag tänker att AI:ns förmåga kan inte fortsätta utvecklas exponentiellt hur länge som helst så länge dess begränsade resurser (energi och träningsdata) utvecklas närmast linjärt. Man når snabbt ett tak.
Fast kolla gem-exemplet. Det måste inte ta stopp förrän hela universum är gem ![]()
Jag har inte läst hela tråden senaste veckan, så jag svarar på det här utan ytterligare kontext, men jag använder nya modeller ungefär likadant som jag använde chatgpt 4 för 2 år sedan men får (förmodligen) bättre svar. Jag ser inget behov av att “hänga med” direkt.
Om en ny modell ger bättre svar så är det väl bra men det verkar mest slöseri med tid att följa benchmarks, osv. Om något kommer ut som är revolutionerande lär jag få reda på det oavsett tänker jag.
Resonerar jag fel?
Du har helt klart en poäng, för många användare så behöver man inte alltid hänga med, lite som man inte behöver hålla koll på vad som är skillnaden på iPhone 15 och 17.
Men, det finns dock några problem.
- En del nya modeller, likt GPT-5, kräver att man promptar på ett nytt sätt.
- En del saker som inte gick att lösa i gamla modeller går nu att lösa, så man riskerar hamna i ett läge där man tror att något inte går trots att det gör det nu.
- Vissa typer av hallucinationer ändras från modell till modell, så nya problem kan uppstå.
Ett tips som vi pratade om på FikaTillsammans, om du inte ändrat något de senaste 2 åren, är att ha mer med dig in i prompten. För två år sedan var kontextfönstret kort och riktigt dåligt, nu är det långt och mycket bättre. Här är ett exempel på förbättringen sedan 2 år ![]()
vad är syftet med skolan. Man tränar sig på att bli vuxet.,
Tror dock ai verktyg kan göra det lite lättare för barn i framtiden att förstå och guida i jobb med exvis läxor. Tror också ai verktyg kan ge stor hjälp till lärare i planering, dokumentation, mejl och annat tjafs
Vuxenutbildning är dock nåt helt annat. Där kommer nog ai få väldigt stort inslag.
En spännande tråd, lite hype bör man nog varna för ![]()
Intressant tråd, men jäkligt kämpig att ta sig igenom. 1/3 avklarad nu. 2/3,kvar😅 erik dahlen ligger inte på latsidan hehe
Imponerande att du kämpar dig igenom den ![]()
Jag tror inte det är så mycket de nya modellernas textsvar man behöver hänga med på utan hur användningsområderna och förmågorna utvecklats.
- Om du programmerar, har du testat AI-agenter som Claude Code eller OpenAI codex?
- Har du testat Lovable eller v0?
- Har du testat någon live-översättningstjänst likt den Apple släppte för sina Airpods Pro förra veckan?
- Har du provat röstläget på någon av modellerna?
- Har du provat att generera bilder med ”Nano Banana”? (Gemini 2.5 Flash)
Lite spännande läsning om Claude 4.5, tydligen ska den vara bättre på att planera ![]()
![]()
Kan ju gå hur som helst! Beroende på bollens vikt och studsförmåga, rampernas hårdhet, vilken gravitation/planet det är, luftdensitet osv.
Jag undrar om modellerna faller för samma autistiska tankefallgropar som oss människor…
Ett kort inlägg från någon som kan mer matte än mig ![]()
Spännande tider ![]()




