Om AI innebär lika stor förändring som den industriella revolutionen så underskattar många förändringen vi står inför

Leopold tror att AGI kan uppnås genom att skala upp effektiv beräkningskapacitet cirka 5-6 storleksordningar. Han delar upp detta i tre komponenter:

  1. Faktisk beräkningskapacitet (0,5 storleksordningar per år).
  2. Effektivisering av algoritmer (0,5 storleksordningar per år).
  3. Frigöring/unhobbling (oklart bidrag).

Dessa tre komponenter skulle tillsammans kunna ge en ökning på 5-6 storleksordningar till 2027, varav knappt 2 storleksordningar kommer från ökning av faktisk beräkningskapacitet. Därmed tror Leopold att det kan räcka med ungefär 2 miljoner H100, vilket är Nvidias årsproduktion idag.

Det verkar realistiskt att ett större bolag som Google, Meta eller OpenAI skulle kunna bygga ett kluster med 2 miljoner H100 år 2027. Enligt denna artikel räknar Meta med att ha 350 000 H100 i bruk redan i slutet av året.

1 gillning

Det beror på vad AI-tilägget kan göra. Ifall det kan ersätta anställda, en s.k. “drop-in remote worker” som Leopold kallar det, tror jag många företag skulle vara beredda att betala mycket mer än $100 per månad. Men även om det endast möjliggör en rejäl produktionsökning tror jag det är realistiskt.

Blir AI-tillägget inte mer än dagens ChatGPT eller Copilot är jag dock helt enligt mig dig om att det inte verkar realistiskt.

1 gillning

Problemen med Recall är många.

Kontinuerlig lagring av screenshots med känsliga uppgifter/lösenord kombinerat med antagandet att alltihop kommer förbli säkert krypterat lokalt även i framtiden är ett av dem.

3 gillningar

Jag ser siffrorna, men tycker fortfarande det låter väl optimistiskt. För att Leopold ska få rätt krävs att allt faller ut rätt och inget problem uppstår längs vägen. Och det tycker jag låter orealistiskt, det räcker att något misslyckas så faller inte planen ut.

  • Att någon skulle ha 2 miljoner H100 till 2027 är möjligt, men långt från säkert. Precis som du skrev så förväntas Meta köpa 350 000 H100 under 2023 och 2024. De skulle i så fall behöva köpa mer än 500 tusen per år efter det, vilket är 25% av dagens produktion.
  • Företaget med 2 miljoner H100 behöver dessutom använda alla till träningen av en enskild modell, inte som idag för Meta lanserar en 8B, 70B och 400B. Dessutom går inga till någon annan användning, som inference för nuvarande modeller.
  • Det kräver också att att man når upp till målet med 2,5 storleksordningar i optimering av algoritmerna från 2022 när GPT-4 tränades till 2027. Med tanke på att företagen inte längre delar sin forskning lika öppet som de gjorde innan finns risken att det kan gå långsammare framåt.
  • Det krävs också att första träningen lyckas uppnå resultatet, vilket jag själv ser som optimistiskt. Nu vet vi att GPT-3 inte var väl optimerad, men det var svårt att veta 2019/2020. Hade jag fått gissa så kommer det ta ett par gånger innan man hittar hur man gör det.

Hur som helst, det är skönt med killar som Leopold som får mig att se ut som en AI skeptiker :sweat_smile::upside_down_face:

3 gillningar

Om man går tillbaka lite i tiden, t ex till 1980-talet så kan man hitta vetenskapliga artiklar där man jobbar med transformliknande metoder för att generera ord baserat på en sekvens tidigare ord.

Det som skiljer mot idag är:

  • man lagrade vikterna i beslutsträd istället för nn som idag.
  • man hade klen tillgång till träningsdata.
  • datorerna var klenare.

Men det är ungefär vad som skiljer mot t ex Chat-Gpt idag. Lite grovt iaf.

De på IBM kom över lite datorlagrad text från kanadensiska parlamentet. Och kunde då träna upp sitt program. Så det kunde producera lite tokig politikerprat.
Men deras träningsdata var ju väldigt litet jämfört med vad Chat-Gpt är tränat på.

Och det var ju inte riktigt så att politikerna kunde ersättas med deras program. Även om en del kanske inte skulle märka så stor skillnad.

Så det som hänt sedan 1980-talet, dvs under ca 40 år, är att träningsdata är mycket större. Och datorerna är mycket kraftfullare. Och att NN troligen är ett effektivare lagringsformat än beslutsträd.

Vad kan man tänka sig om 40 år då?

  • Datorerna kommer vara kraftfullare. Och man kommer kunna klara av större datamängder, beräkningsmässigt.

  • Men träningsdata kan troligen inte öka så mycket mer än idag. Inte kvalitativt iaf. Mer kan nog finnas men troligen bara mer av samma sak. Det ger inga bättre Chat-GPT.

  • Vissa smärre arkitekturella förbättringar är troligt. Det kommer fram lite då och då. Framförallt då det här ämnet lockar många och mycket resurser.

Så en aningen bättre Chat-GPT har vi nog om 40 år. Aningen bättre alltså.

1 gillning

En artikel om kostnaden vid användning av LLMs :sunglasses:

Nej, det tror inte jag. Men det är troligen inte alltför svårt att ta det sista steget med att integrera generativt system med hierarkisk planering och logik (det har datorer kunnat rätt länge). Problemet är den energi som går åt till att träna hela systemet. Jag tror att Leopold har fel i tid, men inte så många år fel :nerd_face: Flaskhalsen är el, inte algoritmer gissningsvis. Jag tror inte heller data är en flaskhals, mycket att det systemen inte kan idag kan vi ge syntetiska data för. När systemet är tränat är det däremot väldigt billigt att använda.

1 gillning

Det som är mest skrämmande med all den här ai och robotar osv. Vi är nu inte långt ifrån att detta blir verklighet

Screenshot_20240623-170720_Chrome

Grunden för det är i alla fall gjord för det.

Den begränsade mängden träningsdata är förstås ett hinder för framtida AI-utveckling, men det behöver inte utgöra ett oöverkomligt hinder.

AlphaZero lärde sig spela schack och go på övermänsklig nivå utan något träningsdata alls, bortsett från spelreglerna. Samma teknik borde kunna tillämpas i andra domäner, även om det blir svårare ju öppnare de är. Exempelvis bör ett AI-system kunna lära sig programmering och matematik på övermänsklig nivå genom att förbättra existerande program och resultat. Kanske skulle det även kunna flytta fram forskningsfronten i datavetenskap och matematik.

Det forskas intensivt om användning av så kallad syntetisk träningsdata inom AI, och jag tror att detta kommer visa sig vara en framkomlig väg.

2 gillningar

Nja, AlphaZero tränades först upp med ett stort set befintliga partier. Därefter fick den träna mot sig själv. Fö blev den ungefär lika bra som Stockfish. Som är utvecklat enligt gamla metoder. (Dom har skrivit en artikel om detta).

Att få den att träna mot sig själv på ett framgångsrikt sätt är inte trivialt. Den blir kanske bättre, men i en minoritet av fallen. Det är ett bök att avgöra om Variant A faktiskt kan sägas vara bättre än B. (Nu var dom ju experter på Deepmind så det löste dom på något sätt).

Jag roade mig att räkna ut hur mycket träningskapacitet som dom behövde. Det motsvarade ca 13 års körtid på min ganska så kraftfulla PC. Det är inte så lite träningstid som krävs. Och deras maskinpark var inte liten om man säger så.

Reinforced learning är ganska tidskrävande och icke-trivialt. Man har mycket jobbat med gamla atari-spel från 80-talet. Det går ju så att säga skapa mycket träningsdata ganska enkelt.

Vissa spel är tacknämliga. Det brukar lyftas fram som exempel.
Men så har vi t ex Montezumas revenge och pitfall. Den förra har väl någon kommit lite längre på. Men annars är det så att hur mycken man än tränar på de blir man sämre än en 7-åring.

De som gör lite bättre ifrån sig (finns sådana) har en massa special-mekanismer för just det spelet. Det är ju inte så mycket AI om man säger så.

Sedan gjorde någon go-explore som är lite mer generell:

Men som sagt, detta är för några snorenkla konsolspel från 80-talet.

Grundproblemet ligger i att man i reinforced learning behöver en belöningsfunktion som är en gradient att klättra på. Men i vissa spel är det en massa dalar och kullar. Och då fastnar algoritmerna. I go-explore hattar man lite fram och tillbaka. Därav att man tar sig förbi en del dalar.

1 gillning

Nej, så är det inte. AlphaZero hade inget träningsdata utöver spelreglerna. Det står redan i abstraktet till DeepMinds nu klassiska Science-artikel från 2018:

Starting from random play and given no domain knowledge except the game rules, AlphaZero convincingly defeated a world champion program in the games of chess and shogi (Japanese chess), as well as Go.

När AlphaZero spelade mot Stockfish var den överlägsen, även om partierna oftast slutade oavgjort (se figur 2A i den ovan länkade artikeln). Det var dock vissa diskussioner kring att Stockfishs inställningar inte var optimala. År 2019 möttes de igen i en match på 1000 partier, och då krossade en uppdaterad version av AlphaZero Stockfish. Den vann 155 partier och förlorade endast 6. Resterande 839 partier slutade oavgjort.

2 gillningar

Ok, ja jag ska inte framhärda. Ibland så blandar minnet ihop saker. Vet dock att jag läst det. (Kanske var någon tidigare version).

Kommer ihåg grafen och där konvergerar AlphaZero mot stockfish och tar sig marginellt förbi. Det är vad jag kallar lika bra.

Jag är inte förvånad, då jag vet hur båda är gjorda. Båda kan nog ta dragen i ganska optimal ordning. Stockfish gör det med konventionell teknik och AlphaZero med ett NN.

Evaluering av ställning där AlphaZero använder ett NN, är en ganska svår funktion. Där en marginell förändring i indata kan ge ett våldsamt annorlunda resultat. Ganska olämpligt för ett NN. Men där kan dom ju med mycket träning troligen nå något bättre än Stockfish ordinära metod.

Nä. Det funkar inte så. I spel som schack och go är reglerna ganska simpla, antalet möjliga drag i varje givet spelläge är inte oöverskådligt stort. Det är också förhållandevis lätt att definiera en gradientfunktion, dvs en fingervisning åt AI:n som talar om för den om ett givet drag ledde mot vinst eller mot förlust (i schack kan man t.ex. sätta poäng på pjäserna och säga att det är dåligt att bli av med drottningen, osv). Det är viktigt för att den ska kunna lära sig om ett drag är “bra” eller inte.

Om du ska lära ett neuralt nätverk att programmera så måste du dels först definiera vad ett färdigt program är, dvs du måste i praktiken skriva en testsvit som du vill att programmet ska passera, vilket är en oherrans massa jobb (och alla som programmerat i ett större projekt vet att bara för att man har 100% täckning med testerna så betyder det inte nödvändigtvis att programmet är buggfritt). Det är ju dock bara ett träningsmål för ett enda specifikt program, inte programmering i allmänhet. Sen måste du definiera en gradientfunktion för att nätverket ska kunna veta om det närmar sig lösningen eller ej. Hur gör man ens det, hur ska man kunna ge AI:n en siffra som säger om ett ej körbart halvfärdigt program är bättre eller sämre än ett annat ej körbart halvfärdigt program? Dessa två faktum tagna tillsammans gör det helt orimligt att försöka ta sig an “öppna” problem som t.ex. programmering med en AlphaZero-liknande lösning; i texten ovan har vi inte ens försökt ta oss an problematiken med att lära nätverket att förstå programspecifikationer. Att skriva bra sådana är för övrigt väldigt svårt, ofta svårare än själva programmeringen.

Vad jag vet har det inte heller gjorts några seriösa försök med något sådant, istället håller man på med LLM:er som nöjer sig med att generera kod som ser ut som kod brukar göra men som inte har någon som helst förmåga att förstå den, bedöma om den löser något problem eller ens säga om den går att kompilera eller ej.

Orkade inte läsa mer än två stycken, snacka om en person som är hög på sin egen överträfflighet:

I myself have formal training as a data scientist, going so far as to dominate a competitive machine learning event at one of Australia’s top universities and writing a Master’s thesis where I wrote all my own libraries from scratch in MATLAB. I’m not God’s gift to the field, but I am clearly better than most of my competition

3 gillningar

Testade nyss att skapa en låt om våran tråd här. Jag gillade resultatet, den är bra på att skapa en låt även på svenska :exploding_head:

2 gillningar

Den var ju riktigt kul. Jag gjorde en åt @angaudlinn Fire! där tid nedlagd på text är genretypiskt.

5 gillningar

Man kan ju gissa att de tränat hårt på Nitzer Ebb och Die Krupps iaf. :joy:

2 gillningar

Ja, textskrivaren var ju influerad av Wahre arbeit samt Join in the chant och tryckte på recreate tills det blev rätt.

2 gillningar

Om någon trodde att den juridiska striden om AI var över så fortsätter den. Ska bli spännande och se hur det hela slutar :popcorn:

2 gillningar

Nu har det kommit lite oberoende testning av Cluade 3.5, den är tydligen bäst på programmering. Den ligger dock inte 1ai alla kategorier.

Mer info:
https://x.com/lmsysorg/status/1805329822748655837

1 gillning