toad.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
Mastodon server operated by David Troy, a tech pioneer and investigative journalist addressing threats to democracy. Thoughtful participation and discussion welcome.

Administered by:

Server stats:

274
active users

#colossus

3 posts3 participants0 posts today
Linux-Magazin · Musks xAI hat bislang größten KI-Supercomputer aller Zeiten gebautElon Musks KI-Firma xAI baute zusammen mit Supermicro und NVIDIA den größten wassergekühlten GPU-Cluster der Welt. Der Rechner mit dem bezeichnenden Namen Colossus verfügt über 100 000 NVIDIA HGX H100 GPUs, Exabytes Storagekapazität und ein schnelles Netzwerk. Das alles wird eingesetzt um die xAI’s generative KI Grok zu trainieren. Der mehrere Milliarden Dollar teure Rechner wurde in Memphis, Tennessee, in nur 122 Tagen in vier leeren Hallen aufgebaut, die nur Anschlüsse für Strom und Kühlwasser bereits enthielten. In jeder Halle sind 25000 NVIDIA GPUs verbaut, die in speziellen wassergekühlten Racks stecken. Jedes Rack verfügt über 8 Supermicro 4U Universal GPU-Systeme, die wassergekühlte NVIDIA HGX H100 GPUs und zwei wassergekühlte x86 CPUs enthalten. Außerdem beinhaltet jedes Rack noch 64 NVIDIA Hopper GPUs. Die xAI Colossus Data Center Supermicro 4U Universal GPU Liquid-Cooled Server sind die dichtesten und fortschrittlichsten KI-Server auf dem Markt. Sie verfügen über ein ausgeklügeltes Flüssigkühlsystem und können gewartet werden, ohne dass die Systeme aus dem Rack entfernt werden müssen. Im Gegensatz zu anderen KI-Servern, die ein luftgekühltes Design nachträglich mit einer Flüssigkeitskühlung nachrüsten, sind die Server von Supermicro von Grund auf für eine Flüssigkeitskühlung mit einem kundenspezifischen Flüssigkeitskühlblock konzipiert. Diese Art von kompakter Leistung, Zugänglichkeit und Wartungsfreundlichkeit machen diese Systeme außerordentlich gut skalierbar. Die gigantischen Netzwerke des Rechenzentrums werden auf der NVIDIA-Spektrum-X-Ethernet-Netzwerkplattform ausgeführt, die eine schnelle und zuverlässige Datenübertragung bietet und für die hohen Anforderungen von KI-Workloads ausgelegt ist. Jeder Cluster verwendet NVIDIA Bluefield-3 SuperNICs, die 400 Gigabit pro Sekunde Netzwerkleistung bieten. Neun Verbindungen pro System bieten eine Bandbreite von 3,6 TBit/s pro GPU-Compute-Server. Das RDMA-Netzwerk (Remote Direct Memory Access) für die GPUs macht den Großteil dieser Bandbreite aus. Jede GPU ist mit einer eigenen NVIDIA BlueField-3 SuperNIC und Spectrum-X Netzwerktechnologie ausgestattet. Neben dem GPU-RDMA-Netzwerk erhalten auch die CPUs eine 400-GbE-Verbindung, die eine völlig andere Switch-Fabric verwendet. Der NVIDIA Spectrum SN5600, ein 800-Gb-Ethernet-Switch mit 64 Ports, kann 128 400-Gigabit-Ethernet-Links aufteilen und betreiben.
Continued thread

It wasn’t supposed to be a big deal, just a ho-hum announcement of something not happening. Instead the greatest salesperson of the era, whose customer obsession had made #Amazon into a #colossus…, got the greatest customer #rejection of a lifetime.

A ¼M #WashingtonPost readers canceled their subscriptions….That is ~10% of the total circulation. The speed & decisive force of the cancellations was a bit of a shock but also appropriate, said Danny Caine, author of “How to Resist Amazon & Why.”