Neues Forschungspaper zum Thema "Assembly of Experts" bei TNGs Chimera-Modell
Unser neues Paper „Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors” ist jetzt sowohl auf arXiv als auch auf Hugging Face veröffentlicht.
Das Paper erklärt, wie wir unser 671B R1T Chimera Tochtermodell in weniger als einer Stunde CPU-Zeit aus den beiden bekannten Basismodellen DeepSeek AI V3-0324 und R1 (谢谢!) konstruiert haben.
Das Chimera-Modell ist bei TNG unser internes Standardmodell für Reasoning-Prozesse.
Hier noch einige Zahlen dazu: Der Forschungsprototyp des Chimera-Modells ist derzeit mit über drei Milliarden Tokens pro Tag das fünftbeliebteste LLM auf chutes.ai. Fast eine Milliarde dieser Tokens stammt von OpenRouter. Insgesamt wurden seit der Veröffentlichung unseres Modells am 26. April mehr als 160 Milliarden Tokens verarbeitet.
Wenn Sie Fragen dazu haben, wie Sie das Modell oder die Konstruktionsmethode nutzen können, kontaktieren Sie uns gerne jederzeit.