ARC-AGI-3 soll agentische KI unter offenen Mehrschritt-Aufgaben prüfen

Ein am 24. März veröffentlichter Benchmark testet agentische KI in turn-basierten Umgebungen statt mit kurzen Einzelantworten. Laut der Arbeit lösen Menschen alle Aufgaben, während Frontier-Modelle unter 1 Prozent bleiben.

30. März 2026 · 07:03Quelle: arXiv / ARC Prize Foundation

ARC-AGI-3 ist ein neuer Benchmark für agentische KI, der am 24. März veröffentlicht wurde. Im Mittelpunkt stehen offene, mehrstufige Aufgaben in turn-basierten Umgebungen.

Die Arbeit zielt damit auf einen anderen Testtyp als klassische Kurzprompt-Benchmarks. Gemessen werden soll, wie gut Systeme Probleme über mehrere Schritte hinweg ausführen und an veränderte Zustände anpassen.

Nach Angaben der Autoren lösen Menschen 100 Prozent der Aufgaben. Frontier-KI-Systeme bleiben demnach unter 1 Prozent.

Die Veröffentlichung setzt damit einen neuen Referenzpunkt für die Bewertung agentischer Systeme. Der Fokus verschiebt sich von punktueller Demo-Leistung auf robuste mehrstufige Problemlösung unter realistischeren Bedingungen.

Erwähnt

ARC Prize Foundation

BenchmarkGlobal

OpenAI zieht Empfehlung für Coding-Benchmark SWE-Bench Pro zurück

Ein internes Audit von OpenAI stuft rund 30 Prozent der öffentlichen Aufgaben als fehlerhaft ein. Damit verliert der Benchmark seine Aussagekraft als Messlatte für die Leistungsfähigkeit von KI-Coding-Modellen.

10. JuliOpenAI: r/accelerate

RobotikGlobal

Google DeepMind stellt Gemini Robotics 2 für Roboter vor

Die neue Modellfamilie soll Ganzkörpersteuerung, feinere Greifbewegungen und mehrstufige Aufgabenplanung ermöglichen. Teile der Systeme sind zunächst für Early Access vorgesehen.

01. Aug.Axios

ProduktGlobal

Google zieht KI-Bildfunktion in Google Earth nach einem Tag zurück

Google hat eine am 30. Juli gestartete Funktion zur Bildgenerierung in Google Earth bereits am Folgetag deaktiviert. Auslöser waren offenbar geteilte Screenshots, die gegen Richtlinien verstießen.

01. Aug.Google

GeschäFtGlobal

Microsoft meldet erstmals mehr als 100 Milliarden Dollar Azure-Jahresumsatz

Microsoft steigerte den Quartalsumsatz um 18 Prozent auf 90,0 Milliarden Dollar. Azure wuchs um 43 Prozent, während Microsoft 365 Copilot mehr als 30 Millionen zahlende Sitze erreichte.

31. JuliMicrosoft Investor Relations

Zurück zur Übersicht

ARC-AGI-3 soll agentische KI unter offenen Mehrschritt-Aufgaben prüfen

Erwähnt

OpenAI zieht Empfehlung für Coding-Benchmark SWE-Bench Pro zurück

Google DeepMind stellt Gemini Robotics 2 für Roboter vor

Google zieht KI-Bildfunktion in Google Earth nach einem Tag zurück

Microsoft meldet erstmals mehr als 100 Milliarden Dollar Azure-Jahresumsatz

Amazon: AWS wächst um 37 Prozent, KI-Geschäft erreicht 25 Milliarden Dollar Jahresrate

Anthropic legt drei Sicherheitsvorfälle bei KI-Tests offen

Meta erhöht Investitionsprognose für 2026 auf bis zu 145 Milliarden Dollar

Anthropic lehnt pauschales Verbot offener KI Modelle ab

Microsoft baut eigene KI-Modelle als Gegengewicht zu OpenAI und Anthropic

Recursive vereinbart Cloud-Zusammenarbeit über 410 Millionen Dollar mit AWS

ARC-AGI-3 soll agentische KI unter offenen Mehrschritt-Aufgaben prüfen

Erwähnt

Kommentare (0)

OpenAI zieht Empfehlung für Coding-Benchmark SWE-Bench Pro zurück

Google DeepMind stellt Gemini Robotics 2 für Roboter vor

Google zieht KI-Bildfunktion in Google Earth nach einem Tag zurück

Microsoft meldet erstmals mehr als 100 Milliarden Dollar Azure-Jahresumsatz

Amazon: AWS wächst um 37 Prozent, KI-Geschäft erreicht 25 Milliarden Dollar Jahresrate

Anthropic legt drei Sicherheitsvorfälle bei KI-Tests offen

Meta erhöht Investitionsprognose für 2026 auf bis zu 145 Milliarden Dollar

Anthropic lehnt pauschales Verbot offener KI Modelle ab

Microsoft baut eigene KI-Modelle als Gegengewicht zu OpenAI und Anthropic

Recursive vereinbart Cloud-Zusammenarbeit über 410 Millionen Dollar mit AWS

Kommentare (0)

ARC-AGI-3 soll agentische KI unter offenen Mehrschritt-Aufgaben prüfen

Erwähnt

Das könnte dich auch interessieren

OpenAI zieht Empfehlung für Coding-Benchmark SWE-Bench Pro zurück

Google DeepMind stellt Gemini Robotics 2 für Roboter vor

Google zieht KI-Bildfunktion in Google Earth nach einem Tag zurück

Microsoft meldet erstmals mehr als 100 Milliarden Dollar Azure-Jahresumsatz

Amazon: AWS wächst um 37 Prozent, KI-Geschäft erreicht 25 Milliarden Dollar Jahresrate

Anthropic legt drei Sicherheitsvorfälle bei KI-Tests offen

Meta erhöht Investitionsprognose für 2026 auf bis zu 145 Milliarden Dollar

Anthropic lehnt pauschales Verbot offener KI Modelle ab

Microsoft baut eigene KI-Modelle als Gegengewicht zu OpenAI und Anthropic

Recursive vereinbart Cloud-Zusammenarbeit über 410 Millionen Dollar mit AWS

ARC-AGI-3 soll agentische KI unter offenen Mehrschritt-Aufgaben prüfen

Erwähnt

Kommentare (0)

Das könnte dich auch interessieren

OpenAI zieht Empfehlung für Coding-Benchmark SWE-Bench Pro zurück

Google DeepMind stellt Gemini Robotics 2 für Roboter vor

Google zieht KI-Bildfunktion in Google Earth nach einem Tag zurück

Microsoft meldet erstmals mehr als 100 Milliarden Dollar Azure-Jahresumsatz

Amazon: AWS wächst um 37 Prozent, KI-Geschäft erreicht 25 Milliarden Dollar Jahresrate

Anthropic legt drei Sicherheitsvorfälle bei KI-Tests offen

Meta erhöht Investitionsprognose für 2026 auf bis zu 145 Milliarden Dollar

Anthropic lehnt pauschales Verbot offener KI Modelle ab

Microsoft baut eigene KI-Modelle als Gegengewicht zu OpenAI und Anthropic

Recursive vereinbart Cloud-Zusammenarbeit über 410 Millionen Dollar mit AWS

Kommentare (0)