Zurück zur Übersicht
Ein am 24. März veröffentlichter Benchmark testet agentische KI in turn-basierten Umgebungen statt mit kurzen Einzelantworten. Laut der Arbeit lösen Menschen alle Aufgaben, während Frontier-Modelle unter 1 Prozent bleiben.
ARC-AGI-3 ist ein neuer Benchmark für agentische KI, der am 24. März veröffentlicht wurde. Im Mittelpunkt stehen offene, mehrstufige Aufgaben in turn-basierten Umgebungen.
Die Arbeit zielt damit auf einen anderen Testtyp als klassische Kurzprompt-Benchmarks. Gemessen werden soll, wie gut Systeme Probleme über mehrere Schritte hinweg ausführen und an veränderte Zustände anpassen.
Nach Angaben der Autoren lösen Menschen 100 Prozent der Aufgaben. Frontier-KI-Systeme bleiben demnach unter 1 Prozent.
Die Veröffentlichung setzt damit einen neuen Referenzpunkt für die Bewertung agentischer Systeme. Der Fokus verschiebt sich von punktueller Demo-Leistung auf robuste mehrstufige Problemlösung unter realistischeren Bedingungen.
Weiterlesen
Interne, laut Quartz veröffentlichte Finanzunterlagen zeigen für 2025 einen Umsatz von rund 13,07 Milliarden US-Dollar bei deutlich höheren Aufwendungen. Der ausgewiesene Nettoverlust beträgt etwa 38,5 Milliarden Dollar und enthält einmalige Fair-Value-Anpassungen im Zuge einer Umwandlung.
Der CRM-Konzern stärkt damit seine „agentic KI“-Strategie und integriert eine Plattform für autonome Service‑Agenten. Die Übernahme beschleunigt die Konsolidierung im Markt für KI-gestützte Kundenbetreuung.
Sensor Tower-Daten, zitiert von TechCrunch, zeigen für Ende Mai einen Anteil von 46,4 Prozent an der weltweiten Nutzung von KI‑Assistenten. Damit fragmentiert der Markt: Googles Gemini und Anthropic Claude gewinnen Nutzer, während das Generative‑KI‑App‑Segment höhere Einnahmen verzeichnet.
OpenAI kündigt ein globales Partnerprogramm an, das Berater, Systemintegratoren und Technologiepartner zertifizieren und fördern soll. Ziel ist, Unternehmen beim tatsächlichen Rollout von KI‑Lösungen zu unterstützen, nicht nur Modelle bereitzustellen.
Die Erweiterung der Falcon-Plattform weist KI-Agenten kryptographisch verifizierbare Identitäten nach dem SPIFFE-Standard zu, steuert Zugriffe in Echtzeit und verzichtet auf dauerhafte Berechtigungen. CrowdStrike positioniert die Lösung als Identity-Security-Control-Plane für automatisierte Agentenumgebungen.