Wie Unternehmen das richtige LLM finden

Wie Unternehmen das richtige LLM finden

Insight

5 Minuten

19.03.2025

Futuristische Figur, umgeben von KI-Symbolen
Futuristische Figur, umgeben von KI-Symbolen
Futuristische Figur, umgeben von KI-Symbolen

Sprachmodelle sind das Herzstück jeder Generativen KI. Das passende LLM zu finden, ist aber nicht einfach: Die verschiedenen Modelle haben unterschiedliche Stärken, aber auch Schwächen. Drei kostenlose Tools helfen bei der Suche: das LLM Benchmark für CRM von Salesforce, der KI-Kompass von Buzzwoo (Foto) und Eisvogel.ai von Weights & Biases.

Egal, ob Kundenservice-Bots, Echtzeit-Übersetzungen, automatisierte Content-Erstellung oder KI-basierte Recherchetool: Überall kommen Large Language Modelle (LLM) zum Einsatz. Dabei wurden die Sprachmodelle im Vorfeld so trainiert, dass sie Texte verstehen und selbst verfassen können. Dazu wurden sie mit Milliarden an Wörtern aus Büchern, Artikeln, Websiten und anderen Quellen gefüttert. Zu den bekanntesten LLMs zählen GPT-4 von Open AI, Gemini von Google DeepMind, Claude von Anthropic oder LLaMA von Meta. Aber das ist nur ein Ausschnitt. In Wirklichkeit gibt es Dutzende an LLMs, und jede Woche stoßen neue oder Updates bereits bestehender hinzu. Prominentestes Beispiel ist die neueste Version von DeepSeek, die erst kürzllich weltweit für Aufmerksamkeit sorgte.

Diese verschiedenen Sprachmodelle weisen spezifischen Stärken auf. Ihre Leistungsfähigkeit, die zugrundeliegenden Trainingsdaten, ihre Architektur, ihre Inference-Zeiten sind unterschiedlich. Manche sind besser darin, Fachtexte zu verarbeiten, andere arbeiten multimodal, können Bilder und Videos generieren. Es ist vom Use Case abhängig, welches LLM das am besten geeignete ist. Zu den anspruchsvollen Aufgaben bei der Implementierung von KI im Unternehmen zählt damit die Aufgabe, das richtige Sprachmodell zu finden.

Im vergangenen Jahr wurden drei Tools gelauncht, die einem hier den Überblick erleichtern. Alle drei sind kostenlos und für einen Vergleich von LLMs geeignet.

LLM Benchmark für CRM von Salesforce

Das CRM-Benchmarking-Framework wurde im Juni 2024 gelauncht und evaluiert LLMs für Vertriebs- und Serviceeinsätze. Dabei werden Kriterien wie Genauigkeit, Kosten, Geschwindigkeit, aber auch Vertrauen und Sicherheit geprüft. Der Faktor Geschwindigkeit ist beispielsweise für Anwendungsfälle in Echtzeit ausschlaggebend, bei den Kriterien Vertrauen und Sicherheit geht es um die Fähigkeit des LLMs, sensible Kundendaten abzuschirmen, Informationen zu schützen und Voreingenommenheit zu vermeiden. Auch der Kostenfaktor wird berücksichtigt.

Derzeit werden 22 LLMs in interaktiven Dashboards dargestellt. Sie lassen sich nach Aspekten wie dem Einsatzbereich, Use Case sowie Anbieter und Modellgröße filtern. Innerhalb der Kriterien werden verschiedene Unterkriterien bewertet. Im Falle von Genauigkeit sind dies Aspekte wie Richtigkeit, Vollständigkeit, Verständlichkeit und die Berücksichtigung der Eingabebefehle. Die zugrundliegenden Bewertungen werden nach einem Punktesystem sowohl von menschlichen Experten als auch KI-gestützt vergeben.  „Im Gegensatz zu anderen Benchmarks fließen auch Bewertungen von Fachexperten aus den relevanten CRM-Bereichen wie Vertrieb und Kundenservice ein“, sagt Liesel Klokkers, Solution Engineering Leader Industries bei Salesforce.

Interaktives Dashboard des LLM Benchmark von Salesforce

Ein typischer Use Case für das LLM Benchmark ist ein Unternehmen, das seinen Kundenservice mit KI unterstützen will und dafür ein Sprachmodell benötigt. Klokkers: „Dann kann es anhand des Benchmarks das LLM identifizieren, das die jeweiligen Aufgaben – Zusammenfassung von Gesprächen, die Generierung von Antwortempfehlungen oder die KI-gestützte Aktualisierung von Kundendatensätzen – am besten unterstützt.

KI-Kompass von Buzzwoo

Seit Juli 2024 ist der KI-Kompass von Buzz der Digitalagentur Buzzwoo online, im Dezember wurde er mit einer Text-zu-Bild-Arena aufgewertet. Anfangs waren dort 40 Sprachmodelle aufgeführt, inzwischen sind es 100. Der Kompass versteht sich als Guide zu Informationen über Performance, API-Funktionen und Kosten der Anbieter. Darüber hinaus gibt es eine kostenfreie Test-Arena, in der verschiedene KI-Modelle gegeneinander verglichen werden können. Zudem besteht die Möglichkeit, Bild-Generierungs-Modelle zu testen und zu vergleichen.

Testarena vom KI-Kompass: Zugriff auf rund 100 Sprachmodelle

Den KI-Kompass kann jeder kostenlos nutzen, ohne sich registrieren zu müssen. Und dabei soll es auch bleiben, sagt Marketing Managerin Marlena Pompino. „Die Idee hinter dem KI-Kompass ist es, KI den Menschen näherzubringen und ihnen abseits von ChatGPT Zugang zu anderen spannenden KI-Projekten und Modellen zu ermöglichen, die sonst in der Regel kaum oder nur sehr schwierig erreichbar wären.“ Entsprechend wird die bislang größte deutschsprachige Vergleichsplattform für KI-Modelle ständig aktualisiert. Pompino: „Wir sorgen dafür, dass alle Modelle mit den neuesten Informationen und Entwicklungen gelistet sind.“

Eisvogel.ai von Weights & Biases

Im November 2024 wurde von der Entwickler-Plattform Weights & BIases das Tool Eisvogel.ai veröffentlicht. Dort können User die Leistung verschiedener Sprachmodelle in Bezug auf ihre Deutschkenntnisse vergleichen. Eisvogel.ai bietet ein Leaderboard, das aktuell zwölf Modelle auf Genauigkeit und Effizienz bei der Beantwortung von Multiple-Choice-Fragen in deutscher Sprache bewertet. Langfristig sollen auf der Plattform 50 Large Language Modelle verglichen werden können. „Das Leaderboard berücksichtigt sowohl die tatsächliche als auch die idealisierte Laufzeit der Modelle und bietet somit einen umfassenden Überblick über ihre Leistungsfähigkeit“, erklärt Hans Ramsl von Weights & BIases. „Die idealisierte Zeit ist die Bestzeit des Modells unter optimalen Bedingungen. Die tatsächliche Laufzeit die Zeit, die Nutzer wirklich erleben.“

Eisvogel.ai: Evaluierung auf Deutschkompetenz

Typischer Use Case für Eisvogel.ai sind Evaluierung und Vergleich von Sprachmodellen hinsichtlich ihrer Deutschkompetenz. Das kann ein Unternehmen sein, das ein System entwickeln möchte, das deutsche Dokumente durchsucht und präzise Antworten basierend auf den gefundenen Informationen generieren soll. Oder ein Unternehmen, das Sicherheitsmechanismen für generative KI in deutschen Anwendungen implementieren will, da es die Zahl unangemessener und fehlerhafter Antworten verringern möchte. Ramsl: „Modelle können nach ihrer Fähigkeit bewertet werden, klare, sichere und regelkonforme Antworten in deutsch zu liefern.“ Auch beim Aufbau von KI-Agenten, die auf deutsch mit Kunden interagieren, kann Eisvogel eine wertvolle Anlaufstelle sein.

Die Nutzung von Eisvogel ist ebenfalls kostenfrei. Ramsl: „Das Tool versteht sich als Beitrag zur deutschen Machine-Learning-Community. Es fördert den Vergleich und die Bewertung von Sprachmodellen und unterstützt damit die Weiterentwicklung und den Einsatz von KI in deutschsprachigen Anwendungen.“

Egal, ob Kundenservice-Bots, Echtzeit-Übersetzungen, automatisierte Content-Erstellung oder KI-basierte Recherchetool: Überall kommen Large Language Modelle (LLM) zum Einsatz. Dabei wurden die Sprachmodelle im Vorfeld so trainiert, dass sie Texte verstehen und selbst verfassen können. Dazu wurden sie mit Milliarden an Wörtern aus Büchern, Artikeln, Websiten und anderen Quellen gefüttert. Zu den bekanntesten LLMs zählen GPT-4 von Open AI, Gemini von Google DeepMind, Claude von Anthropic oder LLaMA von Meta. Aber das ist nur ein Ausschnitt. In Wirklichkeit gibt es Dutzende an LLMs, und jede Woche stoßen neue oder Updates bereits bestehender hinzu. Prominentestes Beispiel ist die neueste Version von DeepSeek, die erst kürzllich weltweit für Aufmerksamkeit sorgte.

Diese verschiedenen Sprachmodelle weisen spezifischen Stärken auf. Ihre Leistungsfähigkeit, die zugrundeliegenden Trainingsdaten, ihre Architektur, ihre Inference-Zeiten sind unterschiedlich. Manche sind besser darin, Fachtexte zu verarbeiten, andere arbeiten multimodal, können Bilder und Videos generieren. Es ist vom Use Case abhängig, welches LLM das am besten geeignete ist. Zu den anspruchsvollen Aufgaben bei der Implementierung von KI im Unternehmen zählt damit die Aufgabe, das richtige Sprachmodell zu finden.

Im vergangenen Jahr wurden drei Tools gelauncht, die einem hier den Überblick erleichtern. Alle drei sind kostenlos und für einen Vergleich von LLMs geeignet.

LLM Benchmark für CRM von Salesforce

Das CRM-Benchmarking-Framework wurde im Juni 2024 gelauncht und evaluiert LLMs für Vertriebs- und Serviceeinsätze. Dabei werden Kriterien wie Genauigkeit, Kosten, Geschwindigkeit, aber auch Vertrauen und Sicherheit geprüft. Der Faktor Geschwindigkeit ist beispielsweise für Anwendungsfälle in Echtzeit ausschlaggebend, bei den Kriterien Vertrauen und Sicherheit geht es um die Fähigkeit des LLMs, sensible Kundendaten abzuschirmen, Informationen zu schützen und Voreingenommenheit zu vermeiden. Auch der Kostenfaktor wird berücksichtigt.

Derzeit werden 22 LLMs in interaktiven Dashboards dargestellt. Sie lassen sich nach Aspekten wie dem Einsatzbereich, Use Case sowie Anbieter und Modellgröße filtern. Innerhalb der Kriterien werden verschiedene Unterkriterien bewertet. Im Falle von Genauigkeit sind dies Aspekte wie Richtigkeit, Vollständigkeit, Verständlichkeit und die Berücksichtigung der Eingabebefehle. Die zugrundliegenden Bewertungen werden nach einem Punktesystem sowohl von menschlichen Experten als auch KI-gestützt vergeben.  „Im Gegensatz zu anderen Benchmarks fließen auch Bewertungen von Fachexperten aus den relevanten CRM-Bereichen wie Vertrieb und Kundenservice ein“, sagt Liesel Klokkers, Solution Engineering Leader Industries bei Salesforce.

Interaktives Dashboard des LLM Benchmark von Salesforce

Ein typischer Use Case für das LLM Benchmark ist ein Unternehmen, das seinen Kundenservice mit KI unterstützen will und dafür ein Sprachmodell benötigt. Klokkers: „Dann kann es anhand des Benchmarks das LLM identifizieren, das die jeweiligen Aufgaben – Zusammenfassung von Gesprächen, die Generierung von Antwortempfehlungen oder die KI-gestützte Aktualisierung von Kundendatensätzen – am besten unterstützt.

KI-Kompass von Buzzwoo

Seit Juli 2024 ist der KI-Kompass von Buzz der Digitalagentur Buzzwoo online, im Dezember wurde er mit einer Text-zu-Bild-Arena aufgewertet. Anfangs waren dort 40 Sprachmodelle aufgeführt, inzwischen sind es 100. Der Kompass versteht sich als Guide zu Informationen über Performance, API-Funktionen und Kosten der Anbieter. Darüber hinaus gibt es eine kostenfreie Test-Arena, in der verschiedene KI-Modelle gegeneinander verglichen werden können. Zudem besteht die Möglichkeit, Bild-Generierungs-Modelle zu testen und zu vergleichen.

Testarena vom KI-Kompass: Zugriff auf rund 100 Sprachmodelle

Den KI-Kompass kann jeder kostenlos nutzen, ohne sich registrieren zu müssen. Und dabei soll es auch bleiben, sagt Marketing Managerin Marlena Pompino. „Die Idee hinter dem KI-Kompass ist es, KI den Menschen näherzubringen und ihnen abseits von ChatGPT Zugang zu anderen spannenden KI-Projekten und Modellen zu ermöglichen, die sonst in der Regel kaum oder nur sehr schwierig erreichbar wären.“ Entsprechend wird die bislang größte deutschsprachige Vergleichsplattform für KI-Modelle ständig aktualisiert. Pompino: „Wir sorgen dafür, dass alle Modelle mit den neuesten Informationen und Entwicklungen gelistet sind.“

Eisvogel.ai von Weights & Biases

Im November 2024 wurde von der Entwickler-Plattform Weights & BIases das Tool Eisvogel.ai veröffentlicht. Dort können User die Leistung verschiedener Sprachmodelle in Bezug auf ihre Deutschkenntnisse vergleichen. Eisvogel.ai bietet ein Leaderboard, das aktuell zwölf Modelle auf Genauigkeit und Effizienz bei der Beantwortung von Multiple-Choice-Fragen in deutscher Sprache bewertet. Langfristig sollen auf der Plattform 50 Large Language Modelle verglichen werden können. „Das Leaderboard berücksichtigt sowohl die tatsächliche als auch die idealisierte Laufzeit der Modelle und bietet somit einen umfassenden Überblick über ihre Leistungsfähigkeit“, erklärt Hans Ramsl von Weights & BIases. „Die idealisierte Zeit ist die Bestzeit des Modells unter optimalen Bedingungen. Die tatsächliche Laufzeit die Zeit, die Nutzer wirklich erleben.“

Eisvogel.ai: Evaluierung auf Deutschkompetenz

Typischer Use Case für Eisvogel.ai sind Evaluierung und Vergleich von Sprachmodellen hinsichtlich ihrer Deutschkompetenz. Das kann ein Unternehmen sein, das ein System entwickeln möchte, das deutsche Dokumente durchsucht und präzise Antworten basierend auf den gefundenen Informationen generieren soll. Oder ein Unternehmen, das Sicherheitsmechanismen für generative KI in deutschen Anwendungen implementieren will, da es die Zahl unangemessener und fehlerhafter Antworten verringern möchte. Ramsl: „Modelle können nach ihrer Fähigkeit bewertet werden, klare, sichere und regelkonforme Antworten in deutsch zu liefern.“ Auch beim Aufbau von KI-Agenten, die auf deutsch mit Kunden interagieren, kann Eisvogel eine wertvolle Anlaufstelle sein.

Die Nutzung von Eisvogel ist ebenfalls kostenfrei. Ramsl: „Das Tool versteht sich als Beitrag zur deutschen Machine-Learning-Community. Es fördert den Vergleich und die Bewertung von Sprachmodellen und unterstützt damit die Weiterentwicklung und den Einsatz von KI in deutschsprachigen Anwendungen.“

Egal, ob Kundenservice-Bots, Echtzeit-Übersetzungen, automatisierte Content-Erstellung oder KI-basierte Recherchetool: Überall kommen Large Language Modelle (LLM) zum Einsatz. Dabei wurden die Sprachmodelle im Vorfeld so trainiert, dass sie Texte verstehen und selbst verfassen können. Dazu wurden sie mit Milliarden an Wörtern aus Büchern, Artikeln, Websiten und anderen Quellen gefüttert. Zu den bekanntesten LLMs zählen GPT-4 von Open AI, Gemini von Google DeepMind, Claude von Anthropic oder LLaMA von Meta. Aber das ist nur ein Ausschnitt. In Wirklichkeit gibt es Dutzende an LLMs, und jede Woche stoßen neue oder Updates bereits bestehender hinzu. Prominentestes Beispiel ist die neueste Version von DeepSeek, die erst kürzllich weltweit für Aufmerksamkeit sorgte.

Diese verschiedenen Sprachmodelle weisen spezifischen Stärken auf. Ihre Leistungsfähigkeit, die zugrundeliegenden Trainingsdaten, ihre Architektur, ihre Inference-Zeiten sind unterschiedlich. Manche sind besser darin, Fachtexte zu verarbeiten, andere arbeiten multimodal, können Bilder und Videos generieren. Es ist vom Use Case abhängig, welches LLM das am besten geeignete ist. Zu den anspruchsvollen Aufgaben bei der Implementierung von KI im Unternehmen zählt damit die Aufgabe, das richtige Sprachmodell zu finden.

Im vergangenen Jahr wurden drei Tools gelauncht, die einem hier den Überblick erleichtern. Alle drei sind kostenlos und für einen Vergleich von LLMs geeignet.

LLM Benchmark für CRM von Salesforce

Das CRM-Benchmarking-Framework wurde im Juni 2024 gelauncht und evaluiert LLMs für Vertriebs- und Serviceeinsätze. Dabei werden Kriterien wie Genauigkeit, Kosten, Geschwindigkeit, aber auch Vertrauen und Sicherheit geprüft. Der Faktor Geschwindigkeit ist beispielsweise für Anwendungsfälle in Echtzeit ausschlaggebend, bei den Kriterien Vertrauen und Sicherheit geht es um die Fähigkeit des LLMs, sensible Kundendaten abzuschirmen, Informationen zu schützen und Voreingenommenheit zu vermeiden. Auch der Kostenfaktor wird berücksichtigt.

Derzeit werden 22 LLMs in interaktiven Dashboards dargestellt. Sie lassen sich nach Aspekten wie dem Einsatzbereich, Use Case sowie Anbieter und Modellgröße filtern. Innerhalb der Kriterien werden verschiedene Unterkriterien bewertet. Im Falle von Genauigkeit sind dies Aspekte wie Richtigkeit, Vollständigkeit, Verständlichkeit und die Berücksichtigung der Eingabebefehle. Die zugrundliegenden Bewertungen werden nach einem Punktesystem sowohl von menschlichen Experten als auch KI-gestützt vergeben.  „Im Gegensatz zu anderen Benchmarks fließen auch Bewertungen von Fachexperten aus den relevanten CRM-Bereichen wie Vertrieb und Kundenservice ein“, sagt Liesel Klokkers, Solution Engineering Leader Industries bei Salesforce.

Interaktives Dashboard des LLM Benchmark von Salesforce

Ein typischer Use Case für das LLM Benchmark ist ein Unternehmen, das seinen Kundenservice mit KI unterstützen will und dafür ein Sprachmodell benötigt. Klokkers: „Dann kann es anhand des Benchmarks das LLM identifizieren, das die jeweiligen Aufgaben – Zusammenfassung von Gesprächen, die Generierung von Antwortempfehlungen oder die KI-gestützte Aktualisierung von Kundendatensätzen – am besten unterstützt.

KI-Kompass von Buzzwoo

Seit Juli 2024 ist der KI-Kompass von Buzz der Digitalagentur Buzzwoo online, im Dezember wurde er mit einer Text-zu-Bild-Arena aufgewertet. Anfangs waren dort 40 Sprachmodelle aufgeführt, inzwischen sind es 100. Der Kompass versteht sich als Guide zu Informationen über Performance, API-Funktionen und Kosten der Anbieter. Darüber hinaus gibt es eine kostenfreie Test-Arena, in der verschiedene KI-Modelle gegeneinander verglichen werden können. Zudem besteht die Möglichkeit, Bild-Generierungs-Modelle zu testen und zu vergleichen.

Testarena vom KI-Kompass: Zugriff auf rund 100 Sprachmodelle

Den KI-Kompass kann jeder kostenlos nutzen, ohne sich registrieren zu müssen. Und dabei soll es auch bleiben, sagt Marketing Managerin Marlena Pompino. „Die Idee hinter dem KI-Kompass ist es, KI den Menschen näherzubringen und ihnen abseits von ChatGPT Zugang zu anderen spannenden KI-Projekten und Modellen zu ermöglichen, die sonst in der Regel kaum oder nur sehr schwierig erreichbar wären.“ Entsprechend wird die bislang größte deutschsprachige Vergleichsplattform für KI-Modelle ständig aktualisiert. Pompino: „Wir sorgen dafür, dass alle Modelle mit den neuesten Informationen und Entwicklungen gelistet sind.“

Eisvogel.ai von Weights & Biases

Im November 2024 wurde von der Entwickler-Plattform Weights & BIases das Tool Eisvogel.ai veröffentlicht. Dort können User die Leistung verschiedener Sprachmodelle in Bezug auf ihre Deutschkenntnisse vergleichen. Eisvogel.ai bietet ein Leaderboard, das aktuell zwölf Modelle auf Genauigkeit und Effizienz bei der Beantwortung von Multiple-Choice-Fragen in deutscher Sprache bewertet. Langfristig sollen auf der Plattform 50 Large Language Modelle verglichen werden können. „Das Leaderboard berücksichtigt sowohl die tatsächliche als auch die idealisierte Laufzeit der Modelle und bietet somit einen umfassenden Überblick über ihre Leistungsfähigkeit“, erklärt Hans Ramsl von Weights & BIases. „Die idealisierte Zeit ist die Bestzeit des Modells unter optimalen Bedingungen. Die tatsächliche Laufzeit die Zeit, die Nutzer wirklich erleben.“

Eisvogel.ai: Evaluierung auf Deutschkompetenz

Typischer Use Case für Eisvogel.ai sind Evaluierung und Vergleich von Sprachmodellen hinsichtlich ihrer Deutschkompetenz. Das kann ein Unternehmen sein, das ein System entwickeln möchte, das deutsche Dokumente durchsucht und präzise Antworten basierend auf den gefundenen Informationen generieren soll. Oder ein Unternehmen, das Sicherheitsmechanismen für generative KI in deutschen Anwendungen implementieren will, da es die Zahl unangemessener und fehlerhafter Antworten verringern möchte. Ramsl: „Modelle können nach ihrer Fähigkeit bewertet werden, klare, sichere und regelkonforme Antworten in deutsch zu liefern.“ Auch beim Aufbau von KI-Agenten, die auf deutsch mit Kunden interagieren, kann Eisvogel eine wertvolle Anlaufstelle sein.

Die Nutzung von Eisvogel ist ebenfalls kostenfrei. Ramsl: „Das Tool versteht sich als Beitrag zur deutschen Machine-Learning-Community. Es fördert den Vergleich und die Bewertung von Sprachmodellen und unterstützt damit die Weiterentwicklung und den Einsatz von KI in deutschsprachigen Anwendungen.“

Newsletter

Hier erfährst Du einmal in der Woche, wo Künstliche Intelligenz in das Marketing eingreift, welche Trends sich abzeichnen und wie sie Kommunikation und Medien verändert. Informativ, unterhaltsam, nachdenklich.

Schließe Dich den 1.800+ Abonnenten an, kostenlos.

Newsletter

Hier erfährst Du einmal in der Woche, wo Künstliche Intelligenz in das Marketing eingreift, welche Trends sich abzeichnen und wie sie Kommunikation und Medien verändert. Informativ, unterhaltsam, nachdenklich.

Schließe Dich den 1.800+ Abonnenten an, kostenlos.

Newsletter

Hier erfährst Du einmal in der Woche, wo Künstliche Intelligenz in das Marketing eingreift, welche Trends sich abzeichnen und wie sie Kommunikation und Medien verändert. Informativ, unterhaltsam, nachdenklich.

Schließe Dich den 1.800+ Abonnenten an, kostenlos.