Retrieval Augmented Generation (RAG) -
Lösungen. Wissen. Seminare.

In der heutigen datengetriebenen Welt ist der Zugang zu relevanten Informationen entscheidend für den Geschäftserfolg. Unternehmen stehen vor der Herausforderung, aus der Flut an Daten gezielt Wissen zu extrahieren und effizient zu nutzen. Retrieval Augmented Generation (RAG) kombiniert die Leistungsfähigkeit großer Sprachmodelle mit intelligentem Informationsabruf, um präzise und kontextbezogene Antworten zu liefern. Diese Technologie ermöglicht es, auf umfangreiche Wissensquellen zuzugreifen und relevante Antworten in Echtzeit zu liefern.

Bei ORDIX^® nutzen wir Retrieval Augmented Generation, um innovative und effiziente Lösungen für Ihre Anforderungen zu schaffen. Ob für Chatbots, Wissensmanagement oder Content-Erstellung – unsere maßgeschneiderten RAG-Anwendungen helfen Ihnen, stets die relevantesten und aktuellsten Informationen zu nutzen.

Profitieren Sie von den Vorteilen der Retrieval Augmented Generation und steigern Sie Ihre Effizienz. Unser Team aus erfahrenen Expert:innen steht Ihnen zur Seite, um individuelle Lösungen zu entwickeln, die Ihr Unternehmen in die Lage versetzen, die richtigen Informationen zur richtigen Zeit bereitzustellen. Kontaktieren Sie uns und entdecken Sie, wie RAG Ihnen helfen kann, Ihr Geschäft zu transformieren und Ihre Wettbewerbsfähigkeit zu stärken.

Forschungsengagement unserer Experten

CNN-basierte Spielzustandserkennung für einen Kickertisch

Die Automatisierung von Spielen mithilfe von Deep Reinforcement Learning (DRL) ist eine bekannte Herausforderung in der KI-Forschung. Während in Videospielen oft das gesamte Bild zur Merkmalsextraktion verwendet wird, ist dies bei realen Spielen wie Tischfußball kaum praktikabel. Stattdessen bietet ein kompakter Spielzustand, der nur die wesentlichen Parameter wie Figurenpositionen, Rotationen und Ballbewegungen umfasst, eine vielversprechende Alternative.

In dieser Arbeit stellen wir ein System zur Figuren- und Spielzustandserkennung für Tischfußball vor. Dafür wurde ein Datensatz erstellt, der Rotationen der Stangen über Beschleunigungssensoren und Positionsverschiebungen über klassische Computer-Vision-Techniken erfasst. Auf Basis dieses Datensatzes wurden Convolutional Neural Networks (CNNs) für die Vorhersage der Stangenbewegungen trainiert. Wir evaluieren verschiedene moderne CNN-Architekturen und zeigen, dass unser System den Spielzustand mit hoher Genauigkeit vorhersagen kann.

Das System liefert Daten für beide Teams (schwarz und weiß) und soll künftig als Grundlage für Imitation Learning dienen, welches auf der Analyse menschlicher Spielstrategien basiert.

PDF
WSCG 2024
arXiv
Semantic Scholar

Automatische Verständlichkeitsbewertung deutscher Sätze mit Transformer-Ensembles

Zuverlässige Methoden zur automatischen Einschätzung der Verständlichkeit von Texten können viele Bereiche, wie machinelle Übersetzung bis hin zum selbstgesteuertem Lernen, beeinflussen. Mit der Verfügbarkeit großer Sprachmodelle für Deutsch wie GBERT und GPT-2-Wechsel eröffnen sich neue Möglichkeiten für Deep-Learning-basierte Ansätze.

In dieser Arbeit untersuchen wir, wie gut Ensembles aus fine-tuned GBERT- und GPT-2-Wechsel-Modellen die Lesbarkeit deutscher Sätze vorhersagen können. Durch die Kombination mit linguistischen Merkmalen und einer Analyse der Zusammensetzung und Größe der Ensembles zeigen wir, dass gemischte Ensembles aus GBERT- und GPT-2-Wechsel-Modellen bessere Ergebnisse liefern als homogene Ensembles. Unsere Modelle wurden im Rahmen der GermEval 2022 Shared Task zur automatisierten Verständlichkeitsbewertung evaluiert und erreichten auf dem ihnen unbekannten Testdaten einen Root Mean Squared Error von 0,435.

PDF
Code Repository
ACL Anthology
arXiv
Semantic Scholar

Erkennung von Sexismus in deutschen Online-Kommentaren mit Open-Source-Text-Embeddings

Sexistische Kommentare in Online-Medien sind ein weit verbreitetes Problem. Sie treten oft in subtiler Form auf und erschweren dadurch die Moderation, da die Bewertung von Sexismus individuell unterschiedlich ausfallen kann. In dieser Arbeit untersuchen wir, wie monolinguale und mehrsprachige Open-Source-Text-Embeddings zur zuverlässigen Erkennung von Sexismus und Misogynie in deutschsprachigen Kommentaren einer österreichischen Zeitung beitragen können.

Unsere Klassifikatoren, die auf Text-Embeddings basieren, zeigen eine hohe Übereinstimmung mit den Einschätzungen menschlicher Annotatoren. Im Rahmen der GermEval 2024 GerMS-Detect Challenge erzielte unser Ansatz starke Ergebnisse: Platz 4 in Subtask 1 (F1-Score: 0,597) und Platz 2 in Subtask 2 (Jensen-Shannon-Distanz: 0,301). Die hohe Effizienz unseres Verfahrens macht es geeignet für skalierbare Anwendungen in verschiedenen Sprachen und Kontexten.

PDF
Code Repository
ACL Anthology
arXiv
Semantic Scholar

GermEval 2025 Shared Task zur Erkennung von Candy Speech: Leistungssteigerung durch span-basiertes Training

Positive und unterstützende Kommunikation in sozialen Medien, auch als "Candy Speech" bezeichnet, kann das digitale Miteinander fördern. Die automatische Erkennung solcher Sprache und damit ihr Einfluss auf die Internetkultur ist jedoch bislang wenig erforscht. In dieser Arbeit untersuchen wir, wie Candy Speech in einem deutschsprachigen YouTube-Datensatz mit 46.000 Kommentaren zuverlässig erkannt werden kann.

Wir vergleichen monolinguale und mehrsprachige Sprachmodelle wie GBERT, Qwen3 Embedding und XLM-RoBERTa. Besonders erfolgreich war ein mehrsprachiges XLM-RoBERTa-Large-Modell, das auf span-basierter Erkennung trainiert wurde. Es erreichte den ersten Platz in beiden Subtasks der GermEval 2025 Challenge mit einem F1-Score von 0,8906 für die binäre Klassifikation und 0,6307 für die kategorisierte span-basierte Erkennung. Wir vermuten, dass das span-basierte Training, die Mehrsprachigkeit des Modells und die Verwendung Emoji-sensitiver Tokenizer zur verbesserten Erkennungsleistung beigetragen haben. Unsere Ergebnisse zeigen, dass mehrsprachige Modelle besonders effektiv darin sind, positive und unterstützende Sprache zu identifizieren.

PDF
Code Repository
ACL Anthology
arXiv
Semantic Scholar

ORDIX^® blog – Beiträge zu Data Science

In ihrem Blog präsentiert die ORDIX^® regelmäßig Beiträge zu Data Science, die das Wissen der Leser erweitern und sie über die neuesten Entwicklungen auf dem Laufenden halten. Von praktischen Anwendungsfällen bis hin zu technischen Tutorials bietet der Blog eine breite Palette an Informationen zu Data Science.

Retrieval Augmented Generation (RAG) - Lösungen. Wissen. Seminare.

Forschungsengagement unserer Experten

CNN-basierte Spielzustandserkennung für einen Kickertisch

Automatische Verständlichkeitsbewertung deutscher Sätze mit Transformer-Ensembles

Erkennung von Sexismus in deutschen Online-Kommentaren mit Open-Source-Text-Embeddings

GermEval 2025 Shared Task zur Erkennung von Candy Speech: Leistungssteigerung durch span-basiertes Training

CNN-basierte Spielzustandserkennung für einen Kickertisch

Automatische Verständlichkeitsbewertung deutscher Sätze mit Transformer-Ensembles

Erkennung von Sexismus in deutschen Online-Kommentaren mit Open-Source-Text-Embeddings

GermEval 2025 Shared Task zur Erkennung von Candy Speech: Leistungssteigerung durch span-basiertes Training

ORDIX® blog – Beiträge zu Data Science

Retrieval Augmented Generation (RAG) -
Lösungen. Wissen. Seminare.

ORDIX^® blog – Beiträge zu Data Science