Designs hochladen

Zielgruppe & Kontext

Results

Model V6 · DINOv2-Large + SigLIP2 Dual-Backbone

Validierungsergebnisse

So gut kann PacksAI Verpackungsdesigns bewerten. Getestet auf einem unabhängigen Testdatensatz mit 483 Design-Gruppen, die das Modell nie zuvor gesehen hat.

Headline-Metriken

Die wichtigsten Kennzahlen auf einen Blick

🏹

Mean Ranking Accuracy

In 79% der Fälle erkennt das Modell korrekt, welches von zwei Designs den höheren Mean Score erhält.

📈

T2B% Ranking Accuracy

Bei 83% der Designpaare wird korrekt vorhergesagt, welches Design die höhere Top-2-Box Quote hat.

✅

Mean Absolute Error (Skala 1-5)

Die Vorhersage weicht im Schnitt nur 0.24 Punkte vom echten Wert ab – auf einer 1-5 Skala sehr präzise.

📍

T2B% Fehler (Prozentpunkte)

Der T2B%-Wert weicht durchschnittlich nur 6.5 Prozentpunkte ab. Nach Kalibrierung sogar unter 5pp.

🔎

T2B% Korrelation (r)

Starke positive Korrelation zwischen vorhergesagten und tatsächlichen T2B-Werten (Pearson r = 0.72).

💯

Accuracy ±0.5 (Mean)

91.5% aller Mean-Score-Vorhersagen liegen innerhalb von 0.5 Punkten neben dem tatsächlichen Wert.

Häufige Fragen

Antworten auf die wichtigsten Fragen unserer Kunden

1 Wie zuverlässig ist die Vorhersage wirklich? ▼

Das Modell wurde auf einem komplett separaten Testdatensatz mit 483 Design-Gruppen validiert, die es während des Trainings nie gesehen hat. Die Ranking Accuracy von 79.1% (Mean) und 82.7% (T2B%) liegt deutlich über dem Zufallsniveau von 50%. Das bedeutet: In etwa 4 von 5 Fällen erkennt die KI korrekt, welches Design besser abschneidet.

2 Was bedeutet „Ranking Accuracy“? ▼

Ranking Accuracy misst, wie oft das Modell bei einem Paarvergleich zweier Designs korrekt vorhersagt, welches besser ist. Beispiel: Wenn Design A im echten Test einen Score von 3.8 hat und Design B 3.2, dann zählt es als korrekt, wenn das Modell ebenfalls A höher einstuft als B. Dies ist der wichtigste KPI für die Praxis, weil man oft wissen möchte: „Welches Design ist besser?“ – nicht nur wie hoch der genaue Wert ist.

3 Was ist T2B% und warum ist es wichtig? ▼

T2B% (Top-2-Box) gibt an, wie viel Prozent der Befragten ein Design mit 4 oder 5 bewertet haben (auf einer 1-5 Skala). Es ist die in der Marktforschung am häufigsten verwendete Kennzahl: „Wie viel Prozent finden es gut?“. Unser Modell sagt T2B% auf Gruppenebene vorher (z.B. „Design X hat bei Frauen in Deutschland eine T2B% von 65%“), mit einer durchschnittlichen Abweichung von nur 6.5 Prozentpunkten.

4 Was bringen die Konfidenzintervalle? ▼

Konfidenzintervalle zeigen, wie sicher sich das Modell ist. Ein enges Intervall (z.B. 60-65%) bedeutet hohe Sicherheit, ein breites (z.B. 45-75%) bedeutet Unsicherheit. So könnt ihr fundiert entscheiden: Ist der Unterschied zwischen zwei Designs echt – oder könnte er auch Zufall sein? Wir nutzen dafür die Monte Carlo Dropout Methode mit 30 unabhängigen Modelldurchläufen.

5 Kann das Modell den echten Konsumentensurvey ersetzen? ▼

Nein, und das ist auch nicht das Ziel. PacksAI ist ein Screening-Tool für frühe Designphasen. Statt 10 Designvarianten in einen teuren Survey zu schicken, filtert ihr mit PacksAI die 3 besten vor – und testet nur diese qualitativ. Das spart Zeit und Budget, ohne auf den echten Konsumentenfeedback zu verzichten. Denkt an PacksAI als „informierte Vorauswahl“.

6 Wie genau ist die Kalibrierung? ▼

Wir nutzen Isotonic Regression zur Kalibrierung der T2B%-Werte. Das bedeutet: Wenn das Modell z.B. systematisch bei „Purchase Intention“ zu hoch schätzt, wird das automatisch korrigiert. Die Kalibrierung senkt den mittleren Fehler im Schnitt um 1-2 Prozentpunkte pro KPI (z.B. Premiumness: 6.0pp → 4.0pp, Brand Fit: 6.9pp → 5.3pp). Die Korrektur passiert automatisch im Hintergrund.

7 In welchen Märkten und Kategorien funktioniert es? ▼

Das Modell wurde auf über 86.000 Bewertungen aus 16 Märkten (u.a. DE, US, UK, FR, IT, PL, MX, KR, AU, TR) und 3 Kategorien (Beauty, Home Care, Laundry) trainiert – mit insgesamt 358 verschiedenen Verpackungsdesigns. Es berücksichtigt Markt, Kategorie, Geschlecht und Altersgruppe als Eingabevariablen. Je mehr Daten in einer Kombination vorhanden waren, desto präziser die Vorhersage. Bei neuen, bisher nicht gesehenen Marktkombinationen ist die Unsicherheit natürlich höher – was sich in breiteren Konfidenzintervallen zeigt.

8 Was ist Signifikanz und wann ist ein Unterschied „echt“? ▼

Wenn ihr zwei Designs vergleicht, zeigt euch PacksAI, ob der Unterschied statistisch signifikant ist. Das bedeutet: Überlappen sich die Konfidenzintervalle nicht, ist der Unterschied mit hoher Wahrscheinlichkeit echt (nicht zufällig). Ihr könnt das Signifikanzniveau selbst wählen: 90% (toleranter), 95% (Standard) oder 99% (strenger). In der Praxis empfehlen wir 95%.

Wie funktioniert PacksAI?

Zwei KI-Modelle (DINOv2 + SigLIP2) arbeiten zusammen, um aus echten Konsumentendaten Verpackungsdesigns zu bewerten – in Sekunden statt Wochen.

📷

Dual-Backbone Bildanalyse Schritt 1

Jedes Design wird gleichzeitig von zwei KI-Modellen analysiert: DINOv2-Large (Meta, 300 Mio. Parameter) erkennt Formen, Farben und Layouts. SigLIP2 (Google, 400 Mio. Parameter) versteht semantische Inhalte und Markensprache. Zusätzlich werden Features aus drei verschiedenen Tiefen des DINOv2 (Schichten 8, 16, 24) kombiniert – von einfachen Texturen bis zu komplexen Konzepten.

Backbone 1

DINOv2-Large @ 518px

Backbone 2

SigLIP2-SO400M @ 384px

Multi-Scale

Layer 8, 16, 24

Fusion

Cross-Modal Attention

🏭

Kontext & Patch Attention Schritt 2

Das gleiche Design wird in Deutschland anders bewertet als in Korea. Das Modell fügt kategorische Metadaten (Markt, Kategorie, Geschlecht, Altersgruppe) hinzu. Neu in V6: Patch Attention Pooling – statt nur das Gesamtbild zu betrachten, lernt das Modell mit 4 Queries gezielt auf verschiedene Bildregionen zu achten (z.B. Logo-Bereich, Farbflächen, Typografie).

Variablen

Land, Kategorie, Geschlecht, Alter, Design-Typ

Patch Attention

8 Heads, 4 Queries

Tabular Fusion

Attention-basiert

🧠

Multi-Task & Contrastive Learning Schritt 3

Das Modell lernt vier Aufgaben gleichzeitig: Mean Score vorhersagen, Designs im Ranking vergleichen, T2B% schätzen und über Contrastive Learning ähnliche Designs nahe und unterschiedliche Designs weit voneinander im Feature-Raum zu platzieren. Multi-Crop Training analysiert zusätzlich 4 Detail-Ausschnitte pro Bild.

Aufgabe 1

Mean Score (1-5)

Aufgabe 2

Ranking (Paarvergleich)

Aufgabe 3

T2B% (Gruppenebene)

Aufgabe 4

Contrastive (Hard Negative Mining)

Multi-Crop

4 lokale Ausschnitte @ 196px

📚

Training mit echten Daten Schritt 4

Trainiert wurde auf über 86.000 echten Konsumentenbewertungen aus professionellen Designtests. Das Modell hat gelernt, wie echte Menschen Verpackungen wahrnehmen – über verschiedene Kulturen, Kategorien und Zielgruppen hinweg. 40 Trainingsdurchläufe (Epochen) mit automatischem Stopp bei nachlassender Verbesserung.

Trainings-Samples

>86.000 Rows

Unique Designs

358 Verpackungen

Märkte

16 Länder

Epochen

Bis zu 40 (Early Stopping)

✅

Kalibrierung & Deployment Schritt 5

Nach dem Training werden die T2B%-Vorhersagen mit Isotonic Regression kalibriert, um systematische Abweichungen pro KPI zu korrigieren. Das fertige Modell wird auf einer HuggingFace Inference Endpoint deployed und ist über die PacksAI-App in Echtzeit abrufbar.

Kalibrierung

Isotonic Regression pro KPI

Hosting

HuggingFace (GPU)

Inferenz-Zeit

< 3 Sekunden pro Design

🤖

DINOv2-Large – Strukturen & Formen

Von Meta entwickelt, vortrainiert auf 142 Mio. Bildern. Erkennt visuelle Muster wie Farben, Formen, Layouts und Texturen. V6 nutzt Multi-Scale Features aus drei Schichten (8, 16, 24) – von einfachen Kanten bis zu komplexen Konzepten.

👁

SigLIP2 – Semantisches Verständnis

Von Google entwickelt, 400 Mio. Parameter. Versteht die Bedeutung visueller Inhalte: Markensprache, Produktkategorie-Codes und Design-Intentionen. Ergänzt DINOv2 durch ein anderes „Verständnis“ des Bildes.

🔗

Cross-Modal Attention

Die Features beider Backbones werden nicht einfach zusammengefügt, sondern über bidirektionale Attention verschmolzen: DINOv2 fragt SigLIP2 ab und umgekehrt. So profitiert jedes Modell von den Stärken des anderen.

🎯

Patch Attention Pooling

Statt nur das Gesamtbild zu betrachten, lernt das Modell mit 4 Queries gezielt auf Bildregionen zu achten – z.B. Logo, Farbflächen, Typografie. Jeder Query spezialisiert sich automatisch auf andere Design-Aspekte.

📊

7 KPIs in 3 Gruppen

Emotional: Curiosity, Uniqueness. Commercial: Purchase Intention, Brand Fit. Aesthetic: Quality, Appealing Design, Premiumness. Jede Gruppe hat spezialisierte Heads im Modell.

⚖

Contrastive Learning

Das Modell lernt, ähnlich bewertete Designs im Feature-Raum zusammenzubringen und unterschiedliche zu trennen. Hard Negative Mining fokussiert dabei auf die schwierigsten Paarvergleiche – das schärft die Ranking-Fähigkeit.

🎲

Monte Carlo Dropout

30 leicht unterschiedliche Vorhersagen durch zufälliges Deaktivieren von Neuronen. Die Streuung zeigt die Unsicherheit: wenig Streuung = hohe Sicherheit. Basis für die Konfidenzintervalle.

🛠

Isotonic Regression

Kalibriert T2B%-Vorhersagen pro KPI. Senkt den Fehler um 0.5-2 Prozentpunkte (z.B. Premiumness: 6.0pp → 4.0pp). Die Korrektur passiert automatisch im Hintergrund.

🎯

Mean Score (1-5)

Der durchschnittliche Wert, den Konsumenten auf einer 1-5 Skala vergeben würden. Für jedes der 7 KPIs einzeln. Ideal zum Vergleich: „Wie gut schneidet mein Design bei Curiosity vs. Brand Fit ab?“

📈

T2B% (Top-2-Box)

Der Anteil der Konsumenten, die 4 oder 5 geben würden. Die gängigste Metrik in der Marktforschung. PacksAI sagt T2B% auf Gruppenebene vorher, gewichtet nach Gruppengröße für maximale Präzision.

📋

Design-Ranking

Bei mehreren Designs zeigt PacksAI, welches Design bei welchem KPI am besten abschneidet. Inklusive Signifikanz-Check: Ist der Unterschied echt oder könnte er Zufall sein?

📐

Konfidenzintervall

Optional: Ein Bereich, in dem der wahre Wert mit 95% Wahrscheinlichkeit liegt. Schmal = Modell ist sicher. Breit = Modell ist unsicher. Wählbar zwischen 90%, 95% und 99% Konfidenz.

📄

Excel-Export

Alle Ergebnisse lassen sich mit einem Klick als Excel-Datei exportieren – inklusive Mean, T2B%, Konfidenzintervalle und Gruppenvergleiche. Perfekt für Präsentationen und Reports.

🌐

Multi-Market Analyse

Mehrere Märkte gleichzeitig auswählen? Kein Problem. PacksAI berechnet für jeden Markt einzeln und zeigt den Durchschnitt – so seht ihr globale und lokale Performance auf einen Blick.