Designanalyse
01

Designs hochladen

02

Zielgruppe & Kontext

-- All Markets --
03

Results

Model V5 · DINOv2-Large

Validierungsergebnisse

So gut kann PacksAI Verpackungsdesigns bewerten. Getestet auf einem unabhängigen Testdatensatz mit 837 Design-Gruppen, die das Modell nie zuvor gesehen hat.

Headline-Metriken
Die wichtigsten Kennzahlen auf einen Blick
🏹
0
Mean Ranking Accuracy
In 72% der Fälle erkennt das Modell korrekt, welches von zwei Designs den höheren Mean Score erhält.
📈
0
T2B% Ranking Accuracy
Bei 73% der Designpaare wird korrekt vorhergesagt, welches Design die höhere Top-2-Box Quote hat.
0
Mean Absolute Error (Skala 1-5)
Die Vorhersage weicht im Schnitt nur 0.21 Punkte vom echten Wert ab – auf einer 1-5 Skala extrem präzise.
📍
0
T2B% Fehler (Prozentpunkte)
Der T2B%-Wert weicht durchschnittlich nur 7.2 Prozentpunkte ab. Nach Kalibrierung sogar unter 6pp.
🔎
0
T2B% Korrelation (r)
Starke positive Korrelation zwischen vorhergesagten und tatsächlichen T2B-Werten (Pearson r = 0.71).
💯
0
Accuracy ±0.5 (Mean)
93% aller Mean-Score-Vorhersagen liegen innerhalb von 0.5 Punkten neben dem tatsächlichen Wert.
Häufige Fragen
Antworten auf die wichtigsten Fragen unserer Kunden
1 Wie zuverlässig ist die Vorhersage wirklich?
Das Modell wurde auf einem komplett separaten Testdatensatz mit 837 Design-Gruppen validiert, die es während des Trainings nie gesehen hat. Die Ranking Accuracy von 71.5% (Mean) und 73.1% (T2B%) liegt deutlich über dem Zufallsniveau von 50%. Das bedeutet: In knapp 3 von 4 Fällen erkennt die KI korrekt, welches Design besser abschneidet.
2 Was bedeutet „Ranking Accuracy“?
Ranking Accuracy misst, wie oft das Modell bei einem Paarvergleich zweier Designs korrekt vorhersagt, welches besser ist. Beispiel: Wenn Design A im echten Test einen Score von 3.8 hat und Design B 3.2, dann zählt es als korrekt, wenn das Modell ebenfalls A höher einstuft als B. Dies ist der wichtigste KPI für die Praxis, weil man oft wissen möchte: „Welches Design ist besser?“ – nicht nur wie hoch der genaue Wert ist.
3 Was ist T2B% und warum ist es wichtig?
T2B% (Top-2-Box) gibt an, wie viel Prozent der Befragten ein Design mit 4 oder 5 bewertet haben (auf einer 1-5 Skala). Es ist die in der Marktforschung am häufigsten verwendete Kennzahl: „Wie viel Prozent finden es gut?“. Unser Modell sagt T2B% auf Gruppenebene vorher (z.B. „Design X hat bei Frauen in Deutschland eine T2B% von 65%“), mit einer durchschnittlichen Abweichung von nur 7.2 Prozentpunkten.
4 Was bringen die Konfidenzintervalle?
Konfidenzintervalle zeigen, wie sicher sich das Modell ist. Ein enges Intervall (z.B. 60-65%) bedeutet hohe Sicherheit, ein breites (z.B. 45-75%) bedeutet Unsicherheit. So könnt ihr fundiert entscheiden: Ist der Unterschied zwischen zwei Designs echt – oder könnte er auch Zufall sein? Wir nutzen dafür die Monte Carlo Dropout Methode mit 30 unabhängigen Modelldurchläufen.
5 Kann das Modell den echten Konsumentensurvey ersetzen?
Nein, und das ist auch nicht das Ziel. PacksAI ist ein Screening-Tool für frühe Designphasen. Statt 10 Designvarianten in einen teuren Survey zu schicken, filtert ihr mit PacksAI die 3 besten vor – und testet nur diese qualitativ. Das spart Zeit und Budget, ohne auf den echten Konsumentenfeedback zu verzichten. Denkt an PacksAI als „informierte Vorauswahl“.
6 Wie genau ist die Kalibrierung?
Wir nutzen Isotonic Regression zur Kalibrierung der T2B%-Werte. Das bedeutet: Wenn das Modell z.B. systematisch bei „Purchase Intention“ zu hoch schätzt, wird das automatisch korrigiert. Die Kalibrierung senkt den mittleren Fehler im Schnitt um 0.5-1.2 Prozentpunkte pro KPI (z.B. Brand Fit: 6.6pp → 5.4pp). Die Korrektur passiert automatisch im Hintergrund.
7 In welchen Märkten und Kategorien funktioniert es?
Das Modell wurde auf Daten aus 16 Märkten (u.a. DE, US, UK, FR, IT, PL, MX, KR, AU, TR) und 3 Kategorien (Beauty, Home Care, Laundry) trainiert. Es berücksichtigt Markt, Kategorie, Geschlecht und Altersgruppe als Eingabevariablen. Je mehr Daten in einer Kombination vorhanden waren, desto präziser die Vorhersage. Bei neuen, bisher nicht gesehenen Marktkombinationen ist die Unsicherheit natürlich höher – was sich in breiteren Konfidenzintervallen zeigt.
8 Was ist Signifikanz und wann ist ein Unterschied „echt“?
Wenn ihr zwei Designs vergleicht, zeigt euch PacksAI, ob der Unterschied statistisch signifikant ist. Das bedeutet: Überlappen sich die Konfidenzintervalle nicht, ist der Unterschied mit hoher Wahrscheinlichkeit echt (nicht zufällig). Ihr könnt das Signifikanzniveau selbst wählen: 90% (toleranter), 95% (Standard) oder 99% (strenger). In der Praxis empfehlen wir 95%.

Wie funktioniert PacksAI?

Ein KI-Modell, das aus echten Konsumentendaten gelernt hat, Verpackungsdesigns zu bewerten – in Sekunden statt Wochen.

📷

Bilder analysieren Schritt 1

Jedes Verpackungsdesign wird als Bild an DINOv2-Large übergeben – ein Vision Transformer von Meta mit 300 Mio. Parametern. Dieses Modell wurde auf 142 Millionen Bildern vortrainiert und erkennt Formen, Farben, Layouts und Texturen auf einer tiefen Ebene.

Backbone
DINOv2-Large (ViT-L/14)
Bildauflösung
224 × 224 Pixel
Feature-Dimension
1024-dimensionaler Vektor
🏭

Kontext hinzufügen Schritt 2

Das gleiche Design wird in Deutschland anders bewertet als in Korea. Deshalb fügt das Modell kategorische Metadaten hinzu: Markt, Kategorie (Beauty/Home Care/Laundry), Geschlecht und Altersgruppe. Diese werden zu speziellen Vektoren umgewandelt und mit einem Attention-Mechanismus mit den Bild-Features verschmolzen.

Variablen
Land, Kategorie, Geschlecht, Alter, Design-Typ
Methode
Attention Fusion
🧠

Multi-Task Learning Schritt 3

Das Modell lernt drei Aufgaben gleichzeitig: Mean Score vorhersagen, Designs im Ranking vergleichen und T2B% schätzen. Das macht es besonders effizient, weil die Aufgaben voneinander profitieren. Zusätzlich werden die 7 KPIs in thematische Gruppen unterteilt (Emotional, Commercial, Aesthetic), was die Vorhersagequalität weiter verbessert.

Aufgabe 1
Mean Score (1-5)
Aufgabe 2
Ranking (Paarvergleich)
Aufgabe 3
T2B% (Gruppenebene)
KPI-Gruppen
Emotional · Commercial · Aesthetic
📚

Training mit echten Daten Schritt 4

Trainiert wurde auf über 70.000 echten Konsumentenbewertungen aus professionellen Designtests. Das Modell hat gelernt, wie echte Menschen Verpackungen wahrnehmen – über verschiedene Kulturen, Kategorien und Zielgruppen hinweg. 40 Trainingsdurchläufe (Epochen) mit automatischem Stopp bei nachlassender Verbesserung.

Trainings-Samples
>48.000 Rows
Unique Designs
~290 Verpackungen
Märkte
16 Länder
Epochen
Bis zu 40 (Early Stopping)

Kalibrierung & Deployment Schritt 5

Nach dem Training werden die T2B%-Vorhersagen mit Isotonic Regression kalibriert, um systematische Abweichungen pro KPI zu korrigieren. Das fertige Modell wird auf einer HuggingFace Inference Endpoint deployed und ist über die PacksAI-App in Echtzeit abrufbar.

Kalibrierung
Isotonic Regression pro KPI
Hosting
HuggingFace (GPU)
Inferenz-Zeit
< 3 Sekunden pro Design
🤖

DINOv2 – Das „Auge“

Ein von Meta entwickelter Vision Transformer, vortrainiert auf 142 Mio. Bildern. Er erkennt visuelle Muster wie Farben, Formen und Layouts – ähnlich wie ein erfahrener Designer, aber in Millisekunden. Wir nutzen die „Large“-Variante mit 300 Mio. Parametern.

🎯

Attention Fusion

Ein smarter Mechanismus, der visuelle Bild-Features dynamisch gewichtet – je nach Kontext. Zum Beispiel sind Farbschemata in Korea wichtiger als in Deutschland. Die Attention-Schicht lernt automatisch, welche visuellen Merkmale für welchen Markt am relevantesten sind.

📊

7 KPIs in 3 Gruppen

Emotional: Curiosity, Uniqueness. Commercial: Purchase Intention, Brand Fit. Aesthetic: Appealing Design, Premiumness, Quality. Jede Gruppe hat einen eigenen „Kopf“ im Modell, der auf die jeweilige Bewertungsdimension spezialisiert ist.

🎲

Monte Carlo Dropout

Um die Unsicherheit zu messen, führen wir 30 leicht unterschiedliche Vorhersagen durch (durch zufälliges „Ausschalten“ von Neuronen). Die Streuung dieser 30 Ergebnisse zeigt, wie sicher sich das Modell ist. Wenig Streuung = hohe Sicherheit.

🛠

Isotonic Regression

Eine Kalibrierungsmethode, die systematische Verzerrungen korrigiert. Wenn das Modell z.B. bei „Brand Fit“ generell 2% zu hoch schätzt, wird das automatisch nachjustiert. Trainiert auf dem Validierungsset, getestet auf dem unabhängigen Testset.

🚀

Echtzeit-Inferenz

Das fertige Modell läuft auf einer GPU in der Cloud. Ein neues Design wird in unter 3 Sekunden analysiert. Mit Konfidenzintervall dauert es etwas länger (~30 Sekunden), da 30 separate Durchläufe nötig sind.

🎯

Mean Score (1-5)

Der durchschnittliche Wert, den Konsumenten auf einer 1-5 Skala vergeben würden. Für jedes der 7 KPIs einzeln. Ideal zum Vergleich: „Wie gut schneidet mein Design bei Curiosity vs. Brand Fit ab?“

📈

T2B% (Top-2-Box)

Der Anteil der Konsumenten, die 4 oder 5 geben würden. Die gängigste Metrik in der Marktforschung. PacksAI sagt T2B% auf Gruppenebene vorher, gewichtet nach Gruppengröße für maximale Präzision.

📋

Design-Ranking

Bei mehreren Designs zeigt PacksAI, welches Design bei welchem KPI am besten abschneidet. Inklusive Signifikanz-Check: Ist der Unterschied echt oder könnte er Zufall sein?

📐

Konfidenzintervall

Optional: Ein Bereich, in dem der wahre Wert mit 95% Wahrscheinlichkeit liegt. Schmal = Modell ist sicher. Breit = Modell ist unsicher. Wählbar zwischen 90%, 95% und 99% Konfidenz.

📄

Excel-Export

Alle Ergebnisse lassen sich mit einem Klick als Excel-Datei exportieren – inklusive Mean, T2B%, Konfidenzintervalle und Gruppenvergleiche. Perfekt für Präsentationen und Reports.

🌐

Multi-Market Analyse

Mehrere Märkte gleichzeitig auswählen? Kein Problem. PacksAI berechnet für jeden Markt einzeln und zeigt den Durchschnitt – so seht ihr globale und lokale Performance auf einen Blick.

Designs werden analysiert...