Gleicher Inhalt, mehr Tokens, höhere Rechnung. Das ist kein Witz.
KI zerlegt Text in Tokens — Bruchstücke, die mal ein Wort sind, mal eine Silbe. Englisch ist dabei effizienter. Vergleich:
| Deutsch | Tokens | Englisch | Tokens |
|---|---|---|---|
| Qualitätssicherungsmaßnahme | 4 | Quality assurance measure | 3 |
| Datenschutzgrundverordnung | 5 | General Data Protection Regulation | 4 |
| Krankenversicherungsbeitrag | 4 | Health insurance contribution | 3 |
Deutsche Komposita — also zusammengesetzte Wörter — sind für Tokenizer ein Alptraum. Was im Englischen drei saubere Tokens ergibt, wird im Deutschen in Silben zerhackt.
In der Praxis heißt das: Ein deutscher Prompt kostet im Schnitt 20–30 % mehr als der gleiche Inhalt auf Englisch. Bei einer einzelnen Frage ist das egal. Bei tausend Anfragen pro Tag rechnet sich das.
— Franz