Skip to main content
Text Tools

Was gilt als ein Wort? Satzzeichen, Emoji, Bindestriche & Kontraktionen

Zählen Bindestrich-Wörter, Kontraktionen und Emoji als ein Wort? Wie Microsoft Word, Google Docs und Stilrichtlinien Satzzeichen, Striche und Unicode zählen.

By 8 min read

Fügen Sie denselben Absatz in drei verschiedene Wortzähler ein - Microsoft Word, Google Docs und ein beliebiges Browser-Tool - und Sie erhalten oft drei verschiedene Zahlen. Sie alle zählen „Wörter" in einem Dokument, das offensichtlich Wörter enthält. Warum die Abweichung?

Weil „Wort" keine klar definierte Texteinheit ist. Es ist ein menschliches Konzept, das durch Regeln angenähert wird, und die Regeln variieren.

Brauchen Sie einfach eine Zahl? Unser Wortzähler verwendet Unicode-fähige Tokenisierung und zeigt Wörter, Zeichen und Zeilen nebeneinander. Die schnellen Antworten unten klären die häufigen Grenzfälle; der Rest der Seite erklärt, warum Zähler abweichen.

Zählen Satzzeichen als separates Wort?

Nein. Standard-Wortzähler und jede wichtige Stilrichtlinie ignorieren Satzzeichen als Wörter. „Hello, world!" sind 2 Wörter, nicht 4. Kommas, Punkte und Semikolons, die an ein Wort angehängt sind, teilen es nie. Ein einzelnes Satzzeichen, das zwischen zwei Leerzeichen steht, kann bei einer naiven Leerzeichen-Aufteilung als Token registriert werden, aber keine Stilrichtlinie behandelt es als echtes Wort, und kein seriöser Zähler meldet es als solches.

Zählen Bindestrich-Wörter als ein Wort?

Ein Wort, in fast jeder Stilrichtlinie. Chicago, AP und MLA zählen ein Bindestrich-Kompositum wie „well-being" oder „state-of-the-art" als ein einzelnes Wort, weil kein Leerzeichen die Teile trennt. Microsoft Word und Google Docs wenden dieselbe Leerzeichen-Regel an, sodass „well-known" als 1 zählt. Die Ausnahme sind offene Komposita wie „high school", wo ein echtes Leerzeichen es zu zwei Wörtern macht.

Zählen Kontraktionen und Apostrophe als ein Wort?

Ja, ein Wort. Kontraktionen wie „don't", „it's" und „we'd" zählen in jeder wichtigen Stilrichtlinie als ein einzelnes Wort, weil kein Leerzeichen die Buchstaben trennt; der Apostroph ist intern und teilt das Wort nicht. Possessivformen wie „John's" folgen derselben Regel. Ein Apostroph allein ist nie ein Wort, sodass die Zählung nur steigt, wenn ein echtes Leerzeichen erscheint.

Zählt Microsoft Word Emoji als Wörter?

Ja, wenn das Emoji von einem Leerzeichen umgeben ist. Microsoft Word, Google Docs und die meisten Online-Zähler verwenden eine Leerzeichen-Token-Regel, sodass ein von Leerzeichen umgebenes Emoji die Wortzählung um 1 erhöht. An Text ohne Leerzeichen geheftet (wie hi👋), wird es Teil dieses Wortes und die Zählung steigt nicht. Words Zeichen-Zählung behandelt die meisten Emoji aufgrund der UTF-16-Kodierung als 2 Zeichen.

Trennt ein Gedankenstrich Wörter?

Es hängt von den Leerzeichen darum ab. Mit Leerzeichen, wie sharp — focused, trennt der Strich Token und beide Seiten zählen als separate Wörter. Ohne Leerzeichen, wie sharp—focused, behandelt ein Leerzeichen-Splitter die Sequenz als ein Wort, während ein Unicode-Segmentierer zwei zählt. Die meisten Stilrichtlinien empfehlen Leerzeichen um Gedankenstriche, sodass in der Praxis beide Hälften in der Regel zählen.

Warum Wortzähler abweichen

Die obigen Antworten laufen auf eine Sache hinaus: Zähler verwenden unterschiedliche Regeln, um zu entscheiden, wo ein Wort endet und das nächste beginnt. Drei Algorithmen dominieren, und sie weichen genau an den Grenzen ab - Satzzeichen, Striche, Emoji und nicht-lateinische Schriften.

Die Leerzeichen-Aufteilung: schnellste, gröbste

Der einfachste Algorithmus lautet: Text an Leerzeichen aufteilen, nicht-leere Teile zählen.

text.split(/\s+/).filter(Boolean).length

Das kommt für einfaches Englisch fast ans Ziel. „The quick brown fox jumps over the lazy dog" sind nach jeder vernünftigen Definition 9 Wörter, und die Leerzeichen-Aufteilung stimmt zu.

An den Grenzen beginnt es zu wackeln:

  • Gedankenstriche ohne Leerzeichen: "sharp—focused work" wird als ein Wort aufgeteilt, aber die meisten Leser würden drei sagen.
  • Bindestrich-Komposita: "well-documented" ist ein Wort nach Leerzeichen, aber einige Stilrichtlinien zählen es als zwei.
  • Kontraktionen: "don't" ist ein Wort nach Leerzeichen, was die meisten Menschen zustimmen, aber wenn Ihr Splitter Apostrophe als Grenzen einschließt (einige tun das), werden es zwei.
  • Mehrfache Leerzeichen: Ein Absatz mit inkonsistentem Abstand zählt noch korrekt, wenn Sie auf \s+ (eins oder mehr) aufteilen, aber zählt falsch, wenn Sie auf ein wörtliches Leerzeichen aufteilen.
  • Tabs und nicht umbrechende Leerzeichen (U+00A0): Wenn Ihr Splitter \s verwendet, werden beide als Leerzeichen behandelt, was normalerweise das ist, was Sie möchten.

Unser Wortzähler verwendet eine Unicode-fähige Leerzeichen-Aufteilung, die Gedankenstriche, Halbgeviertstriche und Nullbreiten-Verbinder konsistent behandelt, was näher an dem ist, was Menschen erwarten, als eine naive Aufteilung.

Der Wortgrenzen-Ansatz: sorgfältiger, langsamer

Moderne Wortzähler verwenden oft Unicode-Textsegmentierung (UAX #29), um „Wortgrenzen" zu identifizieren, anstatt nur auf Leerzeichen aufzuteilen. Der Algorithmus unterscheidet:

  • Buchstaben (Unicode-Kategorie L)
  • Ziffern (N)
  • Verbindungssatzzeichen (Pc)
  • Striche, Anführungszeichen, Leerzeichen

Eine Folge von Buchstaben und Ziffern (möglicherweise durch ' oder - in der Mitte verbunden) zählt als ein Wort. Alles andere - Satzzeichen, Leerzeichen, Symbole - ist eine Grenze.

Dieser Algorithmus ist besser bei:

  • "it's" → 1 Wort (der Apostroph ist intern)
  • "sharp—focused" → 2 Wörter (der Gedankenstrich ist eine Grenze)
  • "20mg" → 1 Wort (die Ziffernfolge hängt an der Buchstabenfolge)

Er ist schlechter (oder seltsamer) bei:

  • "hello,world" (kein Leerzeichen) → 2 Wörter durch Segmentierung, 1 durch Leerzeichen-Aufteilung
  • "O'Brien" → 1 Wort (Apostroph ist intern), was die meisten Menschen möchten, aber eine Ermessensentscheidung ist

Die Microsoft Word- und Google Docs-Zählungen tendieren dazu, nahe an einem segmentierungsbasierten Ansatz zu sein, mit einigen Anpassungen. Das ist ein Teil des Grundes, warum ihre Zahlen von einfachen Aufteilungen abweichen - sie verwenden einen anderen Algorithmus, nicht eine andere Definition.

Was sich ändert, wenn Sprachen wechseln

Englisch macht das einfach, weil es Leerzeichen zwischen Wörtern verwendet. Die meisten anderen alphabetischen Sprachen auch - Französisch, Spanisch, Russisch, Griechisch. Wenn Sie sich darin bewegen, ist der Leerzeichen-Ansatz in Ordnung.

Die Sprachen, die den Ansatz vollständig brechen:

  • Chinesisch, Japanisch, Koreanisch (CJK) - keine Leerzeichen zwischen den meisten Wörtern. Eine Seite Chinesisch hat keine Leerzeichen wie Englisch. Das Zählen von „Wörtern" erfordert einen morphologischen Analysator, der weiß, wo ein Wort endet und das nächste beginnt, und die Antwort hängt von linguistischen Konventionen ab, die je nach Region variieren.
  • Thailändisch, Laotisch, Khmer - schreiben ebenfalls ohne Wortabstände.
  • Arabisch, Hebräisch - verwenden Leerzeichen, aber die Morphologie ist komplexer (Präfixe und Suffixe hängen auf eine Art und Weise an Stämme, die die Zählung verschiebt).

Für CJK-Text fallen die meisten Wortzähler auf die Zeichenzählung zurück. Der Zeichenzähler zählt Unicode-Graphem-Cluster, was die richtige Einheit für CJK ist, weil jedes sichtbare Zeichen nach den Standards, um die sich diese Schriftsysteme kümmern, ungefähr „ein Wort" ist.

Grapheme: die Wendung

Sogar die Zeichenzählung ist nicht so einfach wie „Anzahl der Unicode-Codepunkte". Betrachten Sie:

  • "é" kann ein Codepunkt sein (U+00E9, vorkombiniert) oder zwei (U+0065 + U+0301, Buchstabe + kombinierender Akzent). Beide werden identisch dargestellt.
  • "👨‍👩‍👧‍👦" (Familien-Emoji) besteht aus sieben Codepunkten, die mit Nullbreiten-Verbindern verbunden sind, aber einem sichtbaren Graphem.
  • "🇺🇸" (US-Flagge) besteht aus zwei Codepunkten - einem regionalen Indikator für U und einem für S.

Wenn Ihre Zeichenzählung .length auf einem JavaScript-String verwendet, erhalten Sie die Anzahl der UTF-16-Codeeinheiten, die alles außerhalb der Basic Multilingual Plane als zwei Einheiten behandelt. "👋".length === 2. Die meisten Benutzer betrachten das nicht als zwei Zeichen.

Die richtige Einheit für die meisten benutzerseitigen Zählungen ist das Graphem-Cluster - was ein Mensch als ein einzelnes sichtbares Zeichen wahrnimmt. Intl.Segmenter in modernem JavaScript bietet dies:

function graphemeCount(text) {
  const segmenter = new Intl.Segmenter(undefined, { granularity: 'grapheme' });
  return [...segmenter.segment(text)].length;
}

Dies gibt 1 für "👨‍👩‍👧‍👦" zurück, was dem entspricht, was ein Benutzer zählen würde.

Zeilen: weniger mehrdeutig, dennoch kompliziert

Die Zeilenzählung klingt trivial: Zeilenumbrüche zählen. Aber:

  • CRLF vs. LF (Windows- vs. Unix-Zeilenenden) - zählt dieselbe Anzahl von Zeilen, wenn Sie \n zählen, aber unterschiedliche, wenn Sie \r\n separat zählen.
  • Ein abschließender Zeilenumbruch - zählt die letzte leere Zeile? (POSIX sagt ja, Unix-Tools sind uneinig.)
  • Zeilenumbruch - wenn eine Zeile in Ihrem Editor umbricht, weil sie zu lang für das Fenster ist, ist es immer noch eine logische Zeile, aber als zwei gerendert.

Der Zeilenzähler zählt logische Zeilen (getrennt durch jede Zeilenumbruch-Konvention) und gibt Ihnen sowohl „Zeilen einschließlich abschließender leerer" als auch „Zeilen ohne abschließende leere", damit Sie wählen können.

Welcher Zählung vertrauen

Die Wahl des Wortzähl-Algorithmus hängt davon ab, was Sie messen:

  • Formelles Schreiben gegen ein 2000-Wörter-Limit - verwenden Sie das Tool, das die Autorität verwendet. Wenn es eine Zeitschrifteneinreichung ist, ist die Zählung ihres Systems die einzige, die zählt. Wenn es ein Blog-Beitrag oder ein allgemeiner Aufsatz ist, ist jede vernünftige Zählung in Ordnung; der Unterschied zwischen 2000 und 2003 spielt keine Rolle.
  • Vergleich zweier Entwürfe - verwenden Sie beide Male dasselbe Tool. Absolute Zahlen sind weniger wichtig als das Delta.
  • Schätzung von Übersetzungskosten - die Wortzahl variiert stark zwischen Sprachen. Dieselbe Bedeutung auf Deutsch ausgedrückt ist typischerweise 20-30 % mehr Wörter als auf Englisch; Japanisch ist kürzer nach Zeichenzählung, hängt aber von Ihrer Zählmethode ab.
  • UI-Zeichenlimits - verwenden Sie Graphem-Cluster, nicht UTF-16-Einheiten. Ein Benutzer, der ein Emoji tippt, erwartet, dass es „eines" seiner erlaubten Zeichen belegt, nicht zwei.
  • Datenbankspeicherung - verwenden Sie Bytes (UTF-8-kodiert). Ein 255-Byte-VARCHAR kann weniger „Zeichen" speichern, als Sie denken, wenn der Inhalt Multi-Byte-Zeichen enthält.

Das praktische Fazit

Wenn zwei Wortzähler abweichen, haben beide recht - sie verwenden unterschiedliche Algorithmen. Die Frage ist nicht „welcher ist korrekt", sondern „welcher Algorithmus passt zum Kontext, der mir wichtig ist." Für die meisten Schreibaufgaben wählen Sie ein Tool, dem Sie vertrauen, und verwenden Sie es konsequent. Die absolute Zahl ist weniger informativ als der Trend.

Und wenn Sie jemals Wörter von Hand zählen, weil ein Tool falsch erscheint: Sie zählen nicht dasselbe wie das Tool. Finden Sie heraus, welchen Algorithmus das Tool verwendet, bevor Sie damit streiten.

In diesem Artikel erwähnte Tools

  • Word Counter - Count words, characters, sentences, paragraphs and estimate reading time.
  • Character Counter - Count characters with platform-specific limits for Twitter, Instagram and more.
  • Line Counter - Count total lines, blank lines and get line statistics.

Ähnliche Artikel