26. Unicode in ES6

Dieses Kapitel erklärt die verbesserte Unterstützung für Unicode, die ECMAScript 6 mit sich bringt. Für eine allgemeine Einführung in Unicode lesen Sie Kap. „Unicode und JavaScript“ in „Speaking JavaScript“.

26.1. Unicode wird in ES6 besser unterstützt
26.2. Escape-Sequenzen in ES6
- 26.2.1. Wo können Escape-Sequenzen verwendet werden?
- 26.2.2. Escape-Sequenzen in der ES6-Spezifikation

26.1 Unicode wird in ES6 besser unterstützt

Es gibt drei Bereiche, in denen ECMAScript 6 die Unterstützung für Unicode verbessert hat

Unicode-Escapes für Code-Punkte über 16 Bit: \u{···}
Können in Bezeichnern, Zeichenketten-Literalen, Template-Literalen und regulären Ausdrucks-Literalen verwendet werden. Sie werden im nächsten Abschnitt erklärt.
Strings:
- Iteration berücksichtigt Unicode-Code-Punkte.
- Code-Punkt-Werte über String.prototype.codePointAt() lesen.
- Eine Zeichenkette aus Code-Punkt-Werten über String.fromCodePoint() erstellen.
Reguläre Ausdrücke:
- Das neue Flag /u (plus die boolesche Eigenschaft unicode) verbessert die Handhabung von Ersatzpaarungen.

Zusätzlich basiert ES6 auf der Unicode-Version 5.1.0, während ES5 auf der Unicode-Version 3.0 basiert.

26.2 Escape-Sequenzen in ES6

Es gibt drei parametrisierte Escape-Sequenzen zur Darstellung von Zeichen in JavaScript

Hex-Escape (genau zwei Hexadezimalziffern): \xHH
```
  > '\x7A' === 'z'
  true
```
Unicode-Escape (genau vier Hexadezimalziffern): \uHHHH
```
  > '\u007A' === 'z'
  true
```
Unicode-Code-Punkt-Escape (1 oder mehr Hexadezimalziffern): \u{···}
```
  > '\u{7A}' === 'z'
  true
```

Unicode-Code-Punkt-Escapes sind neu in ES6. Sie ermöglichen die Angabe von Code-Punkten über 16 Bit hinaus. Wenn Sie das in ECMAScript 5 tun wollten, mussten Sie jeden Code-Punkt als zwei UTF-16-Code-Einheiten (ein Ersatzpaar) kodieren. Diese Code-Einheiten konnten über Unicode-Escapes ausgedrückt werden. Zum Beispiel gibt die folgende Anweisung eine Rakete (Code-Punkt 0x1F680) auf den meisten Konsolen aus

console.log('\uD83D\uDE80');

Mit einem Unicode-Code-Punkt-Escape können Sie Code-Punkte größer als 16 Bit direkt angeben

console.log('\u{1F680}');

26.2.1 Wo können Escape-Sequenzen verwendet werden?

Die Escape-Sequenzen können an den folgenden Stellen verwendet werden

	`\uHHHH`	`\u{···}`	`\xHH`
Bezeichner	✔	✔
Zeichenketten-Literale	✔	✔	✔
Template-Literale	✔	✔	✔
Reguläre Ausdrucks-Literale	✔	Nur mit dem Flag `/u`	✔

Bezeichner

Ein 4-stelliger Unicode-Escape \uHHHH wird zu einem einzigen Code-Punkt.
Ein Unicode-Code-Punkt-Escape \u{···} wird zu einem einzigen Code-Punkt.

> const hello = 123;
> hell\u{6F}
123

Zeichenketten-Literale

Zeichenketten werden intern als UTF-16-Code-Einheiten gespeichert.
Ein Hex-Escape \xHH liefert eine UTF-16-Code-Einheit.
Ein 4-stelliger Unicode-Escape \uHHHH liefert eine UTF-16-Code-Einheit.
Ein Unicode-Code-Punkt-Escape \u{···} liefert die UTF-16-Kodierung seines Code-Punkts (eine oder zwei UTF-16-Code-Einheiten).

Template-Literale

In Template-Literalen werden Escape-Sequenzen wie in Zeichenketten-Literalen behandelt.
In getaggten Templates hängt die Interpretation von Escape-Sequenzen von der Tag-Funktion ab. Sie kann zwischen zwei Interpretationen wählen
- Gekocht: Escape-Sequenzen werden wie in Zeichenketten-Literalen behandelt.
- Roh: Escape-Sequenzen werden als Zeichensequenz behandelt.

> `hell\u{6F}` // cooked
'hello'
> String.raw`hell\u{6F}` // raw
'hell\\u{6F}'

Reguläre Ausdrücke

Unicode-Code-Punkt-Escapes sind nur erlaubt, wenn das Flag /u gesetzt ist, da \u{3} andernfalls als dreimal das Zeichen u interpretiert wird
```
  > /^\u{3}$/.test('uuu')
  true
```

26.2.2 Escape-Sequenzen in der ES6-Spezifikation

Verschiedene Informationen

Die Spezifikation behandelt Quellcode als eine Sequenz von Unicode-Code-Punkten: „Source Text“
Unicode-Escape-Sequenzen in Bezeichnern: „Names and Keywords“
Zeichenketten werden intern als Sequenzen von UTF-16-Code-Einheiten gespeichert: „String Literals“
Zeichenketten – wie verschiedene Escape-Sequenzen in UTF-16-Code-Einheiten übersetzt werden: „Static Semantics: SV“
Template-Literale – wie verschiedene Escape-Sequenzen in UTF-16-Code-Einheiten übersetzt werden: „Static Semantics: TV and TRV“

26.2.2.1 Reguläre Ausdrücke

Die Spezifikation unterscheidet zwischen BMP-Mustern (Flag /u nicht gesetzt) und Unicode-Mustern (Flag /u gesetzt). Abschn. „Pattern Semantics“ erklärt, dass sie unterschiedlich behandelt werden und wie.

Zur Erinnerung, hier ist, wie Grammatikregeln in der Spezifikation parametrisiert werden

Wenn eine Grammatikregel R den Index [U] hat, bedeutet dies, dass es zwei Versionen davon gibt: R und R_U.
Teile der Regel können den Index über [?U] weitergeben.
Wenn ein Teil einer Regel das Präfix [+U] hat, existiert er nur, wenn der Index [U] vorhanden ist.
Wenn ein Teil einer Regel das Präfix [~U] hat, existiert er nur, wenn der Index [U] nicht vorhanden ist.

Diese Parametrisierung kann man in Abschn. „Patterns“ beobachten, wo der Index [U] separate Grammatiken für BMP-Muster und Unicode-Muster erstellt

IdentityEscape: In BMP-Mustern können viele Zeichen mit einem Backslash versehen und als sie selbst interpretiert werden (z. B.: wenn \u nicht von vier Hexadezimalziffern gefolgt wird, wird es als u interpretiert). In Unicode-Mustern funktioniert dies nur für die folgenden Zeichen (was \u für Unicode-Code-Punkt-Escapes freigibt): ^ $ \ . * + ? ( ) [ ] { } |
RegExpUnicodeEscapeSequence: "\u{" HexDigits "}" ist nur in Unicode-Mustern erlaubt. In diesen Mustern werden führende und nachfolgende Surrogates ebenfalls gruppiert, um bei der UTF-16-Dekodierung zu helfen.

Abschn. „CharacterEscape“ erklärt, wie verschiedene Escape-Sequenzen in Zeichen übersetzt werden (ungefähr: entweder Code-Einheiten oder Code-Punkte).

Weiter: 27. Tail Call Optimization

26. Unicode in ES6 #

26.1 Unicode wird in ES6 besser unterstützt #

26.2 Escape-Sequenzen in ES6 #

26.2.1 Wo können Escape-Sequenzen verwendet werden? #