🇨🇳 中文

Unicode解码在线工具

将\uXXXX或\u{XXXXXX}格式快速还原为汉字、符号、表情,纯前端运行,无需上传。

Unicode 解码科普

1. 什么是 Unicode?

Unicode 是一套全球统一的字符编码标准,为世界上几乎所有文字、符号、表情分配唯一的码位(Code Point),解决早期编码碎片化导致的乱码问题。

2. 码位与编码格式

  • 码位:U+XXXX 表示,范围 U+0000U+10FFFF(共 1,114,112 个)。
  • 常用编码:UTF-8(变长 1-4 字节)、UTF-16(2 或 4 字节)、UTF-32(定长 4 字节)。
  • 前端常见:\uXXXX 是 UTF-16 代码单元转义,不足 4 位补零;超过 U+FFFF 用代理对 \uD800\uDC00 或 ES6 \u{1F600}

3. 平面与区块

平面范围用途示例
基本多语言平面 BMPU+0000 – U+FFFFASCII、汉字、常用符号
补充多语言平面 SMPU+10000 – U+1FFFF历史文字、罕见汉字
补充表意平面 SIPU+20000 – U+2FFFF康熙部首、扩展 B/C/D 汉字
补充特殊用途平面 SSPU+E0000 – U+EFFFF标签、变体选择器

4. 前端转义一览

// ES5 代理对(>U+FFFF)
"\uD83D\uDE00"        // 😀
// ES6 大括号写法
"\u{1F600}"           // 😀
// 数字转义
String.fromCharCode(0x4F60)      // "你"
String.fromCodePoint(0x1F600)    // 😀

5. 常见误区

  • Unicode ≠ UTF-8:前者是字符集,后者是编码实现;
  • 长度陷阱:JS .length 返回 UTF-16 代码单元数,emoji 可能为 2;
  • 存储大小:UTF-8 英文 1 字节,中文 3 字节,emoji 4 字节。

6. 历史里程碑

  1. 1988 年 Unicode 项目启动,1991 年发布 1.0;
  2. 2006 年 UTF-8 占比超过 50%,成为互联网事实标准;
  3. 2022 年 Unicode 14.0 新增 838 个字符,累计 144,697 个。

7. 一句话记住

Unicode 给每个字符发“全球身份证”,\uXXXX 只是这张身份证的“转写形式”,让文本在代码里安全通行。

8. 什么是 Unicode 解码?

\uXXXX\u{XXXXXX}形式还原为人类可读的字符,常用于读取配置文件、反序列化文本、还原聊天内容。

9. 常见场景

  • 读取经编码的 JSON 日志
  • 还原前端控制台输出的转义字符串
  • 解析经编码的聊天/邮件内容

10. JavaScript 快速参考

// 解码
function fromUnicode(str) {
  return str.replace(/\\u[\dA-F]{4}/gi, (m) => String.fromCharCode(parseInt(m.slice(2), 16)));
}

11. 隐私说明

全部计算在浏览器完成,零上传、零收集。