This commit is contained in:
chai2010
2015-12-17 13:13:42 +08:00
parent b28bebc617
commit 1d9c08c03b
6 changed files with 54 additions and 54 deletions

View File

@@ -1,13 +1,13 @@
### 3.5.2. Unicode
在很久以前, 世界比较简单的, 起码计算机就只有一ASCII字符集: 美信息交换标准代码. ASCII, 更准确地说是美的ASCII, 使用 7bit 来表示 128 字符: 包含英文字母的大小, 字, 各种标点符号和设置控符. 对于早期的计算机程序, 些足了, 但是这也导致了世界上很多其他地的用户无法直接使用自己的书写系统. 着互联网的发展, 混合多种语言的数据变了很常. 如何有效处理这些包含了各种语言的富多样的数据呢?
在很久以前, 世界比較簡單的, 起碼計算機就隻有一ASCII字符集: 美信息交換標準代碼. ASCII, 更準確地說是美的ASCII, 使用 7bit 來錶示 128 字符: 包含英文字母的大小, 字, 各種標點符號和設置控符. 對於早期的計算機程序, 些足了, 但是這也導緻了世界上很多其他地的用戶無法直接使用自己的書寫係統. 着互聯網的發展, 混閤多種語言的數據變了很常. 如何有效處理這些包含了各種語言的富多樣的數據呢?
答案就是使用Unicode(unicode.org), 它收集了这个世界上所有的书写系统, 包括重音符和其他音符, 制表符和回车符, 有很多神秘符号, 每个符号都分配一Unicode码点, Unicode码点对应Go言中的rune型.
答案就是使用Unicode(unicode.org), 它收集了這箇世界上所有的書寫係統, 包括重音符和其他音符, 製錶符和迴車符, 有很多神祕符號, 每箇符號都分配一Unicode碼點, Unicode碼點對應Go言中的rune型.
第八版本的Unicode标准收集了超120,000字符, 涵盖超过100种语言. 些在计算机程序和数据中是如何体现的那? 通用的示一Unicode码点的数据类型是int32, 也就是Go言中rune对应的类型; 它的同义词rune符文正是这个意思.
第八版本的Unicode標準收集了超120,000字符, 涵蓋超過100種語言. 些在計算機程序和數據中是如何體現的那? 通用的示一Unicode碼點的數據類型是int32, 也就是Go言中rune對應的類型; 它的衕義詞rune符文正是這箇意思.
可以将一个符文序列表示为一个int32序列. 这种编码方式叫UTF-32或UCS-4, 每Unicode码点都使用同样的大小32bit来表示. 这种方式比较简单统一, 它会浪费很多存储空间, 因为大数据计算机可读的文本是ASCII字符, 本来每个ASCII字符需要8bit或1字就能示. 使是常用的字符也远少于65,536, 也就是用16bit编码方式就能表达常用字符. 但是, 有更好的编码方法?
可以將一箇符文序列錶示為一箇int32序列. 這種編碼方式叫UTF-32或UCS-4, 每Unicode碼點都使用衕樣的大小32bit來錶示. 這種方式比較簡單統一, 它會浪費很多存儲空間, 因為大數據計算機可讀的文本是ASCII字符, 本來每箇ASCII字符需要8bit或1字就能示. 使是常用的字符也遠少於65,536, 也就是用16bit編碼方式就能錶達常用字符. 但是, 有更好的編碼方法?