回到简体

This commit is contained in:
chai2010
2016-02-15 11:06:34 +08:00
parent 9e878f9944
commit 2b37b23285
177 changed files with 2354 additions and 2354 deletions

View File

@@ -1,12 +1,12 @@
### 3.5.2. Unicode
在很久以前,世界是比較簡單的,起碼計算機世界就有一ASCII字符集美国信息交換標準代碼。ASCII準確地説是美国的ASCII使用7bit表示128字符:包含英文字母的大小寫、數字、各種標點符號和設置控符。對於早期的計算機程序來説,這些就足了,但是這也導致了世界上很多其他地的用戶無法直接使用自己的符號繫統。隨着互聯網的發展,混合多種語言的數據變得很常見(譯註:比如本身的英文原文或中文翻都包含了ASCII、中文、日文等多種語言字符)。如何有效處理這些包含了各種語言的富多的文本數據呢?
在很久以前,世界是比较简单的,起码计算机世界就有一ASCII字符集美国信息交换标准代码。ASCII准确地说是美国的ASCII使用7bit表示128字符:包含英文字母的大小写、数字、各种标点符号和设置控符。对于早期的计算机程序来说,这些就足了,但是这也导致了世界上很多其他地的用户无法直接使用自己的符号系统。随着互联网的发展,混合多种语言的数据变得很常见(译注:比如本身的英文原文或中文翻都包含了ASCII、中文、日文等多种语言字符)。如何有效处理这些包含了各种语言的富多的文本数据呢?
答案就是使用Unicode http://unicode.org ),它收集了這個世界上所有的符號繫統,包括重音符和其它音符號,製表符和迴車符,有很多神的符,每個符號都分配一唯一的Unicode碼點Unicode碼點對應Go言中的rune整數類型(譯註rune是int32等價類型)。
答案就是使用Unicode http://unicode.org ),它收集了这个世界上所有的符号系统,包括重音符和其它音符号,制表符和回车符,有很多神的符,每个符号都分配一唯一的Unicode码点Unicode码点对应Go言中的rune整数类型(译注rune是int32等价类型)。
在第八版本的Unicode標準收集了超120,000字符,涵蓋超過100多種語言。些在計算機程序和數據中是如何體現的呢?通用的表示一Unicode碼點的數據類型是int32也就是Go言中rune對應的類型;它的同義詞rune符文正是這個意思。
在第八版本的Unicode标准收集了超120,000字符,涵盖超过100多种语言。些在计算机程序和数据中是如何体现的呢?通用的表示一Unicode码点的数据类型是int32也就是Go言中rune对应的类型;它的同义词rune符文正是这个意思。
可以將一個符文序列表示爲一個int32序列。這種編碼方式叫UTF-32或UCS-4Unicode碼點都使用同的大小32bit表示。這種方式比較簡單統一,但是它會浪費很多存儲空間,因爲大數據計算機可讀的文本是ASCII字符來每個ASCII字符需要8bit或1字就能表示。而且使是常用的字符也遠少於65,536,也就是用16bit編碼方式就能表常用字符。但是,有其它更好的編碼方法
可以将一个符文序列表示为一个int32序列。这种编码方式叫UTF-32或UCS-4Unicode码点都使用同的大小32bit表示。这种方式比较简单统一,但是它会浪费很多存储空间,因为大数据计算机可读的文本是ASCII字符来每个ASCII字符需要8bit或1字就能表示。而且使是常用的字符也远少于65,536,也就是用16bit编码方式就能表常用字符。但是,有其它更好的编码方法