《漢字輸入編碼》PPT課件.ppt
《《漢字輸入編碼》PPT課件.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《《漢字輸入編碼》PPT課件.ppt(38頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 第四章漢字編碼技術(shù) 漢字編碼的概念 從廣義角度看字典 詞典編碼方法 用于在字典和詞典中的快速定位 常見(jiàn)的方法 部首 筆畫 拼音和四角號(hào)碼等從狹義角度看漢字鍵盤編碼 用計(jì)算機(jī)鍵盤上的按鍵為漢字編碼 漢字編碼的發(fā)展 20世紀(jì)70年代起步階段 拼音編碼 五筆字形 自然碼等 效率較低20世紀(jì)80年代中期轟轟烈烈的 大躍進(jìn) 式編碼活動(dòng) 但沒(méi)有什么發(fā)展20世紀(jì)90年代蕭條期進(jìn)入21世紀(jì)后將是又一個(gè)發(fā)展期 數(shù)字編碼方案將占主導(dǎo) 漢字編碼中的幾個(gè)概念 1 字符集 字匯和詞匯字符集 字匯多 少詞匯多 少特指某個(gè)編碼方案編碼詞組的集合碼元組成輸入碼的字符集合稱為碼元 如拼音碼的碼元是 a z 中的任意一個(gè)字母 縱橫碼的碼元是 0 9 中的任意一個(gè)數(shù)字 漢字編碼中的幾個(gè)概念 2 碼長(zhǎng)輸入碼的長(zhǎng)度稱為碼長(zhǎng) 如輸入碼 123 的碼長(zhǎng)為3等長(zhǎng)編碼 如區(qū)位碼等不等長(zhǎng)編碼 如拼音碼 縱橫碼等單碼和重碼一個(gè)編碼可能對(duì)應(yīng)多個(gè)漢字和詞組 那么這些漢字或詞組稱為重碼 一個(gè)編碼如對(duì)應(yīng)的漢字和詞組只有一個(gè)時(shí) 稱這個(gè)漢字和詞組為單碼 漢字編碼中的幾個(gè)概念 3 編碼空間和編碼效率所有可能的輸入碼集合 稱為編碼空間 編碼空間的大小依賴于碼元集合和碼長(zhǎng) 如某個(gè)編碼方案的碼元共有K個(gè) 編碼采用等長(zhǎng)碼 長(zhǎng)度為i 則編碼空間大小為 C Ki 如區(qū)位碼的編碼空間大小為 C 104 即10000個(gè) 編碼效率簡(jiǎn)單而言是指編碼的字匯 詞匯除以編碼空間的大小 如區(qū)位碼 它的字匯大小為6763 則編碼效率為6773 10000 67 73 漢字的墑 1 信息量的概念 熵 在信息論里叫信息量 從控制論的角度來(lái)看 應(yīng)叫不確定性 最簡(jiǎn)單的是只有兩種可能性 非此即彼 我們以這種事物的信息量為單位 叫1比特 bit 如果可能性數(shù)目有2的n次方 N 2n 那就是n比特 即信息量等于可能性數(shù)目N的 以2為底的對(duì)數(shù) H 2N N 2 信息量應(yīng)按符號(hào)的可能性 數(shù)學(xué)上叫概率大小 來(lái)計(jì)算 它是概率的負(fù)對(duì)數(shù) 平均信息量就是它們的加權(quán)平均H pi pi 1 i n 文字信號(hào)的信息量H是信號(hào)個(gè)數(shù)n的以2為底的對(duì)數(shù) H n 2 英文有26個(gè)字母 每個(gè)字母的信息量H 26 2 4 700 各種語(yǔ)言的字母的信息量 法文3 98比特意大利文4 00比特西班牙文4 01比特英文4 03比特德文4 10比特羅馬尼亞文4 12比特俄文4 35比特中文9 65比特 漢字的墑 2 漢字墑的概率分布 假設(shè)給定一個(gè)漢字字符集HZ 其中漢字?jǐn)?shù)為n 則該字符集的熵為H Pi Pi 1 i n 其中 Pi為單個(gè)漢字在漢語(yǔ)文本中出現(xiàn)的概率 Pi 是第i個(gè)漢字出現(xiàn)時(shí)的信息量 Pi 是所有漢字在不考慮前后相關(guān)性時(shí)所給出的全部信息量 H是該集合中的每個(gè)漢字的平均信息量 漢字的墑 3 漢字墑的意義 平均信息量 信息熵 表示存儲(chǔ)或表示該漢字字符集所需要的二進(jìn)制位數(shù) 中文約為9 65bit 根據(jù)每個(gè)漢字的平均熵 通過(guò)采用不等長(zhǎng)編碼可以提高漢字存儲(chǔ)和傳輸效率 信息量 信息熵 與字的使用頻度成反比 即頻度下降一半 其信息量增加1位 對(duì)漢字編碼而言 采用多于2個(gè)碼元時(shí) 漢字的平均熵也會(huì)下降 如 當(dāng)m 2時(shí) Lmin 3 4 當(dāng)m 47時(shí)Lmin 1 73 2 73 不同領(lǐng)域 字的使用頻度不同 因此 對(duì)大系統(tǒng)內(nèi)的漢字信息熵的意義不大 漢字鍵盤編碼的依據(jù) 心理依據(jù) 從心理學(xué)角度來(lái)看 根據(jù)漢字音信息的漢字編碼 人在大腦中無(wú)需進(jìn)行任何的思考 就可以輸入漢字 所以說(shuō)是最為直接的輸入方式 根據(jù)漢字形信息的漢字編碼 用戶在輸入時(shí) 大腦需要把語(yǔ)言轉(zhuǎn)換為字形 然后才能輸入 所以說(shuō)是一種間接的輸入方式 漢字心理學(xué)和模糊心理學(xué)的研究表明 人認(rèn)字時(shí)上半部?jī)?yōu)于下半部 外圍優(yōu)于中間 從排列心理學(xué)角度來(lái)看 希望漢字的編碼能盡量唯一 并能盡量表達(dá)漢字的本身特征 漢字鍵盤編碼的依據(jù) 漢語(yǔ)拼音 漢語(yǔ)拼音的語(yǔ)言形式有三個(gè)要素 聲母 韻母和聲調(diào) 三者構(gòu)成一個(gè)音節(jié) 其中聲母有21個(gè) 韻母有35個(gè) 聲調(diào)有五種 陰平 陽(yáng)平 上聲 去聲和輕聲 聲韻結(jié)合起來(lái)有417個(gè)基本音節(jié) 如果考慮聲調(diào) 總共有1330個(gè)左右的音節(jié) 所有的計(jì)算機(jī)用漢字的發(fā)音都在這些音節(jié)范圍內(nèi) 這就是漢字同音字 詞多的根本所在 如在GBK中 拼音 yi 有個(gè)460多個(gè)對(duì)應(yīng)的漢字 同樣也存在大量的同音詞 這就造成重碼多和輸入不方便 這是以音作為編碼要素存在的主要問(wèn)題 漢字鍵盤編碼的依據(jù) 漢字部件 漢字的字形分為三級(jí) 筆畫 漢字部件 如偏旁部首 和整字 由筆畫構(gòu)成漢字部件 由漢字部件構(gòu)成整字 絕大多數(shù)根據(jù)漢字字形的編碼方案基本上是基于部件的編碼 如 五筆 表形碼 等 基于部件的漢字編碼需要解決的問(wèn)題是 漢字如何拆分 用漢字部件編碼的最大問(wèn)題是部件的規(guī)范問(wèn)題 漢字鍵盤編碼的依據(jù) 筆畫 筆順 筆畫 筆順編碼是選取漢字的基本筆畫 如五種或八種 把筆畫定義到漢字的數(shù)字鍵和字母鍵上 然后依筆順或漢字的筆順來(lái)給漢字編碼 筆畫輸入近年來(lái)受到了特別的重視 主要是手機(jī)迅速普及所致 筆畫輸入的優(yōu)勢(shì)在于簡(jiǎn)單 無(wú)需學(xué)習(xí)和記憶 筆畫輸入的困難在于單字輸入重碼多 詞組輸入效率低 句子輸入則困難 漢字編碼的分類 流水碼 將漢字按照一定順序排列后 給每個(gè)漢字以一個(gè)特定的順序號(hào) 形成的漢字編碼稱為流水碼 也稱無(wú)理碼或順序碼 一個(gè)現(xiàn)成的順序就是漢字內(nèi)碼的排列順序 區(qū)位碼和內(nèi)碼就是其中的兩個(gè)實(shí)例 流水碼的好處在于編碼與漢字一一對(duì)應(yīng) 絕無(wú)重碼 缺點(diǎn)是編碼無(wú)規(guī)律 記憶難度大 不易掌握 漢字編碼的分類 音碼 音碼是以漢字的發(fā)音為基礎(chǔ)的一種漢字編碼 一般以 漢語(yǔ)拼音方案 為藍(lán)本進(jìn)行設(shè)計(jì) 如智能ABC 全拼 雙拼 微軟拼音 紫光拼音等 音碼的最大好處是簡(jiǎn)單易學(xué) 音碼的缺點(diǎn) 漢字同音字太多 檢索同音字使?jié)h字輸入速度大大減慢 目前音碼仍然是使用最廣泛的編碼 幾乎96 以上的用戶采用音碼 值得一提的是 音碼本身也在揚(yáng)長(zhǎng)避短 作了許多有益的改進(jìn) 漢字編碼的分類 形碼 形碼是依漢字的字形來(lái)編碼的 如五筆字型 筆形碼 大眾碼等 形碼有效地避免了按發(fā)音輸入的缺陷 重碼率也相對(duì)較低 為實(shí)現(xiàn)漢字的盲打提供了可能 成為專業(yè)人員的首選漢字輸入碼 形碼的部件多 分布廣 記憶起來(lái)較難 同時(shí)須經(jīng)過(guò)較長(zhǎng)時(shí)間的學(xué)習(xí)訓(xùn)練才能熟練掌握 漢字編碼的分類 音形碼 形音碼 音形碼 形音碼兼顧漢字的讀音 字形兩方面的特點(diǎn)進(jìn)行混合編碼 音形碼在兼有音碼和形碼二者之長(zhǎng)的同時(shí) 也兼有二者的一些弱點(diǎn) 音形碼在輸入時(shí)既考慮漢字的讀音又考慮漢字的寫法 人需要思考的時(shí)間也會(huì)增多 造成輸入時(shí)的瓶頸 海曼 Hyman 公式與漢字編碼時(shí)間 海曼公式的一般形式為 T a十bH K 其中 T為平均選擇反應(yīng)時(shí)間 K是選擇信號(hào)的個(gè)數(shù) H K 為每一個(gè)信號(hào)的平均信息量 a和b是系數(shù) 漢字編碼時(shí)間的公式 T a十blog2K十Ca為大腦發(fā)出指令沖動(dòng)到肌肉動(dòng)作所需時(shí)間 即擊鍵時(shí)間 blog2K理解為 選擇時(shí)間與信息量成正比 的適用條件下 選擇等概率鍵位所需時(shí)間的一種可采用的表達(dá)方式 C代表一個(gè)碼元的平均 編碼時(shí)間 反應(yīng)了思維時(shí)間和檢索時(shí)間的長(zhǎng)短 鍵盤分區(qū)圖 大鍵盤編碼 如果一種編碼的碼元集合為 a z 這26個(gè)字母或它的子集 那么我們稱這種碼元的鍵盤映射方式為大鍵盤編碼 如全拼和智能ABC等拼音編碼 五筆 鄭碼等等 各種拼音編碼一般都是采用大鍵盤編碼 形碼也有采用大鍵盤的 如五筆就是一個(gè)典型的例子 一般采用大鍵盤的碼長(zhǎng)在3 4之間 平均碼長(zhǎng)一般不能超過(guò)4 小鍵盤編碼 采用鍵盤右邊的數(shù)字區(qū)的 0 9 這10個(gè)數(shù)字進(jìn)行編碼的方法稱為小鍵盤編碼 如區(qū)位 縱橫 字原 五筆數(shù)碼等均是小鍵盤編碼 采用小鍵盤編碼的以形碼居多 音碼也有但不多 形碼一般都采用筆畫編碼 音碼在計(jì)算機(jī)小鍵盤上應(yīng)用很少 主要是用在數(shù)碼產(chǎn)品上 如手機(jī) 電話 遙控器等 實(shí)現(xiàn)時(shí)一般把26個(gè)英文字母映射到10個(gè)數(shù)字按鍵上 縱橫碼的鍵位圖 字母數(shù)字映射圖 大大鍵盤編碼 大大鍵盤編碼是指編碼的碼元不僅是大鍵盤上的26個(gè)字母 還包括10個(gè)數(shù)字和部分的其它符號(hào) 這種編碼方案早期很多 如字元編碼 錢碼 陸碼 綠色拼形等 早期出現(xiàn)這樣的編碼方法主要是可以增加編碼空間 從而降低重碼率 實(shí)現(xiàn)快速輸入 這種編碼方案已經(jīng)很少了 主要是因?yàn)檫@種方案具有不易學(xué)和難記等缺陷 綠色拼形編碼的鍵位分布圖 小小鍵盤編碼 小小鍵盤編碼是指只用5個(gè)數(shù)字來(lái)編碼 也就是碼元數(shù)只有5個(gè) 小小鍵盤編碼方案主要是應(yīng)用在手機(jī)等數(shù)碼設(shè)備上 幾乎所有的手機(jī)筆形編碼均是采用小小鍵盤編碼 Nokia筆畫輸入法小小鍵盤圖 數(shù)碼鍵盤方案 所謂的漢字?jǐn)?shù)碼是指用 0 到 9 十個(gè)數(shù)字對(duì)漢字的單字和詞組進(jìn)行編碼 使得只用小鍵盤就可以完成漢字的輸入 并可移植到手機(jī)以及各類PDA產(chǎn)品上使用 縱橫碼 在縱橫漢字編碼方案中 把筆形分為10類 分別用 0 到 9 這10個(gè)數(shù)字表示 筆形與數(shù)字代碼的關(guān)系可通過(guò)下列口訣記憶 一橫二豎三點(diǎn)捺 叉四插五方塊六 七角八八九是小 撇與左鉤都是零 取碼規(guī)則是將漢字看成一個(gè)方塊字 取漢字四個(gè)角的筆形為有關(guān)編碼 類似四角號(hào)碼取碼規(guī)則 部分漢字的取碼實(shí)例 人 8 中 5 十 4 重 01 要 14 喜 46 事 50 五筆數(shù)碼 五筆數(shù)碼按照筆畫進(jìn)行編碼 筆畫分為 橫 豎 撇 捺 折 五種 分別用 1 2 3 4 5 作為代碼 下表為基本筆畫代碼表 6鍵6碼鍵盤圖 9鍵9碼鍵盤圖 統(tǒng)一碼 該方案取5種基本筆畫 橫 一 含 提 豎 丨 含 豎勾 撇 丿 包括 啄 點(diǎn) 丶 含 捺 和 折 乙 包括左折和右折 并且將這五種筆畫賦予順序值 1 5 數(shù)字統(tǒng)一碼將漢字結(jié)構(gòu)歸納概括為四種基本結(jié)構(gòu) 它們是 上下結(jié)構(gòu) 左右結(jié)構(gòu) 包圍結(jié)構(gòu) 嵌套結(jié)構(gòu) 同時(shí)規(guī)定一個(gè)漢字可以取一至六碼 字445576各359251右689 左右數(shù)碼 利用數(shù)字來(lái)表示漢字的筆劃 拼音和部件 其特征是將左右 含左中右 結(jié)構(gòu)的漢字定義為 左右字 再按書寫順序把 左右字 分為 左部 與 右部 如下表所示 把 左右字 以外的漢字都定義為 整體字 根據(jù)規(guī)則進(jìn)行數(shù)字編碼 漢字編碼國(guó)家標(biāo)準(zhǔn) 國(guó)家語(yǔ)委的規(guī)范 與漢字編碼有關(guān)的標(biāo)準(zhǔn)與規(guī)范說(shuō)明 在編碼字符集方面在鍵位設(shè)置方面在標(biāo)點(diǎn)符號(hào)方面在部件規(guī)范方面在筆順規(guī)范方面 漢字鍵盤編碼和輸入系統(tǒng)的性能指標(biāo) 易學(xué)性 學(xué)會(huì)使用漢字編碼輸入系統(tǒng)的時(shí)間應(yīng)盡量短 并應(yīng)符合使用漢語(yǔ)作為母語(yǔ)的使用者的思維習(xí)慣 GB T18031對(duì)數(shù)字編碼更進(jìn)一步提出要求 做到上手能用 漢字輸入平均碼長(zhǎng)重碼字詞鍵選率- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 漢字輸入編碼 漢字輸入 編碼 PPT 課件
鏈接地址:http://m.appdesigncorp.com/p-6787968.html