歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

《漢字輸入編碼》PPT課件.ppt

  • 資源ID:6787968       資源大?。?span id="6616166" class="font-tahoma">339.50KB        全文頁數(shù):38頁
  • 資源格式: PPT        下載積分:9.9積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復(fù)下載(系統(tǒng)自動生成)
支付方式: 支付寶    微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認(rèn)打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒有明確說明有答案則都視為沒有答案,請知曉。

《漢字輸入編碼》PPT課件.ppt

蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院 第四章漢字編碼技術(shù) 漢字編碼的概念 從廣義角度看字典 詞典編碼方法 用于在字典和詞典中的快速定位 常見的方法 部首 筆畫 拼音和四角號碼等從狹義角度看漢字鍵盤編碼 用計算機鍵盤上的按鍵為漢字編碼 漢字編碼的發(fā)展 20世紀(jì)70年代起步階段 拼音編碼 五筆字形 自然碼等 效率較低20世紀(jì)80年代中期轟轟烈烈的 大躍進(jìn) 式編碼活動 但沒有什么發(fā)展20世紀(jì)90年代蕭條期進(jìn)入21世紀(jì)后將是又一個發(fā)展期 數(shù)字編碼方案將占主導(dǎo) 漢字編碼中的幾個概念 1 字符集 字匯和詞匯字符集 字匯多 少詞匯多 少特指某個編碼方案編碼詞組的集合碼元組成輸入碼的字符集合稱為碼元 如拼音碼的碼元是 a z 中的任意一個字母 縱橫碼的碼元是 0 9 中的任意一個數(shù)字 漢字編碼中的幾個概念 2 碼長輸入碼的長度稱為碼長 如輸入碼 123 的碼長為3等長編碼 如區(qū)位碼等不等長編碼 如拼音碼 縱橫碼等單碼和重碼一個編碼可能對應(yīng)多個漢字和詞組 那么這些漢字或詞組稱為重碼 一個編碼如對應(yīng)的漢字和詞組只有一個時 稱這個漢字和詞組為單碼 漢字編碼中的幾個概念 3 編碼空間和編碼效率所有可能的輸入碼集合 稱為編碼空間 編碼空間的大小依賴于碼元集合和碼長 如某個編碼方案的碼元共有K個 編碼采用等長碼 長度為i 則編碼空間大小為 C Ki 如區(qū)位碼的編碼空間大小為 C 104 即10000個 編碼效率簡單而言是指編碼的字匯 詞匯除以編碼空間的大小 如區(qū)位碼 它的字匯大小為6763 則編碼效率為6773 10000 67 73 漢字的墑 1 信息量的概念 熵 在信息論里叫信息量 從控制論的角度來看 應(yīng)叫不確定性 最簡單的是只有兩種可能性 非此即彼 我們以這種事物的信息量為單位 叫1比特 bit 如果可能性數(shù)目有2的n次方 N 2n 那就是n比特 即信息量等于可能性數(shù)目N的 以2為底的對數(shù) H 2N N 2 信息量應(yīng)按符號的可能性 數(shù)學(xué)上叫概率大小 來計算 它是概率的負(fù)對數(shù) 平均信息量就是它們的加權(quán)平均H pi pi 1 i n 文字信號的信息量H是信號個數(shù)n的以2為底的對數(shù) H n 2 英文有26個字母 每個字母的信息量H 26 2 4 700 各種語言的字母的信息量 法文3 98比特意大利文4 00比特西班牙文4 01比特英文4 03比特德文4 10比特羅馬尼亞文4 12比特俄文4 35比特中文9 65比特 漢字的墑 2 漢字墑的概率分布 假設(shè)給定一個漢字字符集HZ 其中漢字?jǐn)?shù)為n 則該字符集的熵為H Pi Pi 1 i n 其中 Pi為單個漢字在漢語文本中出現(xiàn)的概率 Pi 是第i個漢字出現(xiàn)時的信息量 Pi 是所有漢字在不考慮前后相關(guān)性時所給出的全部信息量 H是該集合中的每個漢字的平均信息量 漢字的墑 3 漢字墑的意義 平均信息量 信息熵 表示存儲或表示該漢字字符集所需要的二進(jìn)制位數(shù) 中文約為9 65bit 根據(jù)每個漢字的平均熵 通過采用不等長編碼可以提高漢字存儲和傳輸效率 信息量 信息熵 與字的使用頻度成反比 即頻度下降一半 其信息量增加1位 對漢字編碼而言 采用多于2個碼元時 漢字的平均熵也會下降 如 當(dāng)m 2時 Lmin 3 4 當(dāng)m 47時Lmin 1 73 2 73 不同領(lǐng)域 字的使用頻度不同 因此 對大系統(tǒng)內(nèi)的漢字信息熵的意義不大 漢字鍵盤編碼的依據(jù) 心理依據(jù) 從心理學(xué)角度來看 根據(jù)漢字音信息的漢字編碼 人在大腦中無需進(jìn)行任何的思考 就可以輸入漢字 所以說是最為直接的輸入方式 根據(jù)漢字形信息的漢字編碼 用戶在輸入時 大腦需要把語言轉(zhuǎn)換為字形 然后才能輸入 所以說是一種間接的輸入方式 漢字心理學(xué)和模糊心理學(xué)的研究表明 人認(rèn)字時上半部優(yōu)于下半部 外圍優(yōu)于中間 從排列心理學(xué)角度來看 希望漢字的編碼能盡量唯一 并能盡量表達(dá)漢字的本身特征 漢字鍵盤編碼的依據(jù) 漢語拼音 漢語拼音的語言形式有三個要素 聲母 韻母和聲調(diào) 三者構(gòu)成一個音節(jié) 其中聲母有21個 韻母有35個 聲調(diào)有五種 陰平 陽平 上聲 去聲和輕聲 聲韻結(jié)合起來有417個基本音節(jié) 如果考慮聲調(diào) 總共有1330個左右的音節(jié) 所有的計算機用漢字的發(fā)音都在這些音節(jié)范圍內(nèi) 這就是漢字同音字 詞多的根本所在 如在GBK中 拼音 yi 有個460多個對應(yīng)的漢字 同樣也存在大量的同音詞 這就造成重碼多和輸入不方便 這是以音作為編碼要素存在的主要問題 漢字鍵盤編碼的依據(jù) 漢字部件 漢字的字形分為三級 筆畫 漢字部件 如偏旁部首 和整字 由筆畫構(gòu)成漢字部件 由漢字部件構(gòu)成整字 絕大多數(shù)根據(jù)漢字字形的編碼方案基本上是基于部件的編碼 如 五筆 表形碼 等 基于部件的漢字編碼需要解決的問題是 漢字如何拆分 用漢字部件編碼的最大問題是部件的規(guī)范問題 漢字鍵盤編碼的依據(jù) 筆畫 筆順 筆畫 筆順編碼是選取漢字的基本筆畫 如五種或八種 把筆畫定義到漢字的數(shù)字鍵和字母鍵上 然后依筆順或漢字的筆順來給漢字編碼 筆畫輸入近年來受到了特別的重視 主要是手機迅速普及所致 筆畫輸入的優(yōu)勢在于簡單 無需學(xué)習(xí)和記憶 筆畫輸入的困難在于單字輸入重碼多 詞組輸入效率低 句子輸入則困難 漢字編碼的分類 流水碼 將漢字按照一定順序排列后 給每個漢字以一個特定的順序號 形成的漢字編碼稱為流水碼 也稱無理碼或順序碼 一個現(xiàn)成的順序就是漢字內(nèi)碼的排列順序 區(qū)位碼和內(nèi)碼就是其中的兩個實例 流水碼的好處在于編碼與漢字一一對應(yīng) 絕無重碼 缺點是編碼無規(guī)律 記憶難度大 不易掌握 漢字編碼的分類 音碼 音碼是以漢字的發(fā)音為基礎(chǔ)的一種漢字編碼 一般以 漢語拼音方案 為藍(lán)本進(jìn)行設(shè)計 如智能ABC 全拼 雙拼 微軟拼音 紫光拼音等 音碼的最大好處是簡單易學(xué) 音碼的缺點 漢字同音字太多 檢索同音字使?jié)h字輸入速度大大減慢 目前音碼仍然是使用最廣泛的編碼 幾乎96 以上的用戶采用音碼 值得一提的是 音碼本身也在揚長避短 作了許多有益的改進(jìn) 漢字編碼的分類 形碼 形碼是依漢字的字形來編碼的 如五筆字型 筆形碼 大眾碼等 形碼有效地避免了按發(fā)音輸入的缺陷 重碼率也相對較低 為實現(xiàn)漢字的盲打提供了可能 成為專業(yè)人員的首選漢字輸入碼 形碼的部件多 分布廣 記憶起來較難 同時須經(jīng)過較長時間的學(xué)習(xí)訓(xùn)練才能熟練掌握 漢字編碼的分類 音形碼 形音碼 音形碼 形音碼兼顧漢字的讀音 字形兩方面的特點進(jìn)行混合編碼 音形碼在兼有音碼和形碼二者之長的同時 也兼有二者的一些弱點 音形碼在輸入時既考慮漢字的讀音又考慮漢字的寫法 人需要思考的時間也會增多 造成輸入時的瓶頸 海曼 Hyman 公式與漢字編碼時間 海曼公式的一般形式為 T a十bH K 其中 T為平均選擇反應(yīng)時間 K是選擇信號的個數(shù) H K 為每一個信號的平均信息量 a和b是系數(shù) 漢字編碼時間的公式 T a十blog2K十Ca為大腦發(fā)出指令沖動到肌肉動作所需時間 即擊鍵時間 blog2K理解為 選擇時間與信息量成正比 的適用條件下 選擇等概率鍵位所需時間的一種可采用的表達(dá)方式 C代表一個碼元的平均 編碼時間 反應(yīng)了思維時間和檢索時間的長短 鍵盤分區(qū)圖 大鍵盤編碼 如果一種編碼的碼元集合為 a z 這26個字母或它的子集 那么我們稱這種碼元的鍵盤映射方式為大鍵盤編碼 如全拼和智能ABC等拼音編碼 五筆 鄭碼等等 各種拼音編碼一般都是采用大鍵盤編碼 形碼也有采用大鍵盤的 如五筆就是一個典型的例子 一般采用大鍵盤的碼長在3 4之間 平均碼長一般不能超過4 小鍵盤編碼 采用鍵盤右邊的數(shù)字區(qū)的 0 9 這10個數(shù)字進(jìn)行編碼的方法稱為小鍵盤編碼 如區(qū)位 縱橫 字原 五筆數(shù)碼等均是小鍵盤編碼 采用小鍵盤編碼的以形碼居多 音碼也有但不多 形碼一般都采用筆畫編碼 音碼在計算機小鍵盤上應(yīng)用很少 主要是用在數(shù)碼產(chǎn)品上 如手機 電話 遙控器等 實現(xiàn)時一般把26個英文字母映射到10個數(shù)字按鍵上 縱橫碼的鍵位圖 字母數(shù)字映射圖 大大鍵盤編碼 大大鍵盤編碼是指編碼的碼元不僅是大鍵盤上的26個字母 還包括10個數(shù)字和部分的其它符號 這種編碼方案早期很多 如字元編碼 錢碼 陸碼 綠色拼形等 早期出現(xiàn)這樣的編碼方法主要是可以增加編碼空間 從而降低重碼率 實現(xiàn)快速輸入 這種編碼方案已經(jīng)很少了 主要是因為這種方案具有不易學(xué)和難記等缺陷 綠色拼形編碼的鍵位分布圖 小小鍵盤編碼 小小鍵盤編碼是指只用5個數(shù)字來編碼 也就是碼元數(shù)只有5個 小小鍵盤編碼方案主要是應(yīng)用在手機等數(shù)碼設(shè)備上 幾乎所有的手機筆形編碼均是采用小小鍵盤編碼 Nokia筆畫輸入法小小鍵盤圖 數(shù)碼鍵盤方案 所謂的漢字?jǐn)?shù)碼是指用 0 到 9 十個數(shù)字對漢字的單字和詞組進(jìn)行編碼 使得只用小鍵盤就可以完成漢字的輸入 并可移植到手機以及各類PDA產(chǎn)品上使用 縱橫碼 在縱橫漢字編碼方案中 把筆形分為10類 分別用 0 到 9 這10個數(shù)字表示 筆形與數(shù)字代碼的關(guān)系可通過下列口訣記憶 一橫二豎三點捺 叉四插五方塊六 七角八八九是小 撇與左鉤都是零 取碼規(guī)則是將漢字看成一個方塊字 取漢字四個角的筆形為有關(guān)編碼 類似四角號碼取碼規(guī)則 部分漢字的取碼實例 人 8 中 5 十 4 重 01 要 14 喜 46 事 50 五筆數(shù)碼 五筆數(shù)碼按照筆畫進(jìn)行編碼 筆畫分為 橫 豎 撇 捺 折 五種 分別用 1 2 3 4 5 作為代碼 下表為基本筆畫代碼表 6鍵6碼鍵盤圖 9鍵9碼鍵盤圖 統(tǒng)一碼 該方案取5種基本筆畫 橫 一 含 提 豎 丨 含 豎勾 撇 丿 包括 啄 點 丶 含 捺 和 折 乙 包括左折和右折 并且將這五種筆畫賦予順序值 1 5 數(shù)字統(tǒng)一碼將漢字結(jié)構(gòu)歸納概括為四種基本結(jié)構(gòu) 它們是 上下結(jié)構(gòu) 左右結(jié)構(gòu) 包圍結(jié)構(gòu) 嵌套結(jié)構(gòu) 同時規(guī)定一個漢字可以取一至六碼 字445576各359251右689 左右數(shù)碼 利用數(shù)字來表示漢字的筆劃 拼音和部件 其特征是將左右 含左中右 結(jié)構(gòu)的漢字定義為 左右字 再按書寫順序把 左右字 分為 左部 與 右部 如下表所示 把 左右字 以外的漢字都定義為 整體字 根據(jù)規(guī)則進(jìn)行數(shù)字編碼 漢字編碼國家標(biāo)準(zhǔn) 國家語委的規(guī)范 與漢字編碼有關(guān)的標(biāo)準(zhǔn)與規(guī)范說明 在編碼字符集方面在鍵位設(shè)置方面在標(biāo)點符號方面在部件規(guī)范方面在筆順規(guī)范方面 漢字鍵盤編碼和輸入系統(tǒng)的性能指標(biāo) 易學(xué)性 學(xué)會使用漢字編碼輸入系統(tǒng)的時間應(yīng)盡量短 并應(yīng)符合使用漢語作為母語的使用者的思維習(xí)慣 GB T18031對數(shù)字編碼更進(jìn)一步提出要求 做到上手能用 漢字輸入平均碼長重碼字詞鍵選率

注意事項

本文(《漢字輸入編碼》PPT課件.ppt)為本站會員(xin****828)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng)(點擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因為網(wǎng)速或其他原因下載失敗請重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!