【語音辨識】 SpeechRecognition;VoiceRecognition
【辭書名稱】圖書館學與資訊科學大辭典
語音是人類通訊中最常用的方式。
人類藉由製造出有意義的聲波或響聲,透過空氣的震動而傳遞到另一個人的耳朵,然後解讀出其意義。
而當接收者是一部電腦,經過電腦內的解讀程式,將人類說話的聲音解碼成文字符號或說話者的本意時,即稱之為自動化的語音辨識系統。
探究人類如何產生語音的基本研究已有幾百年的歷史,但對於今日語音合成(VoiceSynthesis)及語音辨識的研究始於1940年代。
當時因發明了音譜分析圖(SoundSpectrograph),將聲音的震動分別以時間及頻率的函數圖形表現出來,進而提供科學家分析人類聲音的方法。
語音合成與辨識的研究方法開始於1970年代初期,主要得力於電腦功能快速的提升及對人類語音產生過程理論的日趨成熟所致。
今日語音辨識系統最主要應用於電腦系統的語音輸入上,以替代人工鍵盤的文字輸入工作。
目前大型字彙語音辨識系統(Large-VocabularySpeechRecognitionSystem),已於1980年代出問世。
人類發出的語音輸入電腦系統後,首先由數位訊號處理器(DigitalSignalProcessor)將聲音分解成不同的聲音頻帶(FrequencyBands)。
這些頻帶必須經過電腦內專家系統程式的解析,以判斷每個聲音的片斷,稱之為音位(Phonemes)。
然後在配合其他程式的判斷將音位組合成單字,再利用語法的知識庫(KnowlegeBase)判斷每個單字的語法關係是否符合人類的用法,最後將整個結果於電腦螢幕上輸出。
目前商業化的電腦語音辨識系統已具有處理30,000個英文單字的能力。
早期開發的電腦語音辨識系統,在使用系統之前,說話者必須先將每個字重覆發聲到系統內,以使系統能夠辨別出說話者特殊的音調變化、重音及聲音等。
不受說話者音調影響的語音辨識系統,至少可處理約5,000個英文單字。
而說話者在輸入語音時,必須在字與字之間稍作停頓,使電腦能準確輸入每個字。
電腦語音辨識系統已廣泛應用於醫學報告處理上。
醫生可以利用電腦語音辨識系統撰寫及編輯醫學報告,以代替使用手寫或電腦鍵盤的輸入。
如此不但可以節省醫院抄寫病歷的費用,且可防止因醫師字跡潦草難以辨識的問題。
在1991年全美約有600個電腦語音辨視系統安裝在各醫院及診所中,約有3,000位以上的醫師使用該系統輸入病人的資料到中心的電腦資料庫。
在圖書館方面,也可利用電腦語音辨識系統,從事圖書分類編目的工作。
館員只要依照機讀編目格式的欄位輸入次序,逐項將書目資料發聲讀入系統內即可完成編目工作。
此將可大大增進編目的速度,並降低人工的輸入量。
轉自:http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary
|