主頁 > 知識庫 > AI唇語識別!人工智能領域的下一個風口

AI唇語識別!人工智能領域的下一個風口

熱門標簽:高德地圖標注錯怎么辦 佰鳴電銷機器人有用嗎 江蘇電銷外呼系統(tǒng)線路 甘孜藏族自治州手機外呼系統(tǒng) 百度地圖標注中心電話 深圳的電銷機器人源碼 安慶人工外呼系統(tǒng) 黑龍江外呼系統(tǒng)多少錢一個月 重慶外呼電銷系統(tǒng)公司

看到別人在低聲討論時,你是不是就想學習唇語來看破他們在討論的什么,小編是經(jīng)常有這種想法,不過,現(xiàn)在不需要了,因為我們已經(jīng)有了AI唇語識別,可以讓每個人都具備看懂唇語的能力。



什么是唇語識別

所謂的“唇語識別”,其實并不神秘。

就是通過“觀察別人的嘴型,解讀其表達語句”的能力。目前,一些聽力障礙者們也會使用這種技巧與他人進行交談,補充聽力器官的不足。

但隨著科技的發(fā)展,人工智能在各領域漸次開放,在唇語識別上,機器已經(jīng)做的比人類好了。

從技術路徑上,唇語識別是一項集機器視覺與自然語言處理于一體的復合型技術。

唇語識別的研究現(xiàn)狀

2003 年,Intel 就開發(fā)了唇語識別軟件 Audio Visual Speech Recognition(AVSR),開發(fā)者得以能夠研發(fā)可以進行唇語識別的計算機。

2016 年 Google DeepMind 的唇語識別技術就已經(jīng)可以支持 17500 個詞,新聞測試集識別準確率首次達到了 50% 以上。

2017年 搜狗推出了一種人機交互新技術——“唇語識別”。該系統(tǒng)達到60%以上的準確率,超過google發(fā)布的英文唇語系統(tǒng)50%以上的準確率。在垂直場景如車載、智能家居等場景下甚至已經(jīng)達到90%的準確率。



AI唇語識別技術原理:

唇語識別技術從鏡頭輸入到理解輸出,中間最重要的關鍵是:視覺前段、視覺特征提取、唇動識別。

視覺前段——包括人臉檢測與唇的檢測和定位,先用人臉檢測演算法得到人臉然后有針對性的定位唇動;

或者利用最佳閩值二值化演算法,以唇的邊緣是平滑的,和左右形狀對稱為條件,作為二值化閩值選定的約束條件,得到平滑而對稱的唇圖像。

視覺特征提取——是對獲取的唇圖像進行處理得到對應特征,特征提取方法主要分為基于圖元的方法和基于模型的方法兩大類;

搜狗所用的基于模型的方法就是,對唇的輪廓建立一個模型,將特征資訊包含在這個模型之中,并對模型中特征資訊的變化用一個小的參數(shù)來描述。

這類方法的優(yōu)點是重要特征被表示成二維參數(shù),不會因光照、縮放、旋轉、平移而改變,缺點是忽略了細微的三維資訊,可能會對后面的識別過程造成影響。

唇動識別——目前采用的技術大多是隱瑪爾可夫模型( Hidden Markov Model,簡稱 HMM ),該模型認為唇動信號在極短時間內是線性的,可以用線性參數(shù)模型來表示,然后將許多線性模型在時間上串接起來,組成一條瑪爾可夫鏈。

據(jù)了解,在非特定開放口語測試中,目前的通用識別準確率已經(jīng)在 70% 以上,而在金融風控、車載、智能家居等垂直場景下,已達到超過 90% 的準確率。


除此之外,唇語識別技術還能發(fā)揮巨大的公益價值,幫助先天性聽障人群或老年人,讓他們更好地理解和表達自己。

標簽:那曲 巴中 平頂山 上海 白城 四川 中衛(wèi) 濰坊

巨人網(wǎng)絡通訊聲明:本文標題《AI唇語識別!人工智能領域的下一個風口》,本文關鍵詞  唇語,識別,人工智能,領域,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《AI唇語識別!人工智能領域的下一個風口》相關的同類信息!
  • 本頁收集關于AI唇語識別!人工智能領域的下一個風口的相關信息資訊供網(wǎng)民參考!
  • 推薦文章