首頁 資訊 kismet

kismet

來源:泰然健康網(wǎng) 時間:2025年08月18日 08:10

項目簡介

播報

編輯

Kismet,是一款較早出現(xiàn)的社交機器人,由美國麻省理工大學(xué)人工智能實驗室仿人機器小組(Humanoid Robotics Group)負責(zé)開發(fā)的。

仿人機器人,是對于傳統(tǒng)機器人概念的一種巨大的轉(zhuǎn)變。傳統(tǒng)的機器人,經(jīng)常在遠離人的惡劣環(huán)境下進行一些工作。比如說,救災(zāi),超長時間重復(fù)工作,這些人類很難勝任的,而機器人卻得心應(yīng)手。但是,健康,管家,娛樂這方面的需求的增加,所以必然需要機器人能夠與人進行近距離的交談,學(xué)習(xí),互動娛樂等等。

Kismet其實就是這樣一款的仿人機器人,它具有視覺,聽覺,觸覺輸入,位置感應(yīng)。然后,他可以進行對話,表情,體態(tài)等與人互動。

Kismet的樣子也是十分可愛的,整個形象還是很有卡通感覺的,也因該很受小朋友們的喜愛喔。彎彎的眉毛,大大的眼睛和耳朵,還有嘴巴,但是沒有鼻子,如果加上一個氣味的識別傳感器,也可以有味道識別的功能哦,小編在想,氣味識別也是有很多用處的,比如液化氣和有害物質(zhì)報警等等,這樣他就可以第一時間把信息傳遞給我們了。

Kismet具有平靜,感興趣,生氣,開心,沮喪,驚喜,惡心等表情定義,通過面部表情使我們覺得,他很具有感情表達的能力。 [1]

以下是Kismet設(shè)計的簡化視圖。

簡化視圖

系統(tǒng)架構(gòu)由六個子系統(tǒng)組成:低級特征提取系統(tǒng),高級感知系統(tǒng),注意系統(tǒng),動力系統(tǒng),行為系統(tǒng)和電機系統(tǒng)。低級特征提取系統(tǒng)從世界中提取基于傳感器的特征,高級感知系統(tǒng)將這些特征封裝到可影響行為,動機和運動過程的感知中。注意系統(tǒng)隨時確定環(huán)境中最顯著和相關(guān)的刺激是什么,以便機器人可以組織其關(guān)于它的行為。動機系統(tǒng)以穩(wěn)態(tài)調(diào)節(jié)過程和情緒反應(yīng)的形式調(diào)節(jié)和維持機器人的“健康狀態(tài)”。行為系統(tǒng)在競爭行為之間實現(xiàn)和仲裁。獲勝行為定義了當前任務(wù)(即目標)。機器人。機器人在其保留曲目中有許多行為,以及滿足的幾種動機,因此它的目標隨著時間而變化。電機系統(tǒng)通過協(xié)調(diào)輸出模式(致動器或聲音)來實現(xiàn)這些目標。對于Kismet,這些動作被實現(xiàn)為完成物理任務(wù)的運動技能,或通過社交信號完成任務(wù)的表達運動行為。

設(shè)計架構(gòu)

播報

編輯

為了能使Kismet與人類正常地交流互動,它具有聽覺,視覺和本體感受的能力輸入設(shè)備。 Kismet通過各種面部的表情,會發(fā)聲和移動來模擬人類的情緒。面部表情則是通過耳朵、眉毛、眼皮、嘴唇、下巴和頭部的運動產(chǎn)生的。這些物質(zhì)材料的成本估計為25,000美元。此外,還有四個摩托羅拉68332處理器,九個400兆赫的計算機和一個500兆赫的計算機。

Kismet是一種富有表現(xiàn)力的機器人生物,它的感知和運動方式適合于人類的自然交流渠道。為了方便嬰兒和照顧者之間的自然互動,機器人配備了視覺、聽覺和本體感知感官輸入。運動輸出包括發(fā)聲、面部表情和調(diào)整眼睛注視方向和頭部方向的運動能力。注意,這些運動系統(tǒng)可以引導(dǎo)視覺和聽覺傳感器到達刺激源,也可以用來顯示交流線索。

我們的硬件和軟件控制結(jié)構(gòu)被設(shè)計來滿足實時處理視覺信號(接近30 Hz)和聽覺信號(8 kHz采樣率和10 ms幀窗口)的挑戰(zhàn),最小延遲(小于500 ms)。高級感知系統(tǒng)、激勵系統(tǒng)、行為系統(tǒng)、運動技能系統(tǒng)和面部運動系統(tǒng)在我們實驗室開發(fā)的多線程Lisp的四臺摩托羅拉68332微處理器上運行。視覺處理、視覺注意和眼/頸控制由9臺運行QNX(實時Unix操作系統(tǒng))的聯(lián)網(wǎng)400 MHz個人計算機完成。表達性語音合成和語音情感意圖識別工作在雙450 MHz PC機上運行NT,語音識別系統(tǒng)運行在運行Linux的500 MHz PC機上。 [2]

軟件系統(tǒng)

播報

編輯

Kismet的社交智能軟件系統(tǒng)(SNS)是按人類智能行為的模型為基礎(chǔ)而設(shè)計的。它包含如下六個子系統(tǒng)。

基本特征提取系統(tǒng)

該系統(tǒng)被用來處理來自相機和麥克風(fēng)的原始視覺和聽覺信息。 Kismet的視覺系統(tǒng)可以執(zhí)行眼睛檢測,運動檢測,以及膚色檢測(盡管有爭議)。當Kismet移動頭時,它會暫時禁用其運動檢測系統(tǒng),以避免檢測自身的運動。它還使用立體相機來估計物體在其視野中的距離,例如檢測威脅 - 迅速移動的大而近的物體。

Kismet的聽覺系統(tǒng)主要是為了識別嬰幼兒講話中的情感。特別的,它可以檢測五種不同類型的情感意圖:批準,禁止,注意,安慰和中立。情感意圖分類器處理步驟如下:從記錄的語音樣本中提取音調(diào)平均值和能量(音量)方差等低級特征。然后將情感意圖的類別建模為高斯混合模型,并使用期望最大化算法將這些樣本進行分類。分類是通過多個階段完成的,首先將一個話語分為兩個一般組(例如安慰/中立與禁止/關(guān)注/批準)之一,然后進行更詳細的分類。這種系統(tǒng)架構(gòu)顯著提高了情感分類的性能,如“批準”(“你是一個聰明的機器人”)與“注意”(“嘿,Kismet,我在這里”)。

動機系統(tǒng)

Breazeal博士把自己與機器人的關(guān)系形容為“像幼兒與看守人的互動,我本人就是看守者,而機器人就像一個嬰兒”。這概述了在一個學(xué)習(xí)框架內(nèi)設(shè)置的人機關(guān)系,Breazeal博士為Kismet的發(fā)展提供了支撐。它提供了Kismet能力的展示機會,描述了情緒與表情,表達了機器人的“動機狀態(tài)”,Brazeal博士說:“這是一種憤怒(笑)極度的憤怒,厭惡,興奮,恐懼,這是幸福,這是一個興趣,這個是悲傷,驚喜,這個是疲倦,這個在酣睡。

在任何時候,Kismet一次只能處于一種情緒狀態(tài)。然而,Breazeal指出Kismet沒有意識,所以沒有觸覺。

語言系統(tǒng)

Kismet用各種各樣的音素說出初始語言,類似于嬰兒的咿呀聲。它使用DECtalk語音合成器,改變音高,時間,發(fā)音等來表達各種情緒。語調(diào)用于在問題和陳述式的話語之間變化。嘴形同步對現(xiàn)實化很重要,因此開發(fā)者使用動畫策略:“簡單是成功的嘴唇動畫的秘訣”。因此,他們并不是完全模仿嘴唇的動作,而是“創(chuàng)造一個不受觀眾挑戰(zhàn)的視覺short hand”。

視覺系統(tǒng)

機器人的視覺系統(tǒng)由安裝在立體聲主動視覺頭上的四個彩色CCD相機組成。兩個寬視場(fov)攝像機安裝在中央并相對于頭部移動。這些是由Elmo Corporation制造的具有2.2mm鏡片的0.25英寸CCD口紅相機。它們用于決定機器人應(yīng)該注意什么,以及計算距離估計。還有一個攝像頭安裝在每只眼睛的瞳孔內(nèi)。這些是具有8mm焦距鏡頭的0.5英寸CCD中央凹相機,用于更高分辨率的注意后處理,例如眼睛檢測。

Kismet有三個自由度來控制凝視方向和三個自由度來控制它的頸部。 Maxon DC伺服電機采用高分辨率光學(xué)編碼器驅(qū)動自由度,實現(xiàn)精確的位置控制。這使得機器人能夠像人類一樣移動和定向其眼睛,從事各種人類視覺行為。這不僅從視覺處理的角度來看是有利的,而且人類也將通信價值歸因于這些眼睛運動。

聽覺系統(tǒng)

看護員可以通過佩戴小型不顯眼的無線麥克風(fēng)來通過語音來影響機器人的行為。 該聽覺信號被送入運行Linux的500 MHz PC。 實時,低級語音處理和識別軟件由麻省理工學(xué)院的語言系統(tǒng)組開發(fā)。 這些聽覺功能被發(fā)送到運行NT的雙450 mHz PC。 NT機器實時處理這些特征以識別護理人員的口頭情感意圖。

富有表現(xiàn)力的表情系統(tǒng)

Kismet擁有15個DoF面部,可以顯示各種各樣的面部表情,以反映其“情緒化”狀態(tài)以及服務(wù)于其他交際目的。 每只耳朵都有兩個自由度,讓Kismet以感興趣的方式振作耳朵,或者以一種讓人想起憤怒動物的方式折回它們。 每一條眉毛都可以在挫折中降低和皺起,向上抬起以獲得驚喜,或者向上傾斜眉毛的內(nèi)角以獲得悲傷。 每個眼瞼都可以獨立打開和關(guān)閉,讓機器人眨眼或眨眼。 機器人有四個唇部執(zhí)行器,每個角部有一個,可以向上卷曲以獲得微笑,向下卷曲可以皺眉。 下頜也有一個自由度。

發(fā)聲系統(tǒng)

機器人的發(fā)聲功能是通過發(fā)音合成器生成的。 底層軟件(DECtalk v4.5)基于Klatt合成器,該合成器模擬人類關(guān)節(jié)道的生理特征。 通過調(diào)整合成器的參數(shù),可以傳達說話人的個性(Kismet聽起來像一個小孩)以及為合成語音添加情感品質(zhì)(Cahn 1990)。 [3]

研究進展

播報

編輯

在人機游戲中學(xué)習(xí)社會行為

我們正在探索如何通過利用培養(yǎng)看護人和未成熟學(xué)習(xí)者之間產(chǎn)生的互動類型來實現(xiàn)社會地位的學(xué)習(xí)。 對我們來說,學(xué)習(xí)者是一個擬人化的機器人平臺。 它的主要感官輸入包括視覺,試鏡和其自由度的聯(lián)合旋轉(zhuǎn)。 其輸出包括發(fā)聲,頭部和眼睛方向以及面部表情。 機器人被設(shè)計成一個復(fù)雜的系統(tǒng),在精神上類似于人類嬰兒。 也就是說,機器人以一種相當無助和原始的狀態(tài)開始,并需要一位老練和仁慈的看護人員的幫助來學(xué)習(xí)和發(fā)展。 看護機器人之間的互動純粹是社交的,就像母親與嬰兒的互動方式一樣。 針對學(xué)習(xí)的各種能力是人類嬰兒在出生后第一年展示的社交和溝通技巧。

這項工作的目標是如何建立一個更開放的學(xué)習(xí)系統(tǒng)的更大問題。許多基于學(xué)習(xí)的機器人研究都是針對訓(xùn)練機器人來學(xué)習(xí)特定任務(wù),模型,表示等等。通常,研究人員先驗地確定機器人要學(xué)習(xí)什么任務(wù)(例如在辦公室環(huán)境中導(dǎo)航),然后相應(yīng)地設(shè)計學(xué)習(xí)任務(wù)。一旦機器人可以執(zhí)行任務(wù)以達到期望的成功度,則完成學(xué)習(xí)任務(wù)。但是,由于學(xué)習(xí)算法是針對特定任務(wù)精心定制的,因此必須精心設(shè)計新的學(xué)習(xí)算法,以便機器人學(xué)習(xí)不同的任務(wù)。機器人學(xué)習(xí)算法的設(shè)計是一個勞動密集型過程,并且證明難以在更復(fù)雜的環(huán)境中將當前技術(shù)擴展到更復(fù)雜的任務(wù)。

相比之下,這項工作探討了如何設(shè)計一個更開放的學(xué)習(xí)系統(tǒng)。為此,它深受兒童發(fā)展心理學(xué)的理論,觀察和實驗結(jié)果的啟發(fā)。這項研究的核心是弄清楚如何設(shè)計一個綜合學(xué)習(xí)系統(tǒng),使學(xué)習(xí)者能夠從先前獲得的技能和認知結(jié)構(gòu)中引導(dǎo),以學(xué)習(xí)新的,更多樣化和更復(fù)雜的技能。人類嬰兒是我們希望我們的系統(tǒng)模仿的學(xué)習(xí)類型的主要參展者,通常被描述為具有發(fā)展形象,其中早期技能和能力被逐步修改,調(diào)整和構(gòu)建,以產(chǎn)生更復(fù)雜,多樣或新的能力。

方法

我們的方法旨在利用人類嬰兒在學(xué)習(xí)與照顧者互動時可以獲得的許多相同的社會線索,約束和偏見。在學(xué)習(xí)早期技能時,可以使用從相對原始狀態(tài)開始,特別是當系統(tǒng)位于極其復(fù)雜的環(huán)境中時。與新生兒一樣,早期學(xué)習(xí)問題被簡化,因為粗略的初始感知能力和有限的運動技能限制了系統(tǒng)必須處理和學(xué)習(xí)的信息的復(fù)雜性。這使嬰兒有機會學(xué)習(xí)與其當前的感知,運動和認知能力相稱的技能,而不是用麻煩的復(fù)雜性轟炸新生兒。此外,看護人通過仁慈地設(shè)計環(huán)境和滿足嬰兒當前能力的任務(wù),幫助簡化嬰兒的學(xué)習(xí)問題。例子包括使用顏色鮮艷的物體,吸引嬰兒注意顯著因素,協(xié)助嬰兒完成手頭的任務(wù),等等。

學(xué)習(xí)者和看護者之間的互動形成了一個相互調(diào)節(jié)的過程。使用來自嬰兒的情緒反饋,護理人員協(xié)調(diào)學(xué)習(xí)情節(jié)以適應(yīng)學(xué)習(xí)者當前的復(fù)雜程度。例如,如果學(xué)習(xí)者過度刺激(過于環(huán)境復(fù)雜性不堪重負),看護人必須簡化甚至?xí)和W(xué)習(xí)情節(jié)?;蛘?,如果學(xué)習(xí)者看起來很無聊,那么看護人會對學(xué)習(xí)情節(jié)引入更多種類或更多難度。在學(xué)習(xí)過程中,學(xué)習(xí)者構(gòu)建內(nèi)部結(jié)構(gòu)以實現(xiàn)更復(fù)雜的技能和能力。因此,它能夠處理稍微復(fù)雜的環(huán)境。因此,保持平衡,學(xué)習(xí)者總是有足夠的挑戰(zhàn)去學(xué)習(xí)已經(jīng)擁有的東西,但是從來沒有完全被淹沒,所以幾乎沒有機會學(xué)習(xí)任何東西。隨著發(fā)展的進行,新的目標被學(xué)習(xí),因為發(fā)現(xiàn)了有趣的結(jié)果以及實現(xiàn)它們的不同方法。

挑戰(zhàn)

這項工作必須解決許多困難問題。兩個主要問題是建立學(xué)習(xí)者和看護者之間自然,實時的互動動態(tài),并提出一套適當?shù)膶W(xué)習(xí)機制和基礎(chǔ),以建立內(nèi)部結(jié)構(gòu)。僅僅感知方面是眾所周知的難題,我們將不得不將感知復(fù)雜性與實時性能進行權(quán)衡,以便將研究重點放在問題的學(xué)習(xí)和交互方面(而不是沉浸在復(fù)雜的視覺和聽覺處理中) )。這種權(quán)衡還有待確定。

從更廣泛的角度來看,這項研究不僅旨在建立一個開放式學(xué)習(xí)系統(tǒng),而且還旨在建立一個人類可以與自然,本能的方式進行互動和訓(xùn)練的系統(tǒng)。人類是高度社會化的生物,并使用各種線索和方式相互溝通。構(gòu)建可以利用和理解類似社交線索的系統(tǒng)可以使人們更容易使用機器,并使人們能夠以更豐富的方式與機器進行通信。 [4]

相關(guān)知識

AI簡史:從1308年到2016年 人工智能緩步走來
人工智能

網(wǎng)址: kismet http://m.gysdgmq.cn/newsview1695282.html

推薦資訊