首頁資訊 kismet

kismet

來源：泰然健康網(wǎng) 時間：2025年08月18日 08:10

項目簡介

播報

編輯

Kismet,是一款較早出現(xiàn)的社交機器人，由美國麻省理工大學(xué)人工智能實驗室仿人機器小組（Humanoid Robotics Group）負責(zé)開發(fā)的。

仿人機器人，是對于傳統(tǒng)機器人概念的一種巨大的轉(zhuǎn)變。傳統(tǒng)的機器人，經(jīng)常在遠離人的惡劣環(huán)境下進行一些工作。比如說，救災(zāi)，超長時間重復(fù)工作，這些人類很難勝任的，而機器人卻得心應(yīng)手。但是，健康，管家，娛樂這方面的需求的增加，所以必然需要機器人能夠與人進行近距離的交談，學(xué)習(xí)，互動娛樂等等。

Kismet其實就是這樣一款的仿人機器人，它具有視覺，聽覺，觸覺輸入，位置感應(yīng)。然后，他可以進行對話，表情，體態(tài)等與人互動。

Kismet的樣子也是十分可愛的，整個形象還是很有卡通感覺的，也因該很受小朋友們的喜愛喔。彎彎的眉毛，大大的眼睛和耳朵，還有嘴巴，但是沒有鼻子，如果加上一個氣味的識別傳感器，也可以有味道識別的功能哦，小編在想，氣味識別也是有很多用處的，比如液化氣和有害物質(zhì)報警等等，這樣他就可以第一時間把信息傳遞給我們了。

Kismet具有平靜，感興趣，生氣，開心，沮喪，驚喜，惡心等表情定義，通過面部表情使我們覺得，他很具有感情表達的能力。 [1]

以下是Kismet設(shè)計的簡化視圖。

簡化視圖

系統(tǒng)架構(gòu)由六個子系統(tǒng)組成：低級特征提取系統(tǒng)，高級感知系統(tǒng)，注意系統(tǒng)，動力系統(tǒng)，行為系統(tǒng)和電機系統(tǒng)。低級特征提取系統(tǒng)從世界中提取基于傳感器的特征，高級感知系統(tǒng)將這些特征封裝到可影響行為，動機和運動過程的感知中。注意系統(tǒng)隨時確定環(huán)境中最顯著和相關(guān)的刺激是什么，以便機器人可以組織其關(guān)于它的行為。動機系統(tǒng)以穩(wěn)態(tài)調(diào)節(jié)過程和情緒反應(yīng)的形式調(diào)節(jié)和維持機器人的“健康狀態(tài)”。行為系統(tǒng)在競爭行為之間實現(xiàn)和仲裁。獲勝行為定義了當前任務(wù)（即目標）。機器人。機器人在其保留曲目中有許多行為，以及滿足的幾種動機，因此它的目標隨著時間而變化。電機系統(tǒng)通過協(xié)調(diào)輸出模式（致動器或聲音）來實現(xiàn)這些目標。對于Kismet，這些動作被實現(xiàn)為完成物理任務(wù)的運動技能，或通過社交信號完成任務(wù)的表達運動行為。

設(shè)計架構(gòu)

播報

編輯

為了能使Kismet與人類正常地交流互動，它具有聽覺，視覺和本體感受的能力輸入設(shè)備。 Kismet通過各種面部的表情，會發(fā)聲和移動來模擬人類的情緒。面部表情則是通過耳朵、眉毛、眼皮、嘴唇、下巴和頭部的運動產(chǎn)生的。這些物質(zhì)材料的成本估計為25,000美元。此外，還有四個摩托羅拉68332處理器，九個400兆赫的計算機和一個500兆赫的計算機。

Kismet是一種富有表現(xiàn)力的機器人生物，它的感知和運動方式適合于人類的自然交流渠道。為了方便嬰兒和照顧者之間的自然互動，機器人配備了視覺、聽覺和本體感知感官輸入。運動輸出包括發(fā)聲、面部表情和調(diào)整眼睛注視方向和頭部方向的運動能力。注意，這些運動系統(tǒng)可以引導(dǎo)視覺和聽覺傳感器到達刺激源，也可以用來顯示交流線索。

我們的硬件和軟件控制結(jié)構(gòu)被設(shè)計來滿足實時處理視覺信號(接近30 Hz)和聽覺信號(8 kHz采樣率和10 ms幀窗口)的挑戰(zhàn)，最小延遲(小于500 ms)。高級感知系統(tǒng)、激勵系統(tǒng)、行為系統(tǒng)、運動技能系統(tǒng)和面部運動系統(tǒng)在我們實驗室開發(fā)的多線程Lisp的四臺摩托羅拉68332微處理器上運行。視覺處理、視覺注意和眼/頸控制由9臺運行QNX(實時Unix操作系統(tǒng))的聯(lián)網(wǎng)400 MHz個人計算機完成。表達性語音合成和語音情感意圖識別工作在雙450 MHz PC機上運行NT，語音識別系統(tǒng)運行在運行Linux的500 MHz PC機上。 [2]

軟件系統(tǒng)

播報

編輯

Kismet的社交智能軟件系統(tǒng)(SNS)是按人類智能行為的模型為基礎(chǔ)而設(shè)計的。它包含如下六個子系統(tǒng)。

基本特征提取系統(tǒng)

該系統(tǒng)被用來處理來自相機和麥克風(fēng)的原始視覺和聽覺信息。 Kismet的視覺系統(tǒng)可以執(zhí)行眼睛檢測，運動檢測，以及膚色檢測(盡管有爭議)。當Kismet移動頭時，它會暫時禁用其運動檢測系統(tǒng)，以避免檢測自身的運動。它還使用立體相機來估計物體在其視野中的距離，例如檢測威脅 - 迅速移動的大而近的物體。

Kismet的聽覺系統(tǒng)主要是為了識別嬰幼兒講話中的情感。特別的，它可以檢測五種不同類型的情感意圖：批準，禁止，注意，安慰和中立。情感意圖分類器處理步驟如下：從記錄的語音樣本中提取音調(diào)平均值和能量（音量）方差等低級特征。然后將情感意圖的類別建模為高斯混合模型，并使用期望最大化算法將這些樣本進行分類。分類是通過多個階段完成的，首先將一個話語分為兩個一般組（例如安慰/中立與禁止/關(guān)注/批準）之一，然后進行更詳細的分類。這種系統(tǒng)架構(gòu)顯著提高了情感分類的性能，如“批準”（“你是一個聰明的機器人”）與“注意”（“嘿，Kismet，我在這里”）。

動機系統(tǒng)

Breazeal博士把自己與機器人的關(guān)系形容為“像幼兒與看守人的互動，我本人就是看守者，而機器人就像一個嬰兒”。這概述了在一個學(xué)習(xí)框架內(nèi)設(shè)置的人機關(guān)系，Breazeal博士為Kismet的發(fā)展提供了支撐。它提供了Kismet能力的展示機會，描述了情緒與表情，表達了機器人的“動機狀態(tài)”，Brazeal博士說：“這是一種憤怒（笑）極度的憤怒，厭惡，興奮，恐懼，這是幸福，這是一個興趣，這個是悲傷，驚喜，這個是疲倦，這個在酣睡。

在任何時候，Kismet一次只能處于一種情緒狀態(tài)。然而，Breazeal指出Kismet沒有意識，所以沒有觸覺。

語言系統(tǒng)

Kismet用各種各樣的音素說出初始語言，類似于嬰兒的咿呀聲。它使用DECtalk語音合成器，改變音高，時間，發(fā)音等來表達各種情緒。語調(diào)用于在問題和陳述式的話語之間變化。嘴形同步對現(xiàn)實化很重要，因此開發(fā)者使用動畫策略：“簡單是成功的嘴唇動畫的秘訣”。因此，他們并不是完全模仿嘴唇的動作，而是“創(chuàng)造一個不受觀眾挑戰(zhàn)的視覺short hand”。

視覺系統(tǒng)

機器人的視覺系統(tǒng)由安裝在立體聲主動視覺頭上的四個彩色CCD相機組成。兩個寬視場（fov）攝像機安裝在中央并相對于頭部移動。這些是由Elmo Corporation制造的具有2.2mm鏡片的0.25英寸CCD口紅相機。它們用于決定機器人應(yīng)該注意什么，以及計算距離估計。還有一個攝像頭安裝在每只眼睛的瞳孔內(nèi)。這些是具有8mm焦距鏡頭的0.5英寸CCD中央凹相機，用于更高分辨率的注意后處理，例如眼睛檢測。

Kismet有三個自由度來控制凝視方向和三個自由度來控制它的頸部。 Maxon DC伺服電機采用高分辨率光學(xué)編碼器驅(qū)動自由度，實現(xiàn)精確的位置控制。這使得機器人能夠像人類一樣移動和定向其眼睛，從事各種人類視覺行為。這不僅從視覺處理的角度來看是有利的，而且人類也將通信價值歸因于這些眼睛運動。

聽覺系統(tǒng)

看護員可以通過佩戴小型不顯眼的無線麥克風(fēng)來通過語音來影響機器人的行為。該聽覺信號被送入運行Linux的500 MHz PC。實時，低級語音處理和識別軟件由麻省理工學(xué)院的語言系統(tǒng)組開發(fā)。這些聽覺功能被發(fā)送到運行NT的雙450 mHz PC。 NT機器實時處理這些特征以識別護理人員的口頭情感意圖。

富有表現(xiàn)力的表情系統(tǒng)

Kismet擁有15個DoF面部，可以顯示各種各樣的面部表情，以反映其“情緒化”狀態(tài)以及服務(wù)于其他交際目的。每只耳朵都有兩個自由度，讓Kismet以感興趣的方式振作耳朵，或者以一種讓人想起憤怒動物的方式折回它們。每一條眉毛都可以在挫折中降低和皺起，向上抬起以獲得驚喜，或者向上傾斜眉毛的內(nèi)角以獲得悲傷。每個眼瞼都可以獨立打開和關(guān)閉，讓機器人眨眼或眨眼。機器人有四個唇部執(zhí)行器，每個角部有一個，可以向上卷曲以獲得微笑，向下卷曲可以皺眉。下頜也有一個自由度。

發(fā)聲系統(tǒng)

機器人的發(fā)聲功能是通過發(fā)音合成器生成的。底層軟件（DECtalk v4.5）基于Klatt合成器，該合成器模擬人類關(guān)節(jié)道的生理特征。通過調(diào)整合成器的參數(shù)，可以傳達說話人的個性（Kismet聽起來像一個小孩）以及為合成語音添加情感品質(zhì)（Cahn 1990）。 [3]

研究進展

播報

編輯

在人機游戲中學(xué)習(xí)社會行為

我們正在探索如何通過利用培養(yǎng)看護人和未成熟學(xué)習(xí)者之間產(chǎn)生的互動類型來實現(xiàn)社會地位的學(xué)習(xí)。對我們來說，學(xué)習(xí)者是一個擬人化的機器人平臺。它的主要感官輸入包括視覺，試鏡和其自由度的聯(lián)合旋轉(zhuǎn)。其輸出包括發(fā)聲，頭部和眼睛方向以及面部表情。機器人被設(shè)計成一個復(fù)雜的系統(tǒng)，在精神上類似于人類嬰兒。也就是說，機器人以一種相當無助和原始的狀態(tài)開始，并需要一位老練和仁慈的看護人員的幫助來學(xué)習(xí)和發(fā)展。看護機器人之間的互動純粹是社交的，就像母親與嬰兒的互動方式一樣。針對學(xué)習(xí)的各種能力是人類嬰兒在出生后第一年展示的社交和溝通技巧。

這項工作的目標是如何建立一個更開放的學(xué)習(xí)系統(tǒng)的更大問題。許多基于學(xué)習(xí)的機器人研究都是針對訓(xùn)練機器人來學(xué)習(xí)特定任務(wù)，模型，表示等等。通常，研究人員先驗地確定機器人要學(xué)習(xí)什么任務(wù)（例如在辦公室環(huán)境中導(dǎo)航），然后相應(yīng)地設(shè)計學(xué)習(xí)任務(wù)。一旦機器人可以執(zhí)行任務(wù)以達到期望的成功度，則完成學(xué)習(xí)任務(wù)。但是，由于學(xué)習(xí)算法是針對特定任務(wù)精心定制的，因此必須精心設(shè)計新的學(xué)習(xí)算法，以便機器人學(xué)習(xí)不同的任務(wù)。機器人學(xué)習(xí)算法的設(shè)計是一個勞動密集型過程，并且證明難以在更復(fù)雜的環(huán)境中將當前技術(shù)擴展到更復(fù)雜的任務(wù)。

相比之下，這項工作探討了如何設(shè)計一個更開放的學(xué)習(xí)系統(tǒng)。為此，它深受兒童發(fā)展心理學(xué)的理論，觀察和實驗結(jié)果的啟發(fā)。這項研究的核心是弄清楚如何設(shè)計一個綜合學(xué)習(xí)系統(tǒng)，使學(xué)習(xí)者能夠從先前獲得的技能和認知結(jié)構(gòu)中引導(dǎo)，以學(xué)習(xí)新的，更多樣化和更復(fù)雜的技能。人類嬰兒是我們希望我們的系統(tǒng)模仿的學(xué)習(xí)類型的主要參展者，通常被描述為具有發(fā)展形象，其中早期技能和能力被逐步修改，調(diào)整和構(gòu)建，以產(chǎn)生更復(fù)雜，多樣或新的能力。

方法

我們的方法旨在利用人類嬰兒在學(xué)習(xí)與照顧者互動時可以獲得的許多相同的社會線索，約束和偏見。在學(xué)習(xí)早期技能時，可以使用從相對原始狀態(tài)開始，特別是當系統(tǒng)位于極其復(fù)雜的環(huán)境中時。與新生兒一樣，早期學(xué)習(xí)問題被簡化，因為粗略的初始感知能力和有限的運動技能限制了系統(tǒng)必須處理和學(xué)習(xí)的信息的復(fù)雜性。這使嬰兒有機會學(xué)習(xí)與其當前的感知，運動和認知能力相稱的技能，而不是用麻煩的復(fù)雜性轟炸新生兒。此外，看護人通過仁慈地設(shè)計環(huán)境和滿足嬰兒當前能力的任務(wù)，幫助簡化嬰兒的學(xué)習(xí)問題。例子包括使用顏色鮮艷的物體，吸引嬰兒注意顯著因素，協(xié)助嬰兒完成手頭的任務(wù)，等等。

學(xué)習(xí)者和看護者之間的互動形成了一個相互調(diào)節(jié)的過程。使用來自嬰兒的情緒反饋，護理人員協(xié)調(diào)學(xué)習(xí)情節(jié)以適應(yīng)學(xué)習(xí)者當前的復(fù)雜程度。例如，如果學(xué)習(xí)者過度刺激（過于環(huán)境復(fù)雜性不堪重負），看護人必須簡化甚至?xí)和W(xué)習(xí)情節(jié)?；蛘?，如果學(xué)習(xí)者看起來很無聊，那么看護人會對學(xué)習(xí)情節(jié)引入更多種類或更多難度。在學(xué)習(xí)過程中，學(xué)習(xí)者構(gòu)建內(nèi)部結(jié)構(gòu)以實現(xiàn)更復(fù)雜的技能和能力。因此，它能夠處理稍微復(fù)雜的環(huán)境。因此，保持平衡，學(xué)習(xí)者總是有足夠的挑戰(zhàn)去學(xué)習(xí)已經(jīng)擁有的東西，但是從來沒有完全被淹沒，所以幾乎沒有機會學(xué)習(xí)任何東西。隨著發(fā)展的進行，新的目標被學(xué)習(xí)，因為發(fā)現(xiàn)了有趣的結(jié)果以及實現(xiàn)它們的不同方法。

挑戰(zhàn)

這項工作必須解決許多困難問題。兩個主要問題是建立學(xué)習(xí)者和看護者之間自然，實時的互動動態(tài)，并提出一套適當?shù)膶W(xué)習(xí)機制和基礎(chǔ)，以建立內(nèi)部結(jié)構(gòu)。僅僅感知方面是眾所周知的難題，我們將不得不將感知復(fù)雜性與實時性能進行權(quán)衡，以便將研究重點放在問題的學(xué)習(xí)和交互方面（而不是沉浸在復(fù)雜的視覺和聽覺處理中））。這種權(quán)衡還有待確定。

從更廣泛的角度來看，這項研究不僅旨在建立一個開放式學(xué)習(xí)系統(tǒng)，而且還旨在建立一個人類可以與自然，本能的方式進行互動和訓(xùn)練的系統(tǒng)。人類是高度社會化的生物，并使用各種線索和方式相互溝通。構(gòu)建可以利用和理解類似社交線索的系統(tǒng)可以使人們更容易使用機器，并使人們能夠以更豐富的方式與機器進行通信。 [4]

相關(guān)知識

AI簡史：從1308年到2016年人工智能緩步走來
 人工智能

網(wǎng)址: kismet http://m.gysdgmq.cn/newsview1695282.html