公開/公告號(hào)CN112347777A
專利類型發(fā)明專利
公開/公告日2021-02-09
原文格式PDF
申請(qǐng)/專利權(quán)人 劉玲玲;
申請(qǐng)/專利號(hào)CN202011173758.7
發(fā)明設(shè)計(jì)人 劉玲玲;
申請(qǐng)日2020-10-28
分類號(hào)G06F40/289(20200101);G06F16/33(20190101);G06F16/36(20190101);G06F40/30(20200101);
代理機(jī)構(gòu)11674 北京中南長風(fēng)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙);
代理人鄭海
地址 518052 廣東省深圳市南山區(qū)前海路2057號(hào)陽光棕櫚園28棟1-5K
入庫時(shí)間 2023-06-19 09:51:02
技術(shù)領(lǐng)域
本申請(qǐng)涉及機(jī)器人技術(shù)領(lǐng)域,具體而言,涉及一種基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法和裝置。
背景技術(shù)
隨著生活水平的不斷提高,機(jī)器人的應(yīng)用也越來越廣。為了適應(yīng)用戶,機(jī)器人里面會(huì)配置語料庫,以便于識(shí)別用戶的指令。
然而,目前的機(jī)器人都是通過配置一個(gè)固定的語料庫,以存儲(chǔ)所有操作的語料,這就會(huì)導(dǎo)致用戶在發(fā)出不同操作指令時(shí),容易導(dǎo)致機(jī)器人執(zhí)行錯(cuò)誤的操作。另外,對(duì)于每個(gè)機(jī)器人來說,都要重復(fù)配置同一操作的語料。進(jìn)而使得配置成本較高、需要耗費(fèi)較多的時(shí)間,且都需要人工手動(dòng)配置,浪費(fèi)人力成本。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┮环N基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法和裝置,旨在改善上述問題。
第一方面,本申請(qǐng)?zhí)峁┑囊环N基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法,所述方法包括:采集在執(zhí)行第一操作時(shí)的第一操作信息、執(zhí)行第二操作時(shí)的第二操作信息以及執(zhí)行第三操作時(shí)的第三操作信息;分別提取所述第一操作信息所攜帶的第一語料、所述第二操作信息所攜帶的第二語料和所述第三操作信息所攜帶的第三語料;將所述第一語料存儲(chǔ)至與所述第一操作對(duì)應(yīng)的第一語料庫、將所述第二語料存儲(chǔ)至與所述第二操作對(duì)應(yīng)的第二語料庫以及將所述第三語料存儲(chǔ)至與所述第三操作對(duì)應(yīng)的第三語料庫;創(chuàng)建共享語料庫至服務(wù)器,所述共享語料庫存儲(chǔ)有所述第一語料庫、所述第二語料庫和所述第三語料庫的物理地址和訪問所述第一語料庫、所述第二語料庫和所述第三語料庫的權(quán)限信息。
可選地,所述方法還包括:在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第一操作信息匹配的第一語料;將所述第一語料更新至所述第一語料庫,以實(shí)現(xiàn)對(duì)所述第一語料庫的不斷更新;和/或,在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第二操作信息匹配的第二語料;將所述第二語料更新至所述第二語料庫,以實(shí)現(xiàn)對(duì)所述第二語料庫的不斷更新;和/或,在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第三操作信息匹配的第三語料;將所述第三語料更新至所述第三語料庫,以實(shí)現(xiàn)對(duì)所述第三語料庫的不斷更新。
在上述實(shí)現(xiàn)過程中,機(jī)器人通過在待機(jī)時(shí),采集數(shù)據(jù)以進(jìn)行語料庫的更新,從而可以使得機(jī)器人內(nèi)的語料庫不斷進(jìn)行更新,使得機(jī)器人的語料庫更加充實(shí)與完善,進(jìn)而使得機(jī)器人在執(zhí)行操作時(shí)可以得到輸出更加精確的語料或者是能夠準(zhǔn)確執(zhí)行用戶的指令;同時(shí),還不會(huì)影響機(jī)器人與用戶之間的交互,提高人機(jī)交互效率。
可選地,所述分別提取所述第一操作信息所攜帶的第一語料、所述第二操作信息所攜帶的第二語料和所述第三操作信息所攜帶的第三語料,包括:確定所述第一操作信息是否為圖像信息;若是,識(shí)別所述第一操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料,所述語料作為第一語料;若否,解碼所述第一操作信息,得到所述第一操作信息所攜帶的第一語料;和,確定所述第二操作信息是否為圖像信息;若是,識(shí)別所述第二操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料,所述語料作為第二語料;若否,解碼所述第二操作信息,得到所述第二操作信息所攜帶的第二語料;和,確定所述第三操作信息是否為圖像信息;若是,識(shí)別所述第三操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料,所述語料作為第三語料;若否,解碼所述第三操作信息,得到所述第三操作信息所攜帶的第三語料。
在上述實(shí)現(xiàn)過程中,通過先分別確認(rèn)不同的操作信息是否為圖像信息,當(dāng)為圖像信息時(shí),識(shí)別所述第一操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料。從而可以準(zhǔn)確實(shí)現(xiàn)對(duì)圖像信息的操作信息進(jìn)行語料識(shí)別提取,進(jìn)而可以提高機(jī)器人的識(shí)別能力,使得機(jī)器人更加智能。
可選地,所述第一語料庫的構(gòu)建過程為:采集第一操作的第一操作信息;根據(jù)第一預(yù)設(shè)場景標(biāo)簽,采集獲得所述第一操作信息與所述第一預(yù)設(shè)場景標(biāo)簽對(duì)應(yīng)的第一場景標(biāo)簽值;將所述第一操作信息、所述第一場景標(biāo)簽以及與所述第一場景標(biāo)簽對(duì)應(yīng)的第一場景標(biāo)簽值進(jìn)行組合,生成與所述第一操作對(duì)應(yīng)的第一語料庫;所述第二語料庫的構(gòu)建過程為:采集第二操作的第二操作信息;根據(jù)第二預(yù)設(shè)場景標(biāo)簽,采集獲得所述第二操作信息與所述第二預(yù)設(shè)場景標(biāo)簽對(duì)應(yīng)的第二場景標(biāo)簽值;將所述第二操作信息、所述第二場景標(biāo)簽以及與所述第二場景標(biāo)簽對(duì)應(yīng)的第二場景標(biāo)簽值進(jìn)行組合,生成與所述第二操作對(duì)應(yīng)的第二語料庫;所述第三語料庫的構(gòu)建過程為:采集第三操作的第三操作信息;根據(jù)第三預(yù)設(shè)場景標(biāo)簽,采集獲得所述第三操作信息與所述第三預(yù)設(shè)場景標(biāo)簽對(duì)應(yīng)的第三場景標(biāo)簽值;將所述第三操作信息、所述第三場景標(biāo)簽以及與所述第三場景標(biāo)簽對(duì)應(yīng)的第三場景標(biāo)簽值進(jìn)行組合,生成與所述第三操作對(duì)應(yīng)的第三語料庫。
可選地,所述將所述第一語料存儲(chǔ)至與所述第一操作對(duì)應(yīng)的第一語料庫、將所述第二語料存儲(chǔ)至與所述第二操作對(duì)應(yīng)的第二語料庫以及將所述第三語料存儲(chǔ)至與所述第三操作對(duì)應(yīng)的第三語料庫,包括:獲取與所述第一操作對(duì)應(yīng)的第一語料庫的第一物理位置;基于所述第一物理位置將所述第一語料發(fā)送至所述第一語料庫,所述第一語料庫驗(yàn)證所述第一語料是否符合存儲(chǔ)規(guī)則,若不符合,丟棄所述第一語料;若符合,存儲(chǔ)所述第一語料;和,獲取與所述第二操作對(duì)應(yīng)的第二語料庫的第二物理位置;基于所述第二物理位置將所述第二語料發(fā)送至所述第二語料庫,所述第二語料庫驗(yàn)證所述第二語料是否符合存儲(chǔ)規(guī)則,若不符合,丟棄所述第二語料;若符合,存儲(chǔ)所述第二語料;和,獲取與所述第三操作對(duì)應(yīng)的第三語料庫的第三物理位置;基于所述第三物理位置將所述第三語料發(fā)送至所述第三語料庫,所述第三語料庫驗(yàn)證所述第三語料是否符合存儲(chǔ)規(guī)則,若不符合,丟棄所述第三語料;若符合,存儲(chǔ)所述第三語料。
在上述實(shí)現(xiàn)過程中,機(jī)器人通過語料庫的物理地址訪問的方式進(jìn)行訪問語料庫,且在訪問時(shí),語料庫會(huì)對(duì)機(jī)器人發(fā)送的語料進(jìn)行識(shí)別驗(yàn)證,在驗(yàn)證識(shí)別時(shí),語料庫會(huì)將機(jī)器人發(fā)送的語料丟棄(或刪除),以避免將錯(cuò)誤的語料進(jìn)行存儲(chǔ),進(jìn)而提高語料庫的正確性,使得后期機(jī)器人在調(diào)用語料庫中的語料時(shí),可以降低錯(cuò)誤語料的使用,提高機(jī)器人的智能性。
可選地,所述方法還包括:提取所述第一語料庫、所述第二語料庫和所述第三語料庫中相似語料;將所述相似語料備份至所述共享語料庫,其中,所述共享語料庫存儲(chǔ)所述相似語料以及所述相似語料對(duì)應(yīng)的語料庫信息。
在上述實(shí)現(xiàn)過程中,通過提取所述第一語料庫、所述第二語料庫和所述第三語料庫中相似語料;將所述相似語料備份至所述共享語料庫,從而可以使得在不同操作使用同一相似語料時(shí),可以更加快速的獲取,提高數(shù)據(jù)處理效率。
可選地,所述創(chuàng)建共享語料庫至服務(wù)器,包括:確定所述第一語料庫的存儲(chǔ)空間的第一上限值、所述第二語料庫的存儲(chǔ)空間的第二上限值和所述第三語料庫的存儲(chǔ)空間的第三上限值;根據(jù)所述第一上限值、所述第二上限值和第三上限值,確定待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值;基于所述存儲(chǔ)空間的下限值創(chuàng)建共享語料庫。
在上述實(shí)現(xiàn)過程中,通過分別確定第一語料庫、第二語料庫和第三語料庫的存儲(chǔ)空間的上限值的方式,來確定共享語料庫的存儲(chǔ)空間的下限值,進(jìn)而使得共享語料庫的存儲(chǔ)空間的規(guī)劃更加合理,降低了存儲(chǔ)資源浪費(fèi)的概率。
可選地,所述根據(jù)所述第一上限值、所述第二上限值和第三上限值,確定待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值,包括:對(duì)所述第一上限值、所述第二上限值和第三上限值進(jìn)行累加,得到總值;確定所述總值對(duì)應(yīng)的平均值;獲取預(yù)設(shè)閾值與所述平均值的乘積,得到待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值。
可選地,所述根據(jù)所述第一上限值、所述第二上限值和第三上限值,確定待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值,包括:獲取所述第一語料庫的第一使用頻率、所述第二語料庫的第二使用頻率和所述第三語料庫的第三使用頻率;確定所述第一使用頻率、第二使用頻率和第三使用頻率的總頻率;確定所述第一使用頻率占所述總頻率的第一比值、第二使用頻率占所述總頻率的第二比值和第三使用頻率占所述總頻率的第三比值;確定所述第一上限值與所述第一比值的第一乘積、所述第二上限值與所述第二比值的第二乘積和所述第三上限值與所述第三比值的第三乘積;確定第一乘積、第二乘積和第三乘積的總和;所述總和作為待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值。
第二方面,本申請(qǐng)?zhí)峁┑囊环N基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的裝置,所述裝置包括:采集模塊,用于采集在執(zhí)行第一操作時(shí)的第一操作信息、執(zhí)行第二操作時(shí)的第二操作信息以及執(zhí)行第三操作時(shí)的第三操作信息;提取模塊,用于分別提取所述第一操作信息所攜帶的第一語料、所述第二操作信息所攜帶的第二語料和所述第三操作信息所攜帶的第三語料;存儲(chǔ)模塊,用于將所述第一語料存儲(chǔ)至與所述第一操作對(duì)應(yīng)的第一語料庫、將所述第二語料存儲(chǔ)至與所述第二操作對(duì)應(yīng)的第二語料庫以及將所述第三語料存儲(chǔ)至與所述第三操作對(duì)應(yīng)的第三語料庫;創(chuàng)建模塊,用于創(chuàng)建共享語料庫至服務(wù)器,所述共享語料庫存儲(chǔ)有所述第一語料庫、所述第二語料庫和所述第三語料庫的物理地址和訪問所述第一語料庫、所述第二語料庫和所述第三語料庫的權(quán)限信息。
上述本申請(qǐng)?zhí)峁┑囊环N基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法和裝置,通過采集在執(zhí)行第一操作時(shí)的第一操作信息、執(zhí)行第二操作時(shí)的第二操作信息以及執(zhí)行第三操作時(shí)的第三操作信息;分別提取所述第一操作信息所攜帶的第一語料、所述第二操作信息所攜帶的第二語料和所述第三操作信息所攜帶的第三語料;將所述第一語料存儲(chǔ)至與所述第一操作對(duì)應(yīng)的第一語料庫、將所述第二語料存儲(chǔ)至與所述第二操作對(duì)應(yīng)的第二語料庫以及將所述第三語料存儲(chǔ)至與所述第三操作對(duì)應(yīng)的第三語料庫;創(chuàng)建共享語料庫至服務(wù)器,所述共享語料庫存儲(chǔ)有所述第一語料庫、所述第二語料庫和所述第三語料庫的物理地址和訪問所述第一語料庫、所述第二語料庫和所述第三語料庫的權(quán)限信息。從而使得機(jī)器人可以在執(zhí)行操作的同時(shí)還可以對(duì)不同操作的操作信息進(jìn)行分類提取,并且通過將分類提取的語料進(jìn)行分類存儲(chǔ),以提高不同類型的操作信息對(duì)應(yīng)的語料的獨(dú)立性以及單一性,避免多個(gè)操作信息之間的語料混亂。并且通過以第一語料庫、所述第二語料庫和所述第三語料庫的物理地址和訪問所述第一語料庫、所述第二語料庫和所述第三語料庫的權(quán)限信息的方式來創(chuàng)建共享語料庫,可以使得所創(chuàng)建的共享語料庫既可以使得第一語料庫、第二語料庫和第三語料庫內(nèi)的語料進(jìn)行相互共享,但是也不會(huì)出現(xiàn)混亂,提高語料庫的使用效率,以及保證數(shù)據(jù)的獨(dú)立性。以及還可以將語料庫共享給其他機(jī)器人,使得其他機(jī)器人無需再創(chuàng)建相同語料的語料庫。進(jìn)而節(jié)約了人力成本,降低了機(jī)器人的配置成本,使得機(jī)器人的語料庫配置時(shí)間極大的縮短。
附圖說明
為了更清楚地說明本申請(qǐng)實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本申請(qǐng)的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1為本申請(qǐng)第一實(shí)施例提供的一種電子設(shè)備的結(jié)構(gòu)示意圖;
圖2為本申請(qǐng)第二實(shí)施例提供的一種基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法的流程圖;
圖3為本申請(qǐng)第三實(shí)施例提供的一種基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的裝置的功能模塊示意圖。
具體實(shí)施方式
為使本申請(qǐng)實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
第一實(shí)施例
圖1為本申請(qǐng)實(shí)施例提供的一種電子設(shè)備的結(jié)構(gòu)示意圖,在本申請(qǐng)中可以通過圖1所示的示意圖來描述用于實(shí)現(xiàn)本申請(qǐng)實(shí)施例的基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法和裝置的示例的電子設(shè)備100。
也就是說,電子設(shè)備100可以執(zhí)行第二實(shí)施例所述的基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法;或者是實(shí)現(xiàn)第三實(shí)施例所示的基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的裝置的功能。具體地,請(qǐng)參照對(duì)應(yīng)實(shí)施例,在此,不再贅述。
如圖1所示的一種電子設(shè)備的結(jié)構(gòu)示意圖,電子設(shè)備100包括一個(gè)或多個(gè)處理器102、一個(gè)或多個(gè)存儲(chǔ)裝置104、輸入裝置106、輸出裝置108,這些組件通過總線系統(tǒng)和/或其它形式的連接機(jī)構(gòu)(未示出)互連。應(yīng)當(dāng)注意,圖1所示的電子設(shè)備100的組件和結(jié)構(gòu)只是示例性的,而非限制性的,根據(jù)需要,所述電子設(shè)備可以具有圖1示出的部分組件,也可以具有圖1未示出的其他組件和結(jié)構(gòu)。
所述處理器102可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其它形式的處理單元,并且可以控制所述電子設(shè)備100中的其它組件以執(zhí)行期望的功能。
所述存儲(chǔ)裝置104可以包括一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品可以包括各種形式的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如易失性存儲(chǔ)器和/或非易失性存儲(chǔ)器。所述易失性存儲(chǔ)器例如可以包括隨機(jī)存取存儲(chǔ)器(RAM)和/或高速緩沖存儲(chǔ)器(cache)等。所述非易失性存儲(chǔ)器例如可以包括只讀存儲(chǔ)器(ROM)、硬盤、閃存等。在所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上可以存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序指令,處理器102可以運(yùn)行所述程序指令。
所述輸入裝置106可以是用戶用來輸入指令的裝置,并且可以包括鍵盤、鼠標(biāo)、麥克風(fēng)和觸摸屏等中的一個(gè)或多個(gè)。
所述輸出裝置108可以是無線通信模塊、顯示器等輸出設(shè)備。例如,當(dāng)輸出裝置108位無線通信模塊時(shí),可以將共享語料庫中提出的語料輸出至客戶端(即用戶終端)。
第二實(shí)施例:
參照?qǐng)D2所示的一種基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法的流程圖,方法具體包括如下步驟:
步驟S201,采集在執(zhí)行第一操作時(shí)的第一操作信息、執(zhí)行第二操作時(shí)的第二操作信息以及執(zhí)行第三操作時(shí)的第三操作信息。
步驟S202,分別提取所述第一操作信息所攜帶的第一語料、所述第二操作信息所攜帶的第二語料和所述第三操作信息所攜帶的第三語料。
作為一種實(shí)施方式,步驟S202,包括:確定所述第一操作信息是否為圖像信息;若是,識(shí)別所述第一操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料,所述語料作為第一語料;若否,解碼所述第一操作信息,得到所述第一操作信息所攜帶的第一語料;和,確定所述第二操作信息是否為圖像信息;若是,識(shí)別所述第二操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料,所述語料作為第二語料;若否,解碼所述第二操作信息,得到所述第二操作信息所攜帶的第二語料;和,確定所述第三操作信息是否為圖像信息;若是,識(shí)別所述第三操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料,所述語料作為第三語料;若否,解碼所述第三操作信息,得到所述第三操作信息所攜帶的第三語料。
在上述實(shí)現(xiàn)過程中,通過先分別確認(rèn)不同的操作信息是否為圖像信息,當(dāng)為圖像信息時(shí),識(shí)別所述第一操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料。從而可以準(zhǔn)確實(shí)現(xiàn)對(duì)圖像信息的操作信息進(jìn)行語料識(shí)別提取,進(jìn)而可以提高機(jī)器人的識(shí)別能力,使得機(jī)器人更加智能。
步驟S203,將所述第一語料存儲(chǔ)至與所述第一操作對(duì)應(yīng)的第一語料庫、將所述第二語料存儲(chǔ)至與所述第二操作對(duì)應(yīng)的第二語料庫以及將所述第三語料存儲(chǔ)至與所述第三操作對(duì)應(yīng)的第三語料庫。
作為一種實(shí)施方式,步驟S203,包括:獲取與所述第一操作對(duì)應(yīng)的第一語料庫的第一物理位置;基于所述第一物理位置將所述第一語料發(fā)送至所述第一語料庫,所述第一語料庫驗(yàn)證所述第一語料是否符合存儲(chǔ)規(guī)則,若不符合,丟棄所述第一語料;若符合,存儲(chǔ)所述第一語料;和,獲取與所述第二操作對(duì)應(yīng)的第二語料庫的第二物理位置;基于所述第二物理位置將所述第二語料發(fā)送至所述第二語料庫,所述第二語料庫驗(yàn)證所述第二語料是否符合存儲(chǔ)規(guī)則,若不符合,丟棄所述第二語料;若符合,存儲(chǔ)所述第二語料;和,獲取與所述第三操作對(duì)應(yīng)的第三語料庫的第三物理位置;基于所述第三物理位置將所述第三語料發(fā)送至所述第三語料庫,所述第三語料庫驗(yàn)證所述第三語料是否符合存儲(chǔ)規(guī)則,若不符合,丟棄所述第三語料;若符合,存儲(chǔ)所述第三語料。
在上述實(shí)現(xiàn)過程中,機(jī)器人通過語料庫的物理地址訪問的方式進(jìn)行訪問語料庫,且在訪問時(shí),語料庫會(huì)對(duì)機(jī)器人發(fā)送的語料進(jìn)行識(shí)別驗(yàn)證,在驗(yàn)證識(shí)別時(shí),語料庫會(huì)將機(jī)器人發(fā)送的語料丟棄(或刪除),以避免將錯(cuò)誤的語料進(jìn)行存儲(chǔ),進(jìn)而提高語料庫的正確性,使得后期機(jī)器人在調(diào)用語料庫中的語料時(shí),可以降低錯(cuò)誤語料的使用,提高機(jī)器人的智能性。
作為一種實(shí)施方式,所述第一語料庫的構(gòu)建過程為:采集第一操作的第一操作信息;根據(jù)第一預(yù)設(shè)場景標(biāo)簽,采集獲得所述第一操作信息與所述第一預(yù)設(shè)場景標(biāo)簽對(duì)應(yīng)的第一場景標(biāo)簽值;將所述第一操作信息、所述第一場景標(biāo)簽以及與所述第一場景標(biāo)簽對(duì)應(yīng)的第一場景標(biāo)簽值進(jìn)行組合,生成與所述第一操作對(duì)應(yīng)的第一語料庫;所述第二語料庫的構(gòu)建過程為:采集第二操作的第二操作信息;根據(jù)第二預(yù)設(shè)場景標(biāo)簽,采集獲得所述第二操作信息與所述第二預(yù)設(shè)場景標(biāo)簽對(duì)應(yīng)的第二場景標(biāo)簽值;將所述第二操作信息、所述第二場景標(biāo)簽以及與所述第二場景標(biāo)簽對(duì)應(yīng)的第二場景標(biāo)簽值進(jìn)行組合,生成與所述第二操作對(duì)應(yīng)的第二語料庫;所述第三語料庫的構(gòu)建過程為:采集第三操作的第三操作信息;根據(jù)第三預(yù)設(shè)場景標(biāo)簽,采集獲得所述第三操作信息與所述第三預(yù)設(shè)場景標(biāo)簽對(duì)應(yīng)的第三場景標(biāo)簽值;將所述第三操作信息、所述第三場景標(biāo)簽以及與所述第三場景標(biāo)簽對(duì)應(yīng)的第三場景標(biāo)簽值進(jìn)行組合,生成與所述第三操作對(duì)應(yīng)的第三語料庫。
步驟S204,創(chuàng)建共享語料庫至服務(wù)器。
其中,所述共享語料庫存儲(chǔ)有所述第一語料庫、所述第二語料庫和所述第三語料庫的物理地址和訪問所述第一語料庫、所述第二語料庫和所述第三語料庫的權(quán)限信息。
作為一種實(shí)施方式,步驟S204,包括:確定所述第一語料庫的存儲(chǔ)空間的第一上限值、所述第二語料庫的存儲(chǔ)空間的第二上限值和所述第三語料庫的存儲(chǔ)空間的第三上限值;根據(jù)所述第一上限值、所述第二上限值和第三上限值,確定待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值;基于所述存儲(chǔ)空間的下限值創(chuàng)建共享語料庫。
在上述實(shí)現(xiàn)過程中,通過分別確定第一語料庫、第二語料庫和第三語料庫的存儲(chǔ)空間的上限值的方式,來確定共享語料庫的存儲(chǔ)空間的下限值,進(jìn)而使得共享語料庫的存儲(chǔ)空間的規(guī)劃更加合理,降低了存儲(chǔ)資源浪費(fèi)的概率。
可選地,所述根據(jù)所述第一上限值、所述第二上限值和第三上限值,確定待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值,包括:對(duì)所述第一上限值、所述第二上限值和第三上限值進(jìn)行累加,得到總值;確定所述總值對(duì)應(yīng)的平均值;獲取預(yù)設(shè)閾值與所述平均值的乘積,得到待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值。
可選地,所述根據(jù)所述第一上限值、所述第二上限值和第三上限值,確定待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值,包括:獲取所述第一語料庫的第一使用頻率、所述第二語料庫的第二使用頻率和所述第三語料庫的第三使用頻率;確定所述第一使用頻率、第二使用頻率和第三使用頻率的總頻率;確定所述第一使用頻率占所述總頻率的第一比值、第二使用頻率占所述總頻率的第二比值和第三使用頻率占所述總頻率的第三比值;確定所述第一上限值與所述第一比值的第一乘積、所述第二上限值與所述第二比值的第二乘積和所述第三上限值與所述第三比值的第三乘積;確定第一乘積、第二乘積和第三乘積的總和;所述總和作為待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值。
在一可能的實(shí)施例中,所述方法還包括:在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第一操作信息匹配的第一語料;將所述第一語料更新至所述第一語料庫,以實(shí)現(xiàn)對(duì)所述第一語料庫的不斷更新;和/或,在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第二操作信息匹配的第二語料;將所述第二語料更新至所述第二語料庫,以實(shí)現(xiàn)對(duì)所述第二語料庫的不斷更新;和/或,在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第三操作信息匹配的第三語料;將所述第三語料更新至所述第三語料庫,以實(shí)現(xiàn)對(duì)所述第三語料庫的不斷更新。
在上述實(shí)現(xiàn)過程中,機(jī)器人通過在待機(jī)時(shí),自動(dòng)從云端采集與所述第一操作信息匹配的第一語料;將所述第一語料更新至所述第一語料庫,以實(shí)現(xiàn)對(duì)所述第一語料庫的不斷更新;和/或,在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第二操作信息匹配的第二語料;將所述第二語料更新至所述第二語料庫,以實(shí)現(xiàn)對(duì)所述第二語料庫的不斷更新;和/或,在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第三操作信息匹配的第三語料;將所述第三語料更新至所述第三語料庫,以實(shí)現(xiàn)對(duì)所述第三語料庫的不斷更新,從而可以使得機(jī)器人內(nèi)的語料庫不斷進(jìn)行更新,使得機(jī)器人的語料庫更加充實(shí)與完善,進(jìn)而使得機(jī)器人在執(zhí)行操作時(shí)可以得到輸出更加精確的語料或者是能夠準(zhǔn)確執(zhí)行用戶的指令;同時(shí),還不會(huì)影響機(jī)器人與用戶之間的交互,提高人機(jī)交互效率。
在一可能的實(shí)施例中,所述方法還包括:提取所述第一語料庫、所述第二語料庫和所述第三語料庫中相似語料;將所述相似語料備份至所述共享語料庫,其中,所述共享語料庫存儲(chǔ)所述相似語料以及所述相似語料對(duì)應(yīng)的語料庫信息。
在上述實(shí)現(xiàn)過程中,通過提取所述第一語料庫、所述第二語料庫和所述第三語料庫中相似語料;將所述相似語料備份至所述共享語料庫,從而可以使得在不同操作使用同一相似語料時(shí),可以更加快速的獲取,提高數(shù)據(jù)處理效率。
第三實(shí)施例:
參見圖3所示的一種基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的裝置,該基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的裝置400包括:
采集模塊410,用于采集在執(zhí)行第一操作時(shí)的第一操作信息、執(zhí)行第二操作時(shí)的第二操作信息以及執(zhí)行第三操作時(shí)的第三操作信息。
提取模塊420,用于分別提取所述第一操作信息所攜帶的第一語料、所述第二操作信息所攜帶的第二語料和所述第三操作信息所攜帶的第三語料。
可選地,提取模塊420,還用于確定所述第一操作信息是否為圖像信息;若是,識(shí)別所述第一操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料,所述語料作為第一語料;若否,解碼所述第一操作信息,得到所述第一操作信息所攜帶的第一語料;和,確定所述第二操作信息是否為圖像信息;若是,識(shí)別所述第二操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料,所述語料作為第二語料;若否,解碼所述第二操作信息,得到所述第二操作信息所攜帶的第二語料;和,確定所述第三操作信息是否為圖像信息;若是,識(shí)別所述第三操作信息中的圖像;請(qǐng)求訪問圖像庫,所述圖像庫存儲(chǔ)有多個(gè)圖像,每個(gè)圖像對(duì)應(yīng)有至少一個(gè)語料;從所述圖像庫中獲取與所述圖像對(duì)應(yīng)的語料,所述語料作為第三語料;若否,解碼所述第三操作信息,得到所述第三操作信息所攜帶的第三語料。
存儲(chǔ)模塊430,用于將所述第一語料存儲(chǔ)至與所述第一操作對(duì)應(yīng)的第一語料庫、將所述第二語料存儲(chǔ)至與所述第二操作對(duì)應(yīng)的第二語料庫以及將所述第三語料存儲(chǔ)至與所述第三操作對(duì)應(yīng)的第三語料庫。
可選地,存儲(chǔ)模塊430,還用于獲取與所述第一操作對(duì)應(yīng)的第一語料庫的第一物理位置;基于所述第一物理位置將所述第一語料發(fā)送至所述第一語料庫,所述第一語料庫驗(yàn)證所述第一語料是否符合存儲(chǔ)規(guī)則,若不符合,丟棄所述第一語料;若符合,存儲(chǔ)所述第一語料;和,獲取與所述第二操作對(duì)應(yīng)的第二語料庫的第二物理位置;基于所述第二物理位置將所述第二語料發(fā)送至所述第二語料庫,所述第二語料庫驗(yàn)證所述第二語料是否符合存儲(chǔ)規(guī)則,若不符合,丟棄所述第二語料;若符合,存儲(chǔ)所述第二語料;和,獲取與所述第三操作對(duì)應(yīng)的第三語料庫的第三物理位置;基于所述第三物理位置將所述第三語料發(fā)送至所述第三語料庫,所述第三語料庫驗(yàn)證所述第三語料是否符合存儲(chǔ)規(guī)則,若不符合,丟棄所述第三語料;若符合,存儲(chǔ)所述第三語料。
可選地,所述第一語料庫的構(gòu)建過程為:采集第一操作的第一操作信息;根據(jù)第一預(yù)設(shè)場景標(biāo)簽,采集獲得所述第一操作信息與所述第一預(yù)設(shè)場景標(biāo)簽對(duì)應(yīng)的第一場景標(biāo)簽值;將所述第一操作信息、所述第一場景標(biāo)簽以及與所述第一場景標(biāo)簽對(duì)應(yīng)的第一場景標(biāo)簽值進(jìn)行組合,生成與所述第一操作對(duì)應(yīng)的第一語料庫;所述第二語料庫的構(gòu)建過程為:采集第二操作的第二操作信息;根據(jù)第二預(yù)設(shè)場景標(biāo)簽,采集獲得所述第二操作信息與所述第二預(yù)設(shè)場景標(biāo)簽對(duì)應(yīng)的第二場景標(biāo)簽值;將所述第二操作信息、所述第二場景標(biāo)簽以及與所述第二場景標(biāo)簽對(duì)應(yīng)的第二場景標(biāo)簽值進(jìn)行組合,生成與所述第二操作對(duì)應(yīng)的第二語料庫;所述第三語料庫的構(gòu)建過程為:采集第三操作的第三操作信息;根據(jù)第三預(yù)設(shè)場景標(biāo)簽,采集獲得所述第三操作信息與所述第三預(yù)設(shè)場景標(biāo)簽對(duì)應(yīng)的第三場景標(biāo)簽值;將所述第三操作信息、所述第三場景標(biāo)簽以及與所述第三場景標(biāo)簽對(duì)應(yīng)的第三場景標(biāo)簽值進(jìn)行組合,生成與所述第三操作對(duì)應(yīng)的第三語料庫。
創(chuàng)建模塊440,用于創(chuàng)建共享語料庫至服務(wù)器,所述共享語料庫存儲(chǔ)有所述第一語料庫、所述第二語料庫和所述第三語料庫的物理地址和訪問所述第一語料庫、所述第二語料庫和所述第三語料庫的權(quán)限信息。
可選地,創(chuàng)建模塊440還用于確定所述第一語料庫的存儲(chǔ)空間的第一上限值、所述第二語料庫的存儲(chǔ)空間的第二上限值和所述第三語料庫的存儲(chǔ)空間的第三上限值;根據(jù)所述第一上限值、所述第二上限值和第三上限值,確定待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值;基于所述存儲(chǔ)空間的下限值創(chuàng)建共享語料庫。
可選地,所述根據(jù)所述第一上限值、所述第二上限值和第三上限值,確定待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值,包括:對(duì)所述第一上限值、所述第二上限值和第三上限值進(jìn)行累加,得到總值;確定所述總值對(duì)應(yīng)的平均值;獲取預(yù)設(shè)閾值與所述平均值的乘積,得到待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值。
可選地,所述根據(jù)所述第一上限值、所述第二上限值和第三上限值,確定待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值,包括:獲取所述第一語料庫的第一使用頻率、所述第二語料庫的第二使用頻率和所述第三語料庫的第三使用頻率;確定所述第一使用頻率、第二使用頻率和第三使用頻率的總頻率;確定所述第一使用頻率占所述總頻率的第一比值、第二使用頻率占所述總頻率的第二比值和第三使用頻率占所述總頻率的第三比值;確定所述第一上限值與所述第一比值的第一乘積、所述第二上限值與所述第二比值的第二乘積和所述第三上限值與所述第三比值的第三乘積;確定第一乘積、第二乘積和第三乘積的總和;所述總和作為待創(chuàng)建的共享語料庫的存儲(chǔ)空間的下限值。
在一可能的實(shí)施例中,基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的裝置400,還包括:更新模塊,所述更新模塊,用于在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第一操作信息匹配的第一語料;將所述第一語料更新至所述第一語料庫,以實(shí)現(xiàn)對(duì)所述第一語料庫的不斷更新;和/或,在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第二操作信息匹配的第二語料;將所述第二語料更新至所述第二語料庫,以實(shí)現(xiàn)對(duì)所述第二語料庫的不斷更新;和/或,在所述機(jī)器人進(jìn)入待機(jī)狀態(tài)時(shí),自動(dòng)從云端采集與所述第三操作信息匹配的第三語料;將所述第三語料更新至所述第三語料庫,以實(shí)現(xiàn)對(duì)所述第三語料庫的不斷更新。
在一可能的實(shí)施例中,基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的裝置400,還包括:處理模塊,所述處理模塊,用于提取所述第一語料庫、所述第二語料庫和所述第三語料庫中相似語料;將所述相似語料備份至所述共享語料庫,其中,所述共享語料庫存儲(chǔ)所述相似語料以及所述相似語料對(duì)應(yīng)的語料庫信息。
進(jìn)一步,本實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理設(shè)備運(yùn)行時(shí)執(zhí)行上述第二實(shí)施例提供的任一項(xiàng)基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法的步驟。
本申請(qǐng)實(shí)施例所提供的一種基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法和裝置的計(jì)算機(jī)程序產(chǎn)品,包括存儲(chǔ)了程序代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實(shí)施例中所述的方法,具體實(shí)現(xiàn)可參見方法實(shí)施例,在此不再贅述。
綜上所述,本申請(qǐng)?zhí)峁┮环N基于機(jī)器人自主收集語料并創(chuàng)建共享語料庫的方法和裝置,通過采集在執(zhí)行第一操作時(shí)的第一操作信息、執(zhí)行第二操作時(shí)的第二操作信息以及執(zhí)行第三操作時(shí)的第三操作信息;分別提取所述第一操作信息所攜帶的第一語料、所述第二操作信息所攜帶的第二語料和所述第三操作信息所攜帶的第三語料;將所述第一語料存儲(chǔ)至與所述第一操作對(duì)應(yīng)的第一語料庫、將所述第二語料存儲(chǔ)至與所述第二操作對(duì)應(yīng)的第二語料庫以及將所述第三語料存儲(chǔ)至與所述第三操作對(duì)應(yīng)的第三語料庫;創(chuàng)建共享語料庫至服務(wù)器,所述共享語料庫存儲(chǔ)有所述第一語料庫、所述第二語料庫和所述第三語料庫的物理地址和訪問所述第一語料庫、所述第二語料庫和所述第三語料庫的權(quán)限信息。從而使得機(jī)器人可以在執(zhí)行操作的同時(shí)還可以對(duì)不同操作的操作信息進(jìn)行分類提取,并且通過將分類提取的語料進(jìn)行分類存儲(chǔ),以提高不同類型的操作信息對(duì)應(yīng)的語料的獨(dú)立性以及單一性,避免多個(gè)操作信息之間的語料混亂。并且通過以第一語料庫、所述第二語料庫和所述第三語料庫的物理地址和訪問所述第一語料庫、所述第二語料庫和所述第三語料庫的權(quán)限信息的方式來創(chuàng)建共享語料庫,可以使得所創(chuàng)建的共享語料庫既可以使得第一語料庫、第二語料庫和第三語料庫內(nèi)的語料進(jìn)行相互共享,但是也不會(huì)出現(xiàn)混亂,提高語料庫的使用效率,以及保證數(shù)據(jù)的獨(dú)立性。以及還可以將語料庫共享給其他機(jī)器人,使得其他機(jī)器人無需再創(chuàng)建相同語料的語料庫。進(jìn)而節(jié)約了人力成本,降低了機(jī)器人的配置成本,使得機(jī)器人的語料庫配置時(shí)間極大的縮短。
需要說明的是,上述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述僅為本申請(qǐng)的優(yōu)選實(shí)施例而已,并不用于限制本申請(qǐng),對(duì)于本領(lǐng)域的技術(shù)人員來說,本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的保護(hù)范圍之內(nèi)。應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。
機(jī)譯: 基于掩模語言模型的語料庫監(jiān)控方法,語料庫監(jiān)控裝置,設(shè)備和媒體
機(jī)譯: 用于自動(dòng)配置基于機(jī)器學(xué)習(xí)的對(duì)話系統(tǒng)的訓(xùn)練機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)的系統(tǒng)和方法,包括基于異常的訓(xùn)練數(shù)據(jù)標(biāo)識(shí)的實(shí)例的訓(xùn)練樣本或創(chuàng)建訓(xùn)練數(shù)據(jù)的語料庫
機(jī)譯: 基于人工智能的語料庫收集方法,裝置,設(shè)備和存儲(chǔ)介質(zhì)