中文分詞
中文分詞的相關(guān)文獻(xiàn)在2000年到2022年內(nèi)共計(jì)1112篇,主要集中在自動化技術(shù)、計(jì)算機(jī)技術(shù)、科學(xué)、科學(xué)研究、信息與知識傳播
等領(lǐng)域,其中期刊論文880篇、會議論文52篇、專利文獻(xiàn)5420篇;相關(guān)期刊361種,包括現(xiàn)代圖書情報(bào)技術(shù)、電腦編程技巧與維護(hù)、電腦知識與技術(shù)等;
相關(guān)會議45種,包括第33屆中國數(shù)據(jù)庫學(xué)術(shù)會議(NDBC2016 )、中國中文信息學(xué)會2015學(xué)術(shù)年會(CIPS2015)暨第十四屆全國計(jì)算語言學(xué)學(xué)術(shù)會議(CCL2015)、第三屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國際學(xué)術(shù)研討會(NLP-NABD2015)、第十二屆全國人機(jī)語言通訊學(xué)術(shù)會議(NCMMSC`2013)等;中文分詞的相關(guān)文獻(xiàn)由2350位作者貢獻(xiàn),包括劉挺、車萬翔、龍華等。
中文分詞
-研究學(xué)者
劉挺
車萬翔
龍華
劉一佳
劉勇
李思
王冬
邵玉斌
劉偉
胡學(xué)鋼
邵黨國
顧磊
周國棟
張會鵬
張啟宇
張敏
張梅山
徐蔚然
李壽山
柳艷紅
王堅(jiān)
趙海
郭瑞
郭祥
麥范金
黃德根
丁潔
何云
修馳
馮國明
馮鴻懷
劉光勝
劉素輝
包祖貽
呂學(xué)強(qiáng)
呂洪波
吳衛(wèi)江
吳新麗
吳朝暉
周小平
周晗
周珍娟
姜明
姜曉紅
姜育彥
孫健
孫憶南
孫海峰
寧更新
山嵐
排序:
按相關(guān)性
按時間降序
按時間升序
鄔滿;
文莉莉;
孫苗
摘要:
針對復(fù)雜海洋場景(目標(biāo)多尺度、對象多樣化、風(fēng)格差異大、時空強(qiáng)關(guān)聯(lián)且存在不確定性目標(biāo))特點(diǎn),研究基于注意力機(jī)制的復(fù)雜圖像有效特征提取方法,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)相結(jié)合的復(fù)雜海洋場景圖像中文描述生成模型;結(jié)合Jieba分詞工具,實(shí)現(xiàn)了對復(fù)雜海洋場景監(jiān)測圖像的自動翻譯。利用91衛(wèi)圖助手及無人機(jī)高清影像數(shù)據(jù),建立模型并對算法進(jìn)行驗(yàn)證。結(jié)果表明,Inception-v4比VGG16模型有更強(qiáng)的復(fù)雜特征提取能力,在相同數(shù)據(jù)集下,Inception-v4模型的圖像分類能力高出約5.3個百分點(diǎn);基于卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶模型的圖像中文描述生成算法基本可行,可以解決批量圖像的自動標(biāo)注問題,但在算法的穩(wěn)定性和描述的準(zhǔn)確性上需進(jìn)一步提高。
肖曉霞;
劉明婷;
楊馮天賜;
劉鑒建縣;
楊陽;
石月
摘要:
中醫(yī)醫(yī)案是中醫(yī)醫(yī)生學(xué)習(xí)臨床經(jīng)驗(yàn)的重要文獻(xiàn)資料,對中醫(yī)醫(yī)案進(jìn)行結(jié)構(gòu)化處理有利于采用機(jī)器學(xué)習(xí)等方法總結(jié)臨床經(jīng)驗(yàn),加速中醫(yī)傳承。為了實(shí)現(xiàn)中醫(yī)醫(yī)案快速結(jié)構(gòu)化,提出了一種基于自然語言處理的中醫(yī)醫(yī)案文本快速結(jié)構(gòu)化方法。將《中國現(xiàn)代名中醫(yī)醫(yī)案精粹》作為結(jié)構(gòu)化對象,采用光學(xué)字符識別技術(shù)識別醫(yī)案截圖的文本,同時對文本做初步結(jié)構(gòu)化。構(gòu)建簡單癥狀詞典,采用結(jié)合詞典的改進(jìn)的N-gram模型獲取醫(yī)案文本中的癥狀、體征等詞,并在結(jié)構(gòu)化過程中更新詞典,實(shí)現(xiàn)了對4754份文本醫(yī)案的結(jié)構(gòu)化。隨機(jī)選取666份醫(yī)案文本對最終模型進(jìn)行測試,其F1值達(dá)到82.99%。
陳群;
吳鄭紅;
許哲;
金薇婕
摘要:
"擇校熱"引發(fā)的"入學(xué)難""天價(jià)房"等一系列社會性問題日益凸顯。為遏制擇校問題,《中共中央國務(wù)院關(guān)于深化教育教學(xué)改革全面提高義務(wù)教育質(zhì)量的意見》要求推進(jìn)義務(wù)教育學(xué)校免試就近入學(xué)全覆蓋,旨在通過促進(jìn)教育起點(diǎn)公平,營造良好的教育生態(tài),從而促進(jìn)社會公平。文章立足于信息化技術(shù)發(fā)展,運(yùn)用中文分詞 技術(shù)和貝葉斯概率模型,試圖構(gòu)建一套落實(shí)義務(wù)教育階段免試就近入學(xué)政策的實(shí)用入學(xué)分配策略,旨在促進(jìn)義務(wù)教育學(xué)校免試就近入學(xué)政策精準(zhǔn)高效落地。
劉洋;
余甜;
丁藝
摘要:
中文分詞 在自然語言處理中占據(jù)了十分重要的地位。為了提高中文分詞 的速度,論文提出了一種新的求解最大概率路徑的方法。該方法主要分為兩步:1)將詞頻總和的數(shù)值減小來解決下溢問題;2)避免使用復(fù)雜的計(jì)算方法,使用簡單的除法操作來降低運(yùn)行時間提高分詞速度。最后,使用搜狗新聞數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,新方法的中文分詞 速度相較于JIEBA的中文分詞 的速度顯著提高,并且為了驗(yàn)證分詞的性能,對準(zhǔn)確率,召回率以及F1進(jìn)行了計(jì)算,三個指標(biāo)的值均可達(dá)到95%以上。
李書彬;
周安民
摘要:
中文短文本分類是自然語言處理的重要領(lǐng)域之一,文中提出了一種基于多維度圖神經(jīng)網(wǎng)絡(luò)的短文本分類方法,通過對文檔中的中文詞語進(jìn)行建模,分別構(gòu)建序列邊、詞頻邊、主題邊與結(jié)點(diǎn)信息相融合以達(dá)到提取深度語義信息的目的,提高圖神經(jīng)網(wǎng)絡(luò)的分類能力。通過和現(xiàn)有方法對比,本文提出的基于多維度圖神經(jīng)網(wǎng)絡(luò)的短文本分類方法具有更高的準(zhǔn)確率,能夠有效的達(dá)到中文短文本分類的目的。
王佳莉
摘要:
筆者所在學(xué)校在2020年下半年建立了人工智能實(shí)驗(yàn)室,在其暢言AI實(shí)驗(yàn)平臺中,學(xué)生對自然語言處理中的四大名著分詞頗有興趣,并產(chǎn)生了疑問:中文分詞 和詞頻統(tǒng)計(jì)的核心算法是什么?針對這種情況,筆者利用Python編程,幫助學(xué)生掌握詞頻統(tǒng)計(jì)中的枚舉算法。
韓士洋;
馬致遠(yuǎn);
楊芳艷;
李想;
汪偉
摘要:
成詞信息是一種對中文分詞 任務(wù)十分重要的文本特征。最新中文分詞 模型之一的WMSEG就是通過引入成詞信息來獲得最頂尖的分詞性能。然而這類模型在建模時并未考慮標(biāo)簽之間的依賴關(guān)系,導(dǎo)致其分詞性能特別是對未登錄詞的識別有所欠缺。針對這一問題,通過在學(xué)習(xí)過程中引入標(biāo)簽嵌入的注意力機(jī)制,提出了一種帶標(biāo)簽注意力的成詞記憶網(wǎng)絡(luò)來增強(qiáng)標(biāo)簽之間的依賴關(guān)系以及標(biāo)簽和字符之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,該模型在四個常用數(shù)據(jù)集上都取得了不弱于WMSEG的分詞性能,同時提高了對未登錄詞的識別能力。
王星;
于麗美;
陳吉
摘要:
作為自然語言處理任務(wù)的基礎(chǔ),中文分詞 的準(zhǔn)確率直接影響命名實(shí)體識別、信息檢索等任務(wù)的效果.針對現(xiàn)有分詞模型使用的靜態(tài)詞向量精確表征能力較差和專業(yè)領(lǐng)域分詞中模型適應(yīng)性差等問題,本文提出一種使用字根信息為輔助特征的中文分詞 模型.模型分為主任務(wù)和輔助任務(wù),主任務(wù)中使用ALBERT語言模型訓(xùn)練詞向量,利用去池化卷積殘差神經(jīng)網(wǎng)絡(luò)提取特征,與輔助任務(wù)抽取的特征融合后進(jìn)行分詞.輔助任務(wù)使用字根向量表示文本,通過淺層卷積提取特征,進(jìn)行序列標(biāo)注.借助損失函數(shù)利用輔助任務(wù)對主任務(wù)進(jìn)行糾正,協(xié)助主任務(wù)實(shí)現(xiàn)中文分詞 .在BakeOff2005語料庫的4個數(shù)據(jù)集以及兩個小型法律文書數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)表明該文提出的分詞模型在多數(shù)大型數(shù)據(jù)集上實(shí)驗(yàn)效果達(dá)到最優(yōu),并且在小型法律數(shù)據(jù)集上F1值最高達(dá)到97.90%.
邵黨國;
黃初升;
馬磊;
賀建峰;
易三莉
摘要:
中文分詞 (Chinese Word Segmentation,CWS)是自然語言處理(Natural Language Processing,NLP)中一項(xiàng)重要的基礎(chǔ)任務(wù)。由于不同領(lǐng)域中文詞匯的特殊性以及缺乏相關(guān)領(lǐng)域的標(biāo)記數(shù)據(jù),面向特定領(lǐng)域的分詞任務(wù)是近年來中文分詞 研究面臨的挑戰(zhàn)之一。因此,提出了一種基于雙向長短時記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,Bi-LSTM)的分詞模型,其中分別使用了大規(guī)模的中文通用語料以及少量中文醫(yī)學(xué)語料訓(xùn)練模型來構(gòu)建這種全新的分詞模型。該模型在僅使用少量中文醫(yī)學(xué)領(lǐng)域標(biāo)記數(shù)據(jù)的情況下,在該領(lǐng)域的分詞任務(wù)上獲得了較好的分詞效果,實(shí)驗(yàn)結(jié)果中的最優(yōu)F1值為95.54%,相比單獨(dú)使用中文醫(yī)學(xué)語料訓(xùn)練的分詞模型,有比較明顯的提升。
楊淑瑩;
田迪;
郭楊楊;
趙敏
摘要:
為便利聽障人士的正常社會生活,提高其社會融入度,設(shè)計(jì)開發(fā)了基于B/S模式的仿真手語翻譯系統(tǒng)。此系統(tǒng)包含語音識別模塊、文本分詞模塊和虛擬人控制模塊。采集到的語音經(jīng)過Mel尺度的小波包分解提取語音聲學(xué)特征,并進(jìn)行快速語音識別得到對應(yīng)文本,使用jieba完成對應(yīng)的文本分詞;同時創(chuàng)建仿真虛擬人模型并為其添加關(guān)鍵幀手語動作,使用Three.js實(shí)現(xiàn)Web端仿真手語動作渲染,最終實(shí)現(xiàn)語音到仿真手語的翻譯過程。此系統(tǒng)操作方便、實(shí)用性強(qiáng),具有很好的應(yīng)用前景。
秦海鵬;
桑孝偉
《第十一屆全國地質(zhì)檔案資料學(xué)術(shù)研討會》
| 2018年
摘要:
中文分詞 是利用計(jì)算機(jī)自動識別文本中詞的邊界的過程,是中文原始文本處理最重要的預(yù)處理步驟.目前,北京地質(zhì)資料館擁有近萬檔電子化成果地質(zhì)資料,但是作為公益投資形成的、具有社會服務(wù)屬性的準(zhǔn)公共產(chǎn)品,仍屬于不完整的信息產(chǎn)品,難以開展二次開發(fā).本文探討利用中文分詞 模塊分析成果地質(zhì)資料的摘要文本相似性,為館內(nèi)后續(xù)利用計(jì)算機(jī)進(jìn)行文本分類、信息檢索、信息過濾等后續(xù)中文文本信息處理打下基礎(chǔ).
張婧;
黃德根;
黃鍇宇;
劉壯;
孟祥主
《第十六屆全國計(jì)算語言學(xué)學(xué)術(shù)會議暨第五屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國際學(xué)術(shù)研討會》
| 2017年
摘要:
由于面向中文微博的分詞標(biāo)注語料相對較少,導(dǎo)致基于傳統(tǒng)方法和深度學(xué)習(xí)方法的中文分詞 系統(tǒng)在微博語料上的表現(xiàn)效果很差.針對此問題,本文提出一種新的主動學(xué)習(xí)方法從大規(guī)模未標(biāo)注語料中挑選更具標(biāo)注價(jià)值的微博分詞語料.該方法根據(jù)微博語料的特點(diǎn),在主動學(xué)習(xí)迭代過程中引入?yún)?shù)λ來控制所選的重復(fù)樣例的個數(shù),確保了所選樣例的多樣性;同時,根據(jù)樣例中字標(biāo)注結(jié)果的不確定性和上下文的多樣性,采用Max、Avg和AvgMax三種策略衡量樣例整體的標(biāo)注價(jià)值;此外,用于主動學(xué)習(xí)的初始分詞器除了使用當(dāng)前字的上下文作為特征外,還利用字向量自動計(jì)算當(dāng)前字成為停用字的可能性作為模型的特征.實(shí)驗(yàn)使用NLPCC2015公開的訓(xùn)練語料和測試語料,結(jié)果表明,本文提出的基于主動學(xué)習(xí)的分詞方法,其F值較基線系統(tǒng)提高了0.84%~1.49%,與目前最優(yōu)的WBA主動學(xué)習(xí)方法相比提升效果更加顯著.
Mu HongFen;
母紅芬;
Li Zheng;
李征;
Jiao YongQiang;
焦永強(qiáng);
Cheng XinYu;
程新宇
《第33屆中國數(shù)據(jù)庫學(xué)術(shù)會議(NDBC2016 )》
| 2016年
摘要:
根據(jù)軍工軟件質(zhì)量管理要求,航空系統(tǒng)軟件測試用例需要進(jìn)行規(guī)范化管理及高效的復(fù)用,TCARS系統(tǒng)基于主題模型,通過主題挖掘判斷需求的相似性和需求與用例的關(guān)聯(lián)性,實(shí)現(xiàn)測試用例高效復(fù)用.系統(tǒng)先建立測試用例管理知識庫和需求管理庫,對新上傳的測試用例和需求,經(jīng)過中文分詞 和LDA主題抽取處理,自動推薦相似需求和相關(guān)測試用例.系統(tǒng)同時推薦與文檔相關(guān)的標(biāo)簽,方便用戶標(biāo)記和查找所需用例和需求.用戶也可以定制搜索條件,通過精確匹配和模糊匹配,查找所需測試用例和需求,對主題生成過程和結(jié)果進(jìn)行可視化,有利于系統(tǒng)分析和優(yōu)化.
LIU Hang;
劉航;
LIU Mingtong;
劉明童;
ZHANG Yujie;
張玉潔;
XU Jinan;
徐金安;
CHEN Yufeng;
陳鈺楓
《第十七屆全國計(jì)算語言學(xué)學(xué)術(shù)會議暨第六屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國際學(xué)術(shù)研討會(CCL 2018)》
| 2018年
摘要:
在漢語一體化依存分析中,如何利用分詞、詞性標(biāo)注和句法分析的中間結(jié)果作為分析特征成為核心問題,也是三個任務(wù)相互制約協(xié)調(diào)、共同提高性能的關(guān)鍵所在.目前無論基于特征工程的方法還是基于深度學(xué)習(xí)的方法尚無法充分利用分析過程中依存子樹的完整信息,而依存子樹作為中間結(jié)果的主要成分對三個任務(wù)的后續(xù)分析具有重要的指導(dǎo)意義.為解決該問題,本文在基于轉(zhuǎn)移的依存分析框架下,提出Stack-Tree LSTM依存子樹編碼方法,通過對分析棧中所有依存子樹的有效建模,獲取任意時刻的依存子樹的完整信息作為特征參與轉(zhuǎn)移動作決策.利用該編碼方式提出詞性特征使用方法,融合N-gram特征構(gòu)建漢語一體化依存分析神經(jīng)網(wǎng)絡(luò)模型.最后在賓州漢語樹庫上進(jìn)行了驗(yàn)證實(shí)驗(yàn),并與已有方法進(jìn)行了比較.實(shí)驗(yàn)結(jié)果顯示本文提出的模型在分詞、詞性標(biāo)注和依存分析任務(wù)上的性能非常接近特征工程最好的結(jié)果,并且均超過已有的一體化依存分析神經(jīng)網(wǎng)絡(luò)模型.