微軟亞洲研究院首席研究員林欽佑訪問自動化所
10月23日,微軟亞洲研究院首席研究員、研究經(jīng)理和知識計算組主任林欽佑到訪中國科學(xué)院自動化研究所,作題為“數(shù)據(jù)到文本——從結(jié)構(gòu)化數(shù)據(jù)中自動生成文本”(Data2Text – Automatic Text Generation from Structured Data)的分享報告。報告由模式識別國家重點實驗室研究員趙軍主持。
報告圍繞“結(jié)構(gòu)化數(shù)據(jù)自動生成文本”這一主題進行。報告介紹說,以購物網(wǎng)站產(chǎn)品結(jié)構(gòu)化數(shù)據(jù)的文本描述為例,統(tǒng)計發(fā)現(xiàn),目前11%的產(chǎn)品只有結(jié)構(gòu)化數(shù)據(jù),沒有描述信息,現(xiàn)有的描述信息50%不足30個詞,難以得到產(chǎn)品的詳細(xì)信息。報告將“數(shù)據(jù)到文本”的應(yīng)用場景擴展到籃球賽況播報、會議概況、chatbot(聊天機器人)的結(jié)構(gòu)化數(shù)據(jù)生成文本,從統(tǒng)計數(shù)據(jù)和應(yīng)用場景說明這一主題的重要性。
在報告中,林欽佑比較了“數(shù)據(jù)到文本”兩種技術(shù)手段:生成模型和模板方法。報告指出,生成模型語言流暢度,不能保證正確性;而模板方法能同時保證準(zhǔn)確性和流利度,并且限定領(lǐng)域的模板容易獲取,廣泛用于工業(yè)產(chǎn)品。報告重點介紹了這一任務(wù)的四個重大挑戰(zhàn):知識(knowledge)、多樣化(variety)、視野(insight)、情境(contextual),并詳細(xì)解釋了這四個挑戰(zhàn)的具體內(nèi)容,提供了可能的解決方案。報告介紹了其團隊研發(fā)的“Data2Text Service”,從“說什么”到“怎么說”兩個角度,講解了屬性排序、模板選擇、屬性依賴、知識寫入等步驟。
最后,報告還介紹了“數(shù)據(jù)到文本”任務(wù)的評價,重點分析了現(xiàn)有評價標(biāo)準(zhǔn)的缺陷,并期望提出自動、有效的評價指標(biāo)。