售前電話
135-3656-7657
售前電話 : 135-3656-7657
這是 阿拉燈神丁Vicky 的第 23 篇文章
1、項目背景
為通過項目實戰(zhàn)增加對知識圖譜的認(rèn)識,幾乎找了所有網(wǎng)上的開源項目及視頻實戰(zhàn)教程。
果然,功夫不負(fù)有心人,找到了中科院軟件所劉煥勇老師在上的開源項目,基于知識圖譜的醫(yī)藥領(lǐng)域問答項目。
用了兩個晚上搭建了兩套,Mac版與版,哈哈,運(yùn)行成功?。?!
從無到有搭建一個以疾病為中心的一定規(guī)模醫(yī)藥領(lǐng)域知識圖譜,以該知識圖譜完成自動問答與分析服務(wù)。該項目立足醫(yī)藥領(lǐng)域,以垂直型醫(yī)藥網(wǎng)站為數(shù)據(jù)來源,以疾病為核心,構(gòu)建起一個包含7類規(guī)模為4.4萬的知識實體,11類規(guī)模約30萬實體關(guān)系的知識圖譜。 本項目將包括以下兩部分的內(nèi)容:1、基于垂直網(wǎng)站數(shù)據(jù)的醫(yī)藥知識圖譜構(gòu)建
2、基于醫(yī)藥知識圖譜的自動問答
2、項目環(huán)境
2.1 系統(tǒng)
搭建中間有很多坑,且行且注意。
配置要求:要求配置neo4j數(shù)據(jù)庫及相應(yīng)的依賴包。neo4j數(shù)據(jù)庫用戶名密碼記住,并修改相應(yīng)文件。
安裝neo4j,neo4j 依賴java jdk 1.8版本以上:
根據(jù)neo4j 安裝時的端口、賬戶、密碼配置設(shè)置設(shè)置項目配置文件:.py & .py (下載項目時根據(jù)個人需要也可使用git)
數(shù)據(jù)導(dǎo)入: .py,導(dǎo)入的數(shù)據(jù)較多,估計需要幾個小時。
.py導(dǎo)入數(shù)據(jù)之前,需要在該文件main函數(shù)中加入:.py
啟動問答: .py
2.2 Mac系統(tǒng)
mac本身自帶、java jdk環(huán)境,可直接安裝neo4j圖數(shù)據(jù)庫,項目運(yùn)行步驟與基本一樣。
問題解答:安裝過程中如遇問題可聯(lián)系: -sbb。
2.3 Neo4j數(shù)據(jù)庫展示
2.4 問答系統(tǒng)運(yùn)行效果
3、項目介紹
該項目的數(shù)據(jù)來自垂直類醫(yī)療網(wǎng)站尋醫(yī)問藥,使用爬蟲腳本.py,以結(jié)構(gòu)化數(shù)據(jù)為主,構(gòu)建了以疾病為中心的醫(yī)療知識圖譜,實體規(guī)模4.4萬,實體關(guān)系規(guī)模30萬。的設(shè)計根據(jù)所采集的結(jié)構(gòu)化數(shù)據(jù)生成醫(yī)療問答python,對網(wǎng)頁的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行xpath解析。
項目的數(shù)據(jù)存儲采用Neo4j圖數(shù)據(jù)庫,問答系統(tǒng)采用了規(guī)則匹配方式完成,數(shù)據(jù)操作采用neo4j聲明的。
項目的不足之處在于疾病的引發(fā)原因、預(yù)防等以大段文字返回,這塊可引入事件抽取,可將原因結(jié)構(gòu)化表示出來。
3.1 項目目錄
.
├── .md
├── \\編譯結(jié)果保存目錄
│ ├── .-36.pyc
│ ├── .-36.pyc
│ └── .-36.pyc
├── .py
├── .pyc
├── .py \\知識圖譜數(shù)據(jù)入庫腳本
├── .py \\問答程序腳本
├── data
│ └── .json \\本項目的全部數(shù)據(jù),通過.py導(dǎo)neo4j
├── dict
│ ├── check.txt \\診斷檢查項目實體庫
│ ├── deny.txt \\否定詞庫
│ ├── .txt \\醫(yī)療科目實體庫
│ ├── .txt \\疾病實體庫
│ ├── drug.txt \\藥品實體庫
│ ├── food.txt \\食物實體庫
│ ├── .txt \\在售藥品庫
│ └── .txt \\疾病癥狀實體庫
├──
│ ├── chat1.png \\系統(tǒng)運(yùn)行問答截圖01
│ ├── chat2.png \\系統(tǒng)運(yùn)行問答截圖01
│ ├── .png \\知識圖譜構(gòu)建框架
│ ├── .png \\問答系統(tǒng)框架圖
├── img \\.md中的所用圖片
│ ├── chat1.png
│ ├── chat2.png
│ ├── .png
│ ├── .png
│ └── .png
├──
│ ├── .py \\數(shù)據(jù)庫操作腳本
│ ├── .py \\網(wǎng)絡(luò)資訊采集腳本
│ └── .py \\基于詞典的最大向前/向后腳本
├── .py \\問句類型分類腳本
├── .pyc
├── .py \\問句解析腳本
├── .pyc
3.2 知識圖譜的實體類型
3.3 知識圖譜的實體關(guān)系類型
3.4 知識圖譜的屬性類型
3.5 問答項目實現(xiàn)原理
本項目的問答系統(tǒng)完全基于規(guī)則匹配實現(xiàn),通過關(guān)鍵詞匹配,對問句進(jìn)行分類,醫(yī)療問題本身屬于封閉域類場景,對領(lǐng)域問題進(jìn)行窮舉并分類,然后使用的match去匹配查找neo4j,根據(jù)返回數(shù)據(jù)組裝問句回答,最后返回結(jié)果。
問句中的關(guān)鍵詞匹配:
根據(jù)匹配到的關(guān)鍵詞分類問句
問句解析
查找相關(guān)數(shù)據(jù)
根據(jù)返回的數(shù)據(jù)組裝回答
3.6 問答系統(tǒng)支持的問答類型
4、項目總結(jié)
基于規(guī)則的問答系統(tǒng)沒有復(fù)雜的算法,一般采用模板匹配的方式尋找匹配度最高的答案,回答結(jié)果依賴于問句類型、模板語料庫的覆蓋全面性,面對已知的問題,可以給出合適的答案,對于模板匹配不到的問題或問句類型,經(jīng)常遇到的有三種回答方式:1、給出一個無厘頭的答案;
2、婉轉(zhuǎn)的回答不知道,提示用戶換種方式去問;
3、轉(zhuǎn)移話題,回避問題;
例如,本項目中采用了婉轉(zhuǎn)的方式回答不知道:
基于知識圖譜的問答系統(tǒng)的主要特征是知識圖譜,系統(tǒng)依賴一個或多個領(lǐng)域的實體,并基于圖譜進(jìn)行推理或演繹,深度回答用戶的問題,基于知識圖譜的問答系統(tǒng)更擅長回答知識性問題,與基于模板的聊天機(jī)器人有所不同的是它更直接、直觀的給用戶答案。對于不能回答、或不知道的問題,一般直接返回失敗,而不是轉(zhuǎn)移話題避免尷尬。