電網(wǎng)是高效快捷的能源輸送通道和優(yōu)化配置平臺,是能源電力可持續(xù)發(fā)展的關鍵環(huán)節(jié),在現(xiàn)代能源供應體系中發(fā)揮著重要的樞紐作用,關系國家能源安全。2010年以來,國家電網(wǎng)規(guī)模增長近一倍,保障了經(jīng)濟社會發(fā)展對能源電力的需求。
隨著人工智能技術的快速發(fā)展,機器智能的優(yōu)勢正逐漸深入各行各業(yè)。自然語言處理技術作為人工智能領域最具代表也最有難度的研究課題,能夠?qū)θ祟愓Z言和文本類數(shù)據(jù)進行處理和學習。智能電網(wǎng)的概念與自然語言處理的結(jié)合,則能夠衍生至通過文本閱讀理解,文本相似度計算,知識圖譜等技術,在項目招標,檢測預警,維護修理,以及渠道客戶等電網(wǎng)業(yè)務的應用場景當中落地。提升電網(wǎng)業(yè)務的工作效率,造福廣大人民群眾。
一、電力行業(yè)的市場規(guī)模
2005年以來,智能電網(wǎng)關注度就逐漸提升,這既是現(xiàn)代電力系統(tǒng)日益復雜的要求。智能電網(wǎng)的概念是眾多技術、解決方案,甚至包括政策和監(jiān)管機制的合集。未來幾年,新能源裝機和發(fā)電量占比的提升必然趨勢,電網(wǎng)必將圍繞清潔能源消納進行系統(tǒng)化的投資升級。而中東部地區(qū)興起的大量間歇性分布式并網(wǎng)也需要智能配電網(wǎng)絡的支撐。目前我國智能電網(wǎng)市場需求方主要是國家電網(wǎng),南方電網(wǎng),以及地方供電局和一些地方電力公司。目前,在市場里能夠提供較為全面的智能電網(wǎng)解決方案的供應商還十分有限,但是大多數(shù)企業(yè)都已經(jīng)開始在某個或多個細分領域逐步展開智能化的戰(zhàn)略部署。
二、智能電網(wǎng)中的自然語言處理技術
文本信息抽取: 文本信息抽取主要是結(jié)合機器閱讀理解,通過訓練Word2vec模型,將文本數(shù)據(jù)中有效的信息識別出來,實現(xiàn)可以制動從文本數(shù)據(jù)中識別并抽取關鍵信息內(nèi)容的功能。文本信息抽取的技術可以應用電網(wǎng)招標文檔數(shù)據(jù)的結(jié)構(gòu)化整理,便于招標文檔的聚類和整理。同時也適用于電網(wǎng)企業(yè)說明文檔的檢測管理以及檢測警報等任務
文檔相似度分析:文檔相似度主要是依賴文字內(nèi)容語義相似度計算的技術實現(xiàn)的一種典型NLP技術。一般用于信息檢索的和知識問答的模糊匹配。這項技術被運用與電網(wǎng)維修行業(yè),維修人員可以通過提問,或關鍵字搜索的方式對信息量龐大的電網(wǎng)維修說明文檔進行快速的檢索。系統(tǒng)可以找到精準的相關內(nèi)容,并生成說明內(nèi)容返回給為維修人員。
知識圖譜: 知識圖譜能夠有效的將系統(tǒng)當中的知識類信息進行整理與關聯(lián),從而實現(xiàn)信息數(shù)據(jù)質(zhì)檢的相互聯(lián)結(jié)與溝通。針對包含專業(yè)技術和知識類文本數(shù)據(jù)組建圖數(shù)據(jù)庫,從而實現(xiàn)復雜的檢索功能和智能輔助決策的功能。通過圖數(shù)據(jù)庫提升文本信息的檢索質(zhì)量,可運用電網(wǎng)管理監(jiān)控,電網(wǎng)知識類智能問答客服等場景。
情感識別:感情識別技術指的是通過對工作業(yè)務當中對話內(nèi)容信息的聚類和理解,識別用戶在對話內(nèi)容中所表達的情感信息的技術。感情識別技術主要依靠長期短期記憶(LSTM)算法,對相關業(yè)務對話語料的上下文信息進行學習,結(jié)合對話當中的語境信息,判斷對話內(nèi)容中所表達的情緒正負極,進而理解對話內(nèi)容的話題與意圖。
三、自然語言處理在電力行業(yè)中應用案例
電網(wǎng)檢測警報:傳統(tǒng)的電網(wǎng)檢測警報無法對在短時間內(nèi)對發(fā)生的警報事件做出準確的判斷。鑒于目前監(jiān)測報警信息效率低的現(xiàn)狀,人工智能技術為電網(wǎng)業(yè)務提供了有效的解決方案。首先,通過自然語言處理技術對報警信息文本的特征進行分析和整理,并做好預處理工作。基于Word2vec模型對監(jiān)視警報信息進行矢量化,最后,針對報警信息的特點,建立了基于LSTM和CNN組合的監(jiān)控報警事件識別模型。該模型可以通過與多種識別模型的比較,以驗證本文方法的可行性和有效性。
智能電網(wǎng)檢修問答系統(tǒng):通過機器閱讀理解技術將電網(wǎng)安規(guī)的文檔進行讀取和分析,然后把文檔中的段落建索引。電網(wǎng)維修人員可以通過自然語言問答的形式提出問題,并得到相關的答案指導。當維修人員向系統(tǒng)提問后,系統(tǒng)會先在索引里搜索相關段落,再從找到的段落中讀出問題答案。搜索返回的是段落,系統(tǒng)將段落內(nèi)容轉(zhuǎn)精煉成回答短語,返回輸出給維修人員。系統(tǒng)會理解文本內(nèi)容,之后再抽取原文的一部分內(nèi)容作為答案輸出。系統(tǒng)依賴bert 模型預測出來文章當中哪一段能回答這個問題的概率最高。(學術的閱讀理解數(shù)據(jù)集上,人能做到86.8, 最好的模型做到88.6了)
智能電網(wǎng)招標資料查重系統(tǒng):電網(wǎng)公司在項目招標采購過程中, 一般要對招標資料進行查重工作, 在歷史項目資料庫中查找是否存在類似項目, 以防止項目重復招標的情況發(fā)生, 避免資金浪費。使用潛在語義索引的方法, 對文檔中的語義進行分析, 使用自然語言處理領域的中文分詞、詞向量轉(zhuǎn)換、詞權重計算、主題建模等技術構(gòu)建了一套文檔相似度分析系統(tǒng)。該系統(tǒng)可在海量歷史項目資料庫中快速找出與目標文檔相似的項目, 并計算出文檔相似度百分比, 輔助招標采購專職判斷招標資料是否合規(guī)。系統(tǒng)的研究與應用, 對規(guī)范電網(wǎng)公司項目招標采購管理具有重要實用價值。
渠道客戶偏好分析系統(tǒng):對于渠道客戶的管理是電網(wǎng)行業(yè)當中的一個重要環(huán)節(jié)。通過自然語言處理技術,可以有效的提高電力公司對渠道客戶的管理工作。智能渠道客戶偏好分析系統(tǒng)能夠通從客戶對接業(yè)務項目的文本信息中識別客戶對各種渠道使用的喜好程度、客戶與電網(wǎng)企業(yè)交互的活躍程度、客戶關注偏好類別, 有針對性地引導客戶進行渠道轉(zhuǎn)移, 減少渠道服務成本。自然語言處理技術還能從客戶服務相關的語料數(shù)據(jù)中發(fā)現(xiàn)客戶投訴傾向分析指識別客戶投訴特征及變化規(guī)律, 對營銷業(yè)務、客戶基礎信息與客戶投訴之間進行關聯(lián)分析。結(jié)合客戶服務歷史及歷史滿意度評價情況, 對服務過程中因服務行為、供電質(zhì)量等服務質(zhì)量引起的投訴和滿意度評價較低的信息進行分析, 找出關聯(lián)關系。
四、自然語言理解在電網(wǎng)業(yè)務中發(fā)展趨勢
目前在電網(wǎng)行業(yè)中,NLP技術的主要應用場景依然是輔助業(yè)務的智能客服中心。未來,將會有更多電網(wǎng)業(yè)務相關的數(shù)據(jù)被挖掘和記錄,屆時NLP技術將會進一步的深入到電網(wǎng)成功具體的管理檢測和維護當中。NLP技術在電網(wǎng)行業(yè)當中的應用剛剛起步,對數(shù)應用還在實驗和探索階段,中國國家電網(wǎng)和南方電網(wǎng)等企業(yè)正在積極與個大NLP公司和院校相關的實驗室合作,共同探索人工智能技術在電網(wǎng)電力領域的應用,推動電網(wǎng)電力智能化的戰(zhàn)略方針,更好的服務于百姓。
五、自然語言理解在電網(wǎng)業(yè)務中的局限性
自然語言處理技術在電網(wǎng)領域當中的應用依然是一個正在探索和嘗試的課題。真正在實際場景中落地的項目非常有限,相關進展主要來著科研高校以及科技公司的POC項目當中。項目當中的數(shù)據(jù)多為實驗數(shù)據(jù),缺乏一定的客觀性和真實性。
從目前的發(fā)展現(xiàn)狀來看,電網(wǎng)行業(yè)中數(shù)據(jù)的獲取和整理將會是一個較大的挑戰(zhàn)。目前市面上還沒有一個很好的針對電網(wǎng)領域的NLP模型。電網(wǎng)領域的內(nèi)容具有一定的專業(yè)性,且需要進行大量有效的人工標注才能訓練出一個有效的模型。另外,電網(wǎng)公司是比較傳統(tǒng)的能源類企業(yè),其工作方式以及工作系統(tǒng)已經(jīng)形成體系,相對于其他行業(yè)來說,電網(wǎng)業(yè)務智能化的替換成本更大,且門檻更高。短期之內(nèi),NLP在電網(wǎng)行業(yè)中的應用多數(shù)還是以協(xié)助人類工作為目的,這就需要工作人員接受并掌握新的工作形式和模式。