|
|
|
構(gòu)建專業(yè)數(shù)據(jù)集 支撐電力科研更好應(yīng)用人工智能技術(shù) |
|
發(fā)布者: 發(fā)布時(shí)間:2025-3-18 閱讀:70次 |
數(shù)據(jù)集是一組相關(guān)數(shù)據(jù)的集合,通常以結(jié)構(gòu)化形式(如表格、數(shù)據(jù)庫)或非結(jié)構(gòu)化形式(如文本、圖像、音頻)存在,是數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的基礎(chǔ)。而科研數(shù)據(jù)集是指在科學(xué)研究中用于分析、實(shí)驗(yàn)和驗(yàn)證假設(shè)的數(shù)據(jù)集合,通常經(jīng)過精心收集、整理和標(biāo)注,以支持特定研究領(lǐng)域的問題探索和解決。電力數(shù)據(jù)涉及生產(chǎn)、運(yùn)行、維護(hù)和經(jīng)營管理等多個(gè)領(lǐng)域。構(gòu)建電力科研數(shù)據(jù)集為算法研究和模型驗(yàn)證提供了統(tǒng)一的基準(zhǔn),可支持負(fù)荷預(yù)測、需求響應(yīng)優(yōu)化、分布式能源管理、電力市場分析等相關(guān)任務(wù),助力電力領(lǐng)域科學(xué)研究。電力科研數(shù)據(jù)集應(yīng)具備高質(zhì)量、多維度和高時(shí)效等特性在我國,隨著用能需求的不斷增長以及可再生能源的快速發(fā)展,電力系統(tǒng)正面臨前所未有的挑戰(zhàn)。人工智能技術(shù)可推動構(gòu)建新型電力系統(tǒng),而海量數(shù)據(jù)是人工智能模型擁有強(qiáng)大能力的關(guān)鍵要素。依靠人工智能技術(shù)開展模擬、訓(xùn)練、推演和驗(yàn)證等工作,需要大量完整、真實(shí)的數(shù)據(jù)集來檢驗(yàn)方法和模型的有效性。2024年12月,國家數(shù)據(jù)局等部門印發(fā)的《關(guān)于促進(jìn)企業(yè)數(shù)據(jù)資源開發(fā)利用的意見》提出,支持企業(yè)面向人工智能發(fā)展,開發(fā)高質(zhì)量數(shù)據(jù)集。在科研、制造、農(nóng)業(yè)、能源、交通、金融、通信、廣電、醫(yī)療、教育、商貿(mào)流通、文化旅游等重點(diǎn)行業(yè)領(lǐng)域,打造一批示范帶動性強(qiáng)的人工智能創(chuàng)新應(yīng)用,深化“人工智能+”應(yīng)用賦能千行百業(yè)。電力科研數(shù)據(jù)集應(yīng)具備高質(zhì)量、多維度和高時(shí)效性等特性,能夠覆蓋輸電、變電、配電及調(diào)度等多個(gè)領(lǐng)域,并確保數(shù)據(jù)的全面性和可用性。同時(shí),電力科研數(shù)據(jù)集應(yīng)支持多種應(yīng)用場景,如模型開發(fā)、系統(tǒng)優(yōu)化、故障診斷、仿真模擬和應(yīng)用評測等,還需具備動態(tài)更新、標(biāo)準(zhǔn)化管理、跨平臺兼容及隱私保護(hù)等功能,以確保數(shù)據(jù)的時(shí)效性、安全性和復(fù)用性。我國構(gòu)建電力科研數(shù)據(jù)集存在多種需求結(jié)合我國電力行業(yè)發(fā)展實(shí)際情況,借鑒國外電力科研數(shù)據(jù)集構(gòu)建經(jīng)驗(yàn),本文認(rèn)為國內(nèi)電力科研數(shù)據(jù)集構(gòu)建存在以下需求:高效的多源數(shù)據(jù)融合與數(shù)據(jù)治理體系。電力科研數(shù)據(jù)源自多個(gè)領(lǐng)域,且數(shù)據(jù)形式多樣。不同來源的數(shù)據(jù)維度不統(tǒng)一,跨源數(shù)據(jù)之間語義不一致,增加了數(shù)據(jù)融合的難度。數(shù)據(jù)治理缺乏標(biāo)準(zhǔn)化流程,數(shù)據(jù)清洗、標(biāo)注、增廣等操作不統(tǒng)一,導(dǎo)致數(shù)據(jù)集治理周期長、效率低,影響數(shù)據(jù)有效集成與分析。因此,需要開展數(shù)據(jù)融合,構(gòu)建完善的治理體系。適應(yīng)快速變化的數(shù)據(jù)平臺管理機(jī)制。科研數(shù)據(jù)集往往滯后于實(shí)際需求。在快速變化的實(shí)驗(yàn)環(huán)境中,如果數(shù)據(jù)集缺乏動態(tài)更新機(jī)制,就難以及時(shí)反映最新的實(shí)驗(yàn)條件和設(shè)備狀態(tài),影響模型訓(xùn)練和實(shí)驗(yàn)分析的效果。鑒于以上情況,需要及時(shí)更新數(shù)據(jù)集,并構(gòu)建多層級數(shù)據(jù)管理機(jī)制與版本控制機(jī)制,以滿足電力科研實(shí)驗(yàn)按數(shù)據(jù)粒度提取樣本、回溯問題版本的需求。安全可控與高效復(fù)用的數(shù)據(jù)統(tǒng)一管理機(jī)制?蒲袛(shù)據(jù)集通常由不同的研究團(tuán)隊(duì)獨(dú)立構(gòu)建。在分散式的管理模式下,每個(gè)數(shù)據(jù)集的構(gòu)建標(biāo)準(zhǔn)、數(shù)據(jù)格式、采集頻率、數(shù)據(jù)質(zhì)量控制等方面的差異較大,導(dǎo)致數(shù)據(jù)整合和復(fù)用困難。因此,需要開展數(shù)據(jù)統(tǒng)一管理,構(gòu)建數(shù)據(jù)安全共享和快速復(fù)用機(jī)制。可覆蓋電力行業(yè)各類場景的稀缺數(shù)據(jù)采集方式。某些關(guān)鍵工況或極端條件下的稀缺數(shù)據(jù)在電力科研實(shí)驗(yàn)過程中難以獲得,且受氣候、地理、設(shè)備狀態(tài)等因素影響,這些數(shù)據(jù)的質(zhì)量和完整性參差不齊。此類數(shù)據(jù)的缺少將影響在特殊場景下對模型的評估,并影響模型的應(yīng)用效果。所以,需要拓展稀缺數(shù)據(jù)采集方式,快速歸集電力行業(yè)全場景科研數(shù)據(jù),為電力科研打好數(shù)據(jù)基礎(chǔ)。從數(shù)據(jù)融合、更新、共享等方面提升科研數(shù)據(jù)集構(gòu)建能力針對現(xiàn)階段我國電力科研對數(shù)據(jù)集的需求,建議通過探索多源數(shù)據(jù)融合方法、建立動態(tài)更新機(jī)制、構(gòu)建統(tǒng)一數(shù)據(jù)共享平臺、利用仿真技術(shù)與實(shí)驗(yàn)?zāi)M彌補(bǔ)稀缺數(shù)據(jù)等方式提升科研數(shù)據(jù)集構(gòu)建能力。在多源數(shù)據(jù)融合和數(shù)據(jù)治理體系方面,建議建立統(tǒng)一的數(shù)據(jù)治理框架并推行標(biāo)準(zhǔn)化的數(shù)據(jù)清洗與預(yù)處理流程。針對電力科研數(shù)據(jù)的多樣性,制訂統(tǒng)一的數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)規(guī)范,使不同來源的數(shù)據(jù)能夠無縫對接和集成。建立跨團(tuán)隊(duì)的數(shù)據(jù)治理協(xié)作機(jī)制,確保數(shù)據(jù)標(biāo)注、清洗、增廣等操作規(guī)范化、標(biāo)準(zhǔn)化,提高數(shù)據(jù)處理的效率和一致性。建立基于元數(shù)據(jù)的管理系統(tǒng),使各個(gè)環(huán)節(jié)的數(shù)據(jù)處理流程透明化和可追溯,提升數(shù)據(jù)的質(zhì)量和可靠性。在數(shù)據(jù)更新和數(shù)據(jù)平臺管理方面,建立自動化的數(shù)據(jù)更新系統(tǒng),依據(jù)設(shè)備狀態(tài)變化、實(shí)驗(yàn)進(jìn)程等動態(tài)因素,自動采集并上傳最新的數(shù)據(jù),確保數(shù)據(jù)集反映現(xiàn)實(shí)情況。設(shè)計(jì)基于云平臺的多層級數(shù)據(jù)管理體系,按照數(shù)據(jù)的不同粒度進(jìn)行管理,實(shí)現(xiàn)數(shù)據(jù)集的分層存儲和按需提取。建立數(shù)據(jù)版本控制機(jī)制,記錄和管理每次數(shù)據(jù)更新的歷史,以便科研人員根據(jù)實(shí)際需要提取最合適的數(shù)據(jù)集,建立數(shù)據(jù)異常時(shí)的回滾及容災(zāi)機(jī)制。在數(shù)據(jù)共享與復(fù)用方面,建立統(tǒng)一的數(shù)據(jù)共享平臺管理科研數(shù)據(jù)集,推動跨領(lǐng)域、跨團(tuán)隊(duì)的數(shù)據(jù)協(xié)作。依托數(shù)據(jù)共享平臺,科研人員可獲取各類電力科研數(shù)據(jù)。同時(shí),數(shù)據(jù)共享平臺應(yīng)引入嚴(yán)格的權(quán)限控制機(jī)制,對用戶進(jìn)行訪問控制,確保特殊數(shù)據(jù)的隱私性與安全性。在稀缺數(shù)據(jù)采集方面,通過加強(qiáng)仿真數(shù)據(jù)生成與實(shí)驗(yàn)?zāi)M來彌補(bǔ)現(xiàn)實(shí)數(shù)據(jù)的不足?衫酶咝阅苡(jì)算和物理模型,結(jié)合氣候、地理等因素開展多場景、多工況的仿真實(shí)驗(yàn),生成極端條件下的稀缺數(shù)據(jù)。探索與設(shè)備供應(yīng)商、氣象機(jī)構(gòu)等合作,推動現(xiàn)場數(shù)據(jù)的采集與共享。采用數(shù)據(jù)增強(qiáng)技術(shù),將已有數(shù)據(jù)生成不同的變種,進(jìn)一步擴(kuò)展數(shù)據(jù)覆蓋范圍,確保模型訓(xùn)練的全面性和準(zhǔn)確性。
本文來源:國家電網(wǎng)報(bào);作者單位:國家電網(wǎng)有限公司大數(shù)據(jù)中心;作者:陳振宇,杜建光,楊詩語 |
|
|
|
|