RM新时代APP官网

舊版網(wǎng)站入口

站內(nèi)搜索

基于大數(shù)據(jù)的宏觀經(jīng)濟(jì)現(xiàn)時(shí)預(yù)測(cè)理論與方法研究中期檢查報(bào)告

2017年12月11日14:24來源:全國(guó)哲學(xué)社會(huì)科學(xué)工作辦公室

一、 研究進(jìn)展情況

1、研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況;

自課題立項(xiàng)以來,課題組已經(jīng)在根據(jù)課題總體設(shè)計(jì)和各個(gè)子課題的研究任務(wù)開

展研究工作。主要進(jìn)展情況如下:

(一)基于大數(shù)據(jù)的宏觀經(jīng)濟(jì)預(yù)測(cè)體系優(yōu)化與指標(biāo)生成與應(yīng)用研究。

課題總體設(shè)計(jì)中,圍繞基于大數(shù)據(jù)的宏觀經(jīng)濟(jì)預(yù)測(cè)體系優(yōu)化,主要開展四個(gè)專題的研究。專題一:基于大數(shù)據(jù)對(duì)勞動(dòng)力市場(chǎng)指標(biāo)優(yōu)化研究;專題二:基于大數(shù)據(jù)對(duì)金融市場(chǎng)指標(biāo)優(yōu)化研究;專題三:基于大數(shù)據(jù)對(duì)商品市場(chǎng)指標(biāo)優(yōu)化研究;專題四:基于大數(shù)據(jù)對(duì)國(guó)際貿(mào)易指標(biāo)優(yōu)化研究。目前已經(jīng)針對(duì)專題一、專題二、專題三進(jìn)行了研究。具體研究?jī)?nèi)容包括:

(1) 基于大數(shù)據(jù)對(duì)勞動(dòng)力市場(chǎng)指標(biāo)優(yōu)化研究

勞動(dòng)就業(yè)狀況的短期趨勢(shì)在現(xiàn)有的統(tǒng)計(jì)體系下無(wú)法得到精確的反映,而人群移動(dòng)的特征是挖掘其就業(yè)特征的有效途徑。課題組運(yùn)用中國(guó)電信上海市的移動(dòng)信令數(shù)據(jù),初步實(shí)現(xiàn)了對(duì)人群移動(dòng)軌跡的數(shù)據(jù)挖掘分析。能夠有效識(shí)別不同類型的群移動(dòng)軌跡特征,從而作為預(yù)測(cè)勞動(dòng)就業(yè)狀況的輔助指標(biāo)。

傳統(tǒng)理論中普遍使用“隨機(jī)游走理論”來刻畫個(gè)人行動(dòng)規(guī)律,隨機(jī)游走模型以Levy Flight 模型為基礎(chǔ)不斷拓展。而近幾年的文獻(xiàn)利用大數(shù)據(jù),發(fā)現(xiàn)隨機(jī)游走模型對(duì)個(gè)人行動(dòng)規(guī)律的刻畫能力存在不足,認(rèn)為個(gè)人行動(dòng)半徑更符合“冪律分布”模型;诂F(xiàn)有文獻(xiàn)研究,本課題探索通過數(shù)據(jù)變換、將個(gè)人行動(dòng)的“冪律分布”模型轉(zhuǎn)化為線性模型,并編寫適用于超大用戶群的并行聚類算法來實(shí)現(xiàn)對(duì)個(gè)人行動(dòng)規(guī)律的分析。本研究主要采用個(gè)體電信手機(jī)用戶每個(gè)月出現(xiàn)在不同基站頻次的統(tǒng)計(jì)數(shù)據(jù),并按照頻次大小進(jìn)行排序,該頻次排序數(shù)據(jù)基本符合“冪律分布”,在對(duì)該數(shù)據(jù)取對(duì)數(shù)化后,可以得到變換后的線性模型,從而實(shí)現(xiàn)簡(jiǎn)化數(shù)據(jù)分析難度。

目前所采用的電信手機(jī)數(shù)據(jù)包含2016 年6 月至2016 年11 月的共計(jì)16295554名用戶,用戶行為數(shù)據(jù)總?cè)萘窟_(dá)到150GB,主要采用有限混合模型(Finite mixed5model)來對(duì)用戶的行動(dòng)規(guī)律進(jìn)行聚類分析。

必須編寫全新分布式多線程算法,應(yīng)對(duì)海量用戶數(shù)據(jù)的分析。即使在簡(jiǎn)化的線性模型假設(shè)條件下,面對(duì)如此大規(guī)模的數(shù)據(jù)集也存在著許多技術(shù)上的難點(diǎn),主要包括:1、在大數(shù)據(jù)情境下,觀測(cè)數(shù)據(jù)量大大超出傳統(tǒng)模型應(yīng)用范圍(本課題每個(gè)月涉及觀測(cè)用戶量約為700 至800 萬(wàn),是傳統(tǒng)研究的上千倍之多,對(duì)計(jì)算資源的要求提高);2、現(xiàn)有軟件包(Python、R 語(yǔ)言等)中的現(xiàn)成計(jì)算模塊均采用單線程計(jì)算,效率低(經(jīng)前期測(cè)試,對(duì)一個(gè)包含10 萬(wàn)觀測(cè)用戶量的模型進(jìn)行聚類分析,需耗時(shí)10 小時(shí),而觀測(cè)用戶量的增長(zhǎng)將帶來指數(shù)級(jí)別的計(jì)算耗時(shí)增長(zhǎng))。目前的成果主要是深入研究了現(xiàn)有混合有限模型算法,將其中的若干關(guān)鍵步驟全部進(jìn)行分布式計(jì)算改寫,同時(shí)所有計(jì)算模塊均充分利用Python 語(yǔ)言現(xiàn)有的高效率數(shù)學(xué)計(jì)算模塊,大大提高了大數(shù)據(jù)情境下的用戶聚類分析。初步研究結(jié)果表明,對(duì)于上海電信手機(jī)用戶而言,其用戶行動(dòng)規(guī)律可以分為5 個(gè)大類,且分類情況隨時(shí)間推移呈現(xiàn)出較為穩(wěn)定的特征。通過研究可以看到用戶行為類型可以分為5 類,這對(duì)于用于下一步細(xì)分勞動(dòng)力市場(chǎng)特征而言并不足夠,要想實(shí)現(xiàn)研究目標(biāo),需要計(jì)算獲得更為細(xì)分、具體的聚類結(jié)果。下一步計(jì)劃是進(jìn)一步改進(jìn)聚類算法,將用戶行動(dòng)特征直線分解為“固定趨勢(shì)”與“移動(dòng)趨勢(shì)”兩類,分開進(jìn)行用戶聚類分析;使用基站的地理位置以及周邊建筑屬性(利用百度地圖API),進(jìn)行第三個(gè)維度的聚類分析;結(jié)合上述聚類分析結(jié)果,得到高維度、高精度的用戶行動(dòng)規(guī)律分類結(jié)果,進(jìn)一步對(duì)勞動(dòng)力市場(chǎng)關(guān)鍵指標(biāo)進(jìn)行分析。

(2) 基于大數(shù)據(jù)對(duì)金融市場(chǎng)指數(shù)進(jìn)行優(yōu)化研究

宏觀經(jīng)濟(jì)環(huán)境變化、金融體系自身演化積累,投資者群體性行為、市場(chǎng)監(jiān)管管理政策調(diào)整、國(guó)際資本流動(dòng)和市場(chǎng)環(huán)境變化、內(nèi)幕交易等都有可能引發(fā)金融市場(chǎng)全系統(tǒng)風(fēng)險(xiǎn)。金融大數(shù)據(jù)的獲取使得系統(tǒng)性風(fēng)險(xiǎn)的潛在影響因子更容易被識(shí)別和跟蹤。本課題主要從兩個(gè)方面對(duì)該問題進(jìn)行了研究。第一,基于P2P 數(shù)據(jù)對(duì)互聯(lián)網(wǎng)金融的風(fēng)險(xiǎn)進(jìn)行度量。從“網(wǎng)貸之家”上選取了469 家P2P 平臺(tái)作為研究對(duì)象,通過網(wǎng)絡(luò)爬蟲獲取平臺(tái)全部貸款的數(shù)據(jù),選取若干相應(yīng)的基礎(chǔ)變量,通過模糊數(shù)學(xué)、無(wú)量綱處理得到每個(gè)平臺(tái)的相應(yīng)的基礎(chǔ)變量得分,通過因子分析與層次分析法得到每個(gè)平臺(tái)的風(fēng)險(xiǎn)指數(shù)。第二,基于事件驅(qū)動(dòng)和復(fù)雜網(wǎng)絡(luò)的證券市場(chǎng)風(fēng)險(xiǎn)監(jiān)控。結(jié)合大數(shù)據(jù)和人工智能技術(shù),構(gòu)建機(jī)構(gòu)投資者的社交網(wǎng)絡(luò),通過機(jī)器學(xué)習(xí),挖掘各類可能導(dǎo)致金融市場(chǎng)波動(dòng)的事件與股價(jià)之間的關(guān)聯(lián)關(guān)系,觀察機(jī)構(gòu)投資者在事件發(fā)生后的投資行為變化,從而對(duì)金融市場(chǎng)的風(fēng)險(xiǎn)予以預(yù)判。

(3) 利用大數(shù)據(jù)對(duì)商品市場(chǎng)指數(shù)進(jìn)行優(yōu)化研究

根據(jù)課題研究計(jì)劃,主要是兩個(gè)方面的工作。第一,基于電商平臺(tái)的商品交易和價(jià)格數(shù)據(jù),對(duì)商品價(jià)格的短期波動(dòng)進(jìn)行跟蹤,用于CPI 指數(shù)的補(bǔ)充和完善。目前已經(jīng)利用網(wǎng)絡(luò)爬蟲技術(shù),獲取了淘寶、天貓、京東等電商平臺(tái)將近1 億種商品的價(jià)格、屬性以及評(píng)價(jià)等交易數(shù)據(jù),正在進(jìn)行數(shù)據(jù)清洗、整理等工作。第二,基于高頻用電數(shù)據(jù),構(gòu)建工商業(yè)景氣指數(shù),進(jìn)行行業(yè)景氣度之間的復(fù)雜動(dòng)態(tài)關(guān)系的分析并進(jìn)行預(yù)測(cè)。目前已經(jīng)針對(duì)上海市全部工商業(yè)用戶的96 點(diǎn)數(shù)據(jù)進(jìn)行了分析,構(gòu)建了基于工商業(yè)高頻用電數(shù)據(jù)的復(fù)雜網(wǎng)絡(luò),利用馬爾科夫狀態(tài)轉(zhuǎn)移模型,對(duì)工商業(yè)景氣程度的樣本外預(yù)測(cè)能力大大提升。

(二)基于大數(shù)據(jù)的宏觀經(jīng)濟(jì)預(yù)測(cè)理論和建模研究

子課題二為本課題的理論研究,側(cè)重于從宏觀經(jīng)濟(jì)預(yù)測(cè)的基礎(chǔ)理論和模型比較

出發(fā),對(duì)基于大數(shù)據(jù)的預(yù)測(cè)理論創(chuàng)新和模型構(gòu)建進(jìn)行研究。目前主要是對(duì)下列專

題進(jìn)行了系統(tǒng)調(diào)研、梳理清楚理論研究的主要著眼點(diǎn)。

(1)傳統(tǒng)宏觀經(jīng)濟(jì)預(yù)測(cè)體系研究

傳統(tǒng)的宏觀經(jīng)濟(jì)預(yù)測(cè)體系建立在各國(guó)政府所發(fā)布的經(jīng)濟(jì)景氣指標(biāo)的基礎(chǔ)上,其背后的理論支撐是經(jīng)濟(jì)周期理論。通過基于統(tǒng)計(jì)指標(biāo)構(gòu)建景氣指數(shù)與各類信心指數(shù),通過合理分類,從而對(duì)經(jīng)濟(jì)未來走勢(shì)進(jìn)行預(yù)測(cè),例如:Stock-Waston 型景氣指數(shù)、企業(yè)景氣指數(shù)、企業(yè)家信心指數(shù)、經(jīng)濟(jì)學(xué)家信心指數(shù)、CCI、宏觀經(jīng)濟(jì)景氣指數(shù)、PMI 和國(guó)服景氣指數(shù)等。對(duì)于這類指標(biāo)而言,往往會(huì)設(shè)定某一閾值,當(dāng)真實(shí)指標(biāo)超過該閾值時(shí),就判斷經(jīng)濟(jì)未來向好,反之則經(jīng)濟(jì)將步入下滑階段。此外,抽樣調(diào)研方法也常常被用于對(duì)行業(yè)、整體經(jīng)濟(jì)走勢(shì)的判斷,例如在景氣調(diào)查法中,企業(yè)景氣調(diào)查(Business Survey)又被稱為是商情調(diào)查,采取抽樣調(diào)查調(diào)研方法對(duì)企業(yè)乃至整個(gè)行業(yè)的走勢(shì)進(jìn)行判斷。

(2)基于大數(shù)據(jù)對(duì)宏觀經(jīng)濟(jì)預(yù)測(cè)的應(yīng)用研究

現(xiàn)有的基于大數(shù)據(jù)對(duì)宏觀經(jīng)濟(jì)預(yù)測(cè)進(jìn)行應(yīng)用的研究主要從兩方面展開,第一,從數(shù)據(jù)量上進(jìn)行完善,第二,從方法上使用大數(shù)據(jù)分析方法逐步對(duì)計(jì)量分析進(jìn)行完善。

從數(shù)據(jù)量角度而言,目前的研究?jī)A向于納入更高頻率的時(shí)間序列變量(如季

度、月度、日度甚至是小時(shí)級(jí)別數(shù)據(jù))、建立超大型面板數(shù)據(jù)集(如微觀企業(yè)和個(gè)

體層級(jí)數(shù)據(jù)、金融數(shù)據(jù))以及考慮新的數(shù)據(jù)類型(如社交媒體文本數(shù)據(jù)、搜索引擎搜索行為數(shù)據(jù)和衛(wèi)星圖像數(shù)據(jù)等)。

從方法角度而言,現(xiàn)有的研究也逐漸涵蓋更多的模型領(lǐng)域,如對(duì)傳統(tǒng)計(jì)量方法的改進(jìn)方面,主要包含動(dòng)態(tài)多因子模型、擴(kuò)展VAR 模型和X-GARCH 模型等;針對(duì)海量數(shù)據(jù)、高頻數(shù)據(jù)方面,采用貝葉斯回歸模型、混頻回歸模型和主成分分析等;在引入機(jī)器學(xué)習(xí)模型方面,則會(huì)采用支持向量機(jī)、隨機(jī)森林樹和神經(jīng)網(wǎng)絡(luò)模型等。

(3)基于大數(shù)據(jù)的宏觀經(jīng)濟(jì)預(yù)測(cè)理論和方法研究

宏觀經(jīng)濟(jì)預(yù)測(cè)方法主要被劃分兩大類:以經(jīng)濟(jì)學(xué)家主導(dǎo)的經(jīng)濟(jì)預(yù)測(cè)模型和以計(jì)算機(jī)學(xué)家主導(dǎo)的機(jī)器學(xué)習(xí)預(yù)測(cè)模型。

經(jīng)濟(jì)預(yù)測(cè)模型有著成熟的經(jīng)濟(jì)理論作為支撐,能夠很好的解釋經(jīng)濟(jì)運(yùn)行的關(guān)鍵影響因素。這一類模型主要分為三類:結(jié)構(gòu)化計(jì)量預(yù)測(cè)模型、非結(jié)構(gòu)化時(shí)間序列預(yù)測(cè)模型以及動(dòng)態(tài)隨機(jī)一般均衡預(yù)測(cè)模型。

對(duì)結(jié)構(gòu)化計(jì)量預(yù)測(cè)模型而言,一旦當(dāng)理論和現(xiàn)實(shí)情況產(chǎn)生偏差時(shí),模型的預(yù)

測(cè)能力就會(huì)大大降低。而非結(jié)構(gòu)化預(yù)測(cè)模型通常需要較大的數(shù)據(jù)集來進(jìn)行分析,因此通常應(yīng)用在金融市場(chǎng)的預(yù)測(cè),對(duì)于數(shù)據(jù)頻度較低的宏觀經(jīng)濟(jì)預(yù)測(cè),非結(jié)構(gòu)化預(yù)測(cè)模型通常表現(xiàn)欠佳。均衡預(yù)測(cè)模型(DSGE)則結(jié)合了兩類模型的優(yōu)點(diǎn),使得對(duì)模型系數(shù)進(jìn)行估計(jì)存在很大的困難,從而限制了模型維數(shù)的增長(zhǎng),進(jìn)而降低了模型的預(yù)測(cè)能力。

機(jī)器學(xué)習(xí)模型從數(shù)據(jù)本身為起點(diǎn),讓計(jì)算機(jī)模擬人類對(duì)現(xiàn)實(shí)經(jīng)驗(yàn)總結(jié)的能力,訓(xùn)練出一套具有擬合和預(yù)測(cè)能力的模型。機(jī)器學(xué)習(xí)模型主要可以分為有監(jiān)督學(xué)習(xí),算法(有具體預(yù)測(cè)目標(biāo))和無(wú)監(jiān)督學(xué)習(xí)算法(沒有具體預(yù)測(cè)目標(biāo))兩類。監(jiān)督學(xué)

習(xí)算法可以有效的將預(yù)測(cè)目標(biāo)進(jìn)行結(jié)果分類,部分研究機(jī)構(gòu)業(yè)已將機(jī)器學(xué)習(xí)運(yùn)用

到對(duì)宏觀經(jīng)濟(jì)部分指標(biāo)進(jìn)行預(yù)測(cè)上,這些應(yīng)用結(jié)果顯示這類監(jiān)督學(xué)習(xí)算法的預(yù)測(cè)

能力較好。

(4)現(xiàn)有宏觀經(jīng)濟(jì)預(yù)測(cè)模型研究存在的主要問題

在國(guó)外的機(jī)構(gòu)中,例如國(guó)際貨幣基金組織(IMF)、歐洲中央銀行(ECB)和

美聯(lián)儲(chǔ)(Fed)等政府機(jī)構(gòu)均有自己的宏觀預(yù)測(cè)模型,高盛、摩根斯丹利、摩根大

通和美林等國(guó)際投行也擁有自己的宏觀預(yù)測(cè)模型。這些宏觀經(jīng)濟(jì)模型具有較好的

短期趨勢(shì)預(yù)測(cè)能力,但是面對(duì)一些突發(fā)事件時(shí),往往存在著預(yù)測(cè)能力不足的缺陷。

中國(guó)目前急需構(gòu)建針對(duì)短期經(jīng)濟(jì)波動(dòng)及長(zhǎng)期經(jīng)濟(jì)走勢(shì)進(jìn)行預(yù)測(cè)的宏觀經(jīng)濟(jì)預(yù)測(cè)模型,來填補(bǔ)這一塊的空缺。

(5)基于大數(shù)據(jù)的宏觀經(jīng)濟(jì)預(yù)測(cè)指標(biāo)生成與應(yīng)用研究

早期大數(shù)據(jù)在宏觀經(jīng)濟(jì)領(lǐng)域的運(yùn)用主要集中于提高傳統(tǒng)方法下預(yù)測(cè)數(shù)據(jù)的精度,例如Bernd Brandl et al.(2005)利用德國(guó)159 個(gè)經(jīng)濟(jì)指標(biāo)變量,通過數(shù)據(jù)挖掘方法GA(Genetic Algorithm)預(yù)測(cè)工業(yè)產(chǎn)值、政府長(zhǎng)期債券、失業(yè)率和通貨膨脹率四個(gè)變量。由麻省理工大學(xué)發(fā)起的百萬(wàn)價(jià)格項(xiàng)目(Billion Price Project,BPP),則通過收集全球各個(gè)國(guó)家的各類在線零售價(jià)格數(shù)據(jù),形成一系列實(shí)時(shí)價(jià)格指數(shù),以期對(duì)現(xiàn)有的CPI 價(jià)格體系以及匯率體系進(jìn)行一定程度的修正和完善。

隨著數(shù)據(jù)采集能力的提升,能夠獲得的數(shù)據(jù)類型和數(shù)量都大大提升,因此現(xiàn)在的大數(shù)據(jù)應(yīng)用逐漸向構(gòu)建新型指標(biāo)方向發(fā)展。Hyunyoung Choi(2010)將市場(chǎng)趨勢(shì)分析工具Google Trends 應(yīng)用于提高傳統(tǒng)ARIMA 時(shí)間序列模型對(duì)經(jīng)濟(jì)指標(biāo)預(yù)測(cè)的準(zhǔn)確性,將傳統(tǒng)計(jì)量方法的預(yù)測(cè)結(jié)果與改進(jìn)后的預(yù)測(cè)方法相比較,發(fā)現(xiàn)后者對(duì)申請(qǐng)失業(yè)救濟(jì)人數(shù)的預(yù)測(cè)比前者更為準(zhǔn)確,長(zhǎng)期和短期模型的樣本外絕對(duì)平均誤差分別下降了12.9%和15.7%。Toole 等(2015)則利用手機(jī)通信數(shù)據(jù)生成勞動(dòng)力市場(chǎng)變化預(yù)警指標(biāo),通過與官方的失業(yè)率數(shù)據(jù)進(jìn)行回歸分析,發(fā)現(xiàn)這一新生成的指標(biāo)能夠?qū)趧?dòng)力市場(chǎng)具有提前預(yù)測(cè)的能力,當(dāng)期失業(yè)率預(yù)測(cè)準(zhǔn)確率為95%,提前一季度的預(yù)測(cè)準(zhǔn)確率也高達(dá)85%。從官方應(yīng)用而言,美聯(lián)儲(chǔ)每月會(huì)發(fā)布Aruoba-Diebold-Scotti business conditions index,該指數(shù)綜合了每日期限利率溢價(jià)、每周首次申請(qǐng)失業(yè)救濟(jì)金人數(shù)、每月新增就業(yè)人口、每月的工業(yè)產(chǎn)出、個(gè)人可支配收入、貿(mào)易商品銷售額、每季度實(shí)際GDP 這幾類頻度不同的數(shù)據(jù),從而可以高頻、精準(zhǔn)地反應(yīng)經(jīng)濟(jì)狀況。國(guó)內(nèi)將大數(shù)據(jù)運(yùn)用于宏觀經(jīng)濟(jì)分析最為成熟的指數(shù)應(yīng)屬克強(qiáng)指數(shù),經(jīng)過近幾

年國(guó)內(nèi)電商、IT 行業(yè)的發(fā)展,基于大數(shù)據(jù)來預(yù)測(cè)經(jīng)濟(jì)景氣程度和價(jià)格指數(shù)的機(jī)構(gòu)

主要包括百度、阿里、大宗商品數(shù)據(jù)等。

2、調(diào)查研究及學(xué)術(shù)交流情況

(1) 文獻(xiàn)與數(shù)據(jù)調(diào)研收集情況

針對(duì)現(xiàn)有數(shù)據(jù),通過對(duì)統(tǒng)計(jì)資料電子化、電子數(shù)據(jù)整合等方式,采用結(jié)構(gòu)化數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。目前已對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行梳理,除上述統(tǒng)計(jì)年鑒外,本課題組還以MySQL 數(shù)據(jù)庫(kù)、HBase 數(shù)據(jù)庫(kù)以及分布式文件等形式收集了大量社會(huì)經(jīng)濟(jì)數(shù)據(jù)、能源使用數(shù)據(jù)、污染物數(shù)據(jù)以及衛(wèi)星數(shù)據(jù)。

除此之外,宏觀經(jīng)濟(jì)的重要指標(biāo)就是能源使用情況,在能源使用中,一方面需要使用一次能源如煤炭以及原油,但是這樣的使用情況往往只能代表經(jīng)濟(jì)的生產(chǎn)側(cè),在需求側(cè),往往是多種能源的相互組合。為了更充分的進(jìn)行宏觀經(jīng)濟(jì)運(yùn)行情況的描述,課題組收集了上海市居民煤氣、天然氣使用數(shù)據(jù),每月電費(fèi)以及付款方式,工商業(yè)園區(qū)細(xì)分用電數(shù)據(jù),商業(yè)樓宇的分項(xiàng)計(jì)量數(shù)據(jù),并結(jié)合中國(guó)移動(dòng)提供的樓宇人群數(shù)據(jù)以及高頻氣象數(shù)據(jù),通過上述數(shù)據(jù)的關(guān)聯(lián)、配合,進(jìn)一步加強(qiáng)宏觀經(jīng)濟(jì)現(xiàn)時(shí)預(yù)測(cè)的研究。依托復(fù)旦大學(xué)已初步建設(shè)完成的大數(shù)據(jù)工場(chǎng)平臺(tái),能夠更好的實(shí)現(xiàn)對(duì)現(xiàn)有數(shù)據(jù)的整合,能夠利用更先進(jìn)的數(shù)據(jù)管理手段與硬件計(jì)算資源,為本研究提供技術(shù)支撐。目前大數(shù)據(jù)工場(chǎng)主要采用NVidia 顯卡來搭建高性能科學(xué)計(jì)算平臺(tái),能夠?yàn)楸狙芯康臋C(jī)器學(xué)習(xí)任務(wù)提供高性能加速支持

在2016 年9 月,課題組就上海市居民需求側(cè)基本信息、用能情況、環(huán)保意識(shí)、物價(jià)認(rèn)知等進(jìn)行了入戶調(diào)研,其主要規(guī)模為3000 人,最終有效問卷為2976 份。調(diào)研數(shù)據(jù)在能源數(shù)據(jù)以及氣象數(shù)據(jù)的基礎(chǔ)上,為我們的研究補(bǔ)充了有效的微觀個(gè)體社會(huì)經(jīng)濟(jì)與人口數(shù)據(jù),這能進(jìn)一步讓我們了解不同人群特征、社會(huì)特征對(duì)于用戶用能以及宏觀經(jīng)濟(jì)運(yùn)行的影響。目前結(jié)合調(diào)研數(shù)據(jù),課題組已經(jīng)完成了需求側(cè)綠色能源使用潛力研究,用戶能源與社會(huì)商品需求異質(zhì)性研究等分析。

文獻(xiàn)收集主要圍繞上述研究?jī)?nèi)容展開,除上述關(guān)于宏觀經(jīng)濟(jì)預(yù)測(cè)的相關(guān)文獻(xiàn)

外,課題組已經(jīng)收集有關(guān)能源使用、生產(chǎn)以及需求,經(jīng)濟(jì)運(yùn)行用能情況以及環(huán)境

污染等方面的論文300 余篇,課題組成員已經(jīng)精讀100 余篇,其主要發(fā)表在

《American Economic Review》、《Review of Economics Studies》、《Econometrica》、

《Quarterly Journal of Economics》、《The RAND Journal of Economics》、《Journal of Public Economics 》、《Journal of Environmental Economics and Management 》、

《Applied Economics》、《經(jīng)濟(jì)研究》、《管理世界》等國(guó)內(nèi)外頂尖期刊。課題組相關(guān)研究人員已經(jīng)根據(jù)精讀文獻(xiàn)撰寫了文獻(xiàn)綜述,總結(jié)其中創(chuàng)新方法并將其應(yīng)用于

課題有關(guān)能源以及公關(guān)經(jīng)濟(jì)運(yùn)行的領(lǐng)域中。

課題組同時(shí)根據(jù)研究?jī)?nèi)容,收集有關(guān)金融以及復(fù)雜網(wǎng)絡(luò)的相關(guān)文獻(xiàn)50 余篇,

其主要發(fā)表于《Journal of Political Economy》、《Journal of Financial Economics》、《Journal of Finance》、《Journal of Banking and Finance》以及《管理世界》等頂級(jí)期刊。同時(shí)精讀多本有關(guān)金融市場(chǎng)以及社會(huì)網(wǎng)絡(luò)相關(guān)書籍,并已經(jīng)制作講解視頻。

(2)學(xué)術(shù)交流情況

2016 至2017,課題組多次參加由知名機(jī)構(gòu)舉辦的國(guó)際學(xué)術(shù)會(huì)議,包括2015至2017 的三次EAERE(歐洲能源與環(huán)境年會(huì)),首屆smart grid 研討會(huì)等,在會(huì)上課題組報(bào)告了目前主要研究成果,并與多國(guó)學(xué)者進(jìn)行了交流。

2016 至2017,復(fù)旦大學(xué)與美國(guó)杜克大學(xué)曾多次互派人員進(jìn)行學(xué)術(shù)交流,并在

期間進(jìn)行了多次學(xué)術(shù)研討以及學(xué)術(shù)會(huì)議,主要針對(duì)我國(guó)能源使用、宏觀經(jīng)濟(jì)發(fā)展

狀況等方向的學(xué)術(shù)研究進(jìn)行了交流。目前已經(jīng)確定的研究方向及成果包括,使用

數(shù)據(jù)驅(qū)動(dòng)的能源使用研究,我國(guó)需求側(cè)新型能源使用潛力研究等三篇文章。

同時(shí),課題組也和美國(guó)斯坦福大學(xué)、伯克利大學(xué)建立了學(xué)術(shù)合作,通過互派人員進(jìn)行了充分的學(xué)術(shù)交流,并根據(jù)各自研究方向以及數(shù)據(jù)特點(diǎn)進(jìn)行了中美比較,目前已經(jīng)確定的研究方向包括基于高頻數(shù)據(jù)的用能情況分析等。

2017 年6 月,課題組成員在北京共同參加我國(guó)電力體制改革與能源環(huán)境情況改進(jìn)國(guó)際學(xué)術(shù)會(huì)議,并對(duì)我國(guó)目前電力市場(chǎng)建設(shè)與可再生能源發(fā)展進(jìn)行了報(bào)告,計(jì)劃于2017 年10 月在上海進(jìn)行需求側(cè)能源大數(shù)據(jù)使用與分析國(guó)際研討會(huì),主要邀請(qǐng)美國(guó)斯坦福大學(xué)、杜克大學(xué)等知名高校學(xué)者參加。

3、成果宣傳推介情況

項(xiàng)目啟動(dòng)以來,本項(xiàng)目的數(shù)據(jù)準(zhǔn)備和收集工作耗時(shí)很長(zhǎng)。且大數(shù)據(jù)的收集、整理涉及到較多的數(shù)據(jù)安全方面的障礙,經(jīng)過一年半左右時(shí)間基本達(dá)到預(yù)期目標(biāo)。今年上半年以來已經(jīng)形成多篇工作論文和投稿論文。基于大數(shù)據(jù)的工商業(yè)景氣預(yù)測(cè)指數(shù)在2017 年貴陽(yáng)數(shù)博會(huì)展出,獲得媒體的關(guān)注。文匯報(bào)、新民晚報(bào)、新華社等都進(jìn)行了報(bào)道。后期將加強(qiáng)成果發(fā)布、簡(jiǎn)報(bào)報(bào)送、?陡宓裙ぷ。

二、 研究成果情況

1. 基于工商業(yè)用電數(shù)據(jù)的景氣指數(shù)研究

(1)主要內(nèi)容

a.研究了傳統(tǒng)的經(jīng)濟(jì)景氣指數(shù)構(gòu)建和相關(guān)模型已經(jīng)解決的問題和存在的缺陷;

b.為解決傳統(tǒng)模型的問題,設(shè)計(jì)利用大數(shù)據(jù)技術(shù)研究微觀行業(yè)和整體產(chǎn)業(yè)結(jié)構(gòu)的關(guān)系的模型,研究反映產(chǎn)業(yè)結(jié)構(gòu)的高頻經(jīng)濟(jì)景氣指數(shù)構(gòu)建方法,研究短期預(yù)測(cè)方法;

c.基于最能反映經(jīng)濟(jì)運(yùn)行狀況的克強(qiáng)指數(shù)中行業(yè)用電量數(shù)據(jù),利用復(fù)雜網(wǎng)絡(luò)模型研究了行業(yè)間生產(chǎn)和發(fā)展的相互聯(lián)系、引導(dǎo)演化關(guān)系,并研究了產(chǎn)業(yè)結(jié)構(gòu)網(wǎng)絡(luò)的性質(zhì),包括行業(yè)間先導(dǎo)滯后關(guān)系、某個(gè)行業(yè)生產(chǎn)運(yùn)行發(fā)生變化對(duì)整個(gè)網(wǎng)絡(luò)的影響、每個(gè)行業(yè)在整個(gè)網(wǎng)絡(luò)中的重要性程度、每個(gè)行業(yè)重要性滿足的概率分布、網(wǎng)絡(luò)的穩(wěn)定性及隨時(shí)間演化等。

e.在充分了解產(chǎn)業(yè)結(jié)構(gòu)及演化發(fā)展?fàn)顩r的基礎(chǔ)上,構(gòu)建了包含產(chǎn)業(yè)結(jié)構(gòu)的綜合經(jīng)濟(jì)景氣指數(shù),該指數(shù)由各個(gè)行業(yè)的景氣狀況和行業(yè)間相關(guān)關(guān)系綜合而成。隨著時(shí)間推移,各個(gè)行業(yè)景氣發(fā)生變化,產(chǎn)業(yè)結(jié)構(gòu)發(fā)生調(diào)整,行業(yè)間關(guān)聯(lián)關(guān)系變化等,都會(huì)在景氣指數(shù)中及時(shí)反映出來。

f.研究經(jīng)濟(jì)景氣指數(shù)的動(dòng)態(tài)網(wǎng)絡(luò)預(yù)測(cè)方法,由于真實(shí)世界中的行業(yè)發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)隨時(shí)都在發(fā)生改變,動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型可以捕捉這些變化并反映在經(jīng)濟(jì)景氣指數(shù)中。通過產(chǎn)業(yè)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)圖構(gòu)建動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型進(jìn)行景氣的預(yù)測(cè)。

(2)主要觀點(diǎn)

基于工商業(yè)行業(yè)高頻用電數(shù)據(jù)研究了行業(yè)間關(guān)聯(lián)關(guān)系,在考慮產(chǎn)業(yè)結(jié)構(gòu)的基礎(chǔ)上構(gòu)建了日度綜合經(jīng)濟(jì)景氣指數(shù),實(shí)現(xiàn)對(duì)宏觀經(jīng)濟(jì)現(xiàn)狀的精確描述和短期趨勢(shì)預(yù)測(cè),為宏觀調(diào)控和經(jīng)濟(jì)政策制定提供理論依據(jù),為投資和工商業(yè)生產(chǎn)發(fā)展提供決策依據(jù)。

(3)學(xué)術(shù)價(jià)值

國(guó)際上流行的衡量經(jīng)濟(jì)景氣情況的方法為合成指數(shù)法(Composite Index),即以一個(gè)國(guó)家的工業(yè)增長(zhǎng)水平作為參考,選取一些宏觀統(tǒng)計(jì)數(shù)據(jù),劃分為先行指標(biāo)組、一致指標(biāo)組和滯后指標(biāo)組,以構(gòu)建經(jīng)濟(jì)景氣分析指標(biāo)體系,分析和預(yù)測(cè)經(jīng)濟(jì)周期波動(dòng)和景氣變動(dòng)的轉(zhuǎn)折點(diǎn)。但是這些指標(biāo)往往是月度或季度數(shù)據(jù),且非常宏觀,無(wú)法反映經(jīng)濟(jì)景氣指數(shù)變動(dòng)背后的原因,也無(wú)法反映產(chǎn)業(yè)結(jié)構(gòu)調(diào)整帶來的變化,更不能進(jìn)行短期及時(shí)的預(yù)測(cè);诠ど虡I(yè)電力大數(shù)據(jù)的宏觀經(jīng)濟(jì)景氣指數(shù)研究,結(jié)合反映經(jīng)濟(jì)變動(dòng)的最直觀的高頻電力大數(shù)據(jù),構(gòu)建新的反映宏觀經(jīng)濟(jì)狀況的高頻景氣指數(shù),從微觀行業(yè)著手,從局部出發(fā)進(jìn)行整體經(jīng)濟(jì)產(chǎn)業(yè)結(jié)構(gòu)的研究,可以充分挖掘影響宏觀經(jīng)濟(jì)景氣的各種不同因素以及產(chǎn)業(yè)結(jié)構(gòu)特征和變化的影響。除此之外,利用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的方法,實(shí)現(xiàn)對(duì)宏觀經(jīng)濟(jì)現(xiàn)狀的精確仿真和短期趨勢(shì)預(yù)測(cè),相比于傳統(tǒng)的預(yù)測(cè)模型精度和性能均較優(yōu)。

其中,復(fù)雜網(wǎng)絡(luò)的局部和全局特性能夠清晰地刻畫組成復(fù)雜系統(tǒng)的不同元素之間的相互關(guān)系和信息流動(dòng)過程,利用復(fù)雜網(wǎng)絡(luò)的方法研究不同行業(yè)之間以及行業(yè)和宏觀經(jīng)濟(jì)的關(guān)系,使得研究人員可以通過純數(shù)據(jù)的分析得到與以往基于經(jīng)濟(jì)學(xué)理論和行業(yè)生產(chǎn)特性分析相同甚至更重要的結(jié)果,而不需要進(jìn)行長(zhǎng)期的經(jīng)濟(jì)學(xué)理論知識(shí)的學(xué)習(xí)和訓(xùn)練,降低了研究分析的門檻。

(4)社會(huì)影響

景氣指數(shù)是反映各行業(yè)運(yùn)行狀況的定量指標(biāo),用來反映行業(yè)的經(jīng)濟(jì)景氣變化狀況。準(zhǔn)確預(yù)測(cè)行業(yè)景氣指數(shù)對(duì)生產(chǎn)活動(dòng)的開展以及宏觀經(jīng)濟(jì)調(diào)控有著重要的意義。隨著信息化的發(fā)展,社交網(wǎng)絡(luò)的影響日益擴(kuò)大,非結(jié)構(gòu)化數(shù)據(jù)的大量涌現(xiàn),過去低頻數(shù)據(jù)中的因果關(guān)系發(fā)生了一些變化,不同過程之間的相互作用變得越來越復(fù)雜,同時(shí)隨著中國(guó)經(jīng)濟(jì)進(jìn)入新常態(tài),產(chǎn)業(yè)結(jié)構(gòu)調(diào)整變得越發(fā)頻繁,對(duì)預(yù)測(cè)的時(shí)效性和準(zhǔn)確性提出了新的要求,傳統(tǒng)的經(jīng)濟(jì)研究和經(jīng)濟(jì)景氣指數(shù)滿足不了現(xiàn)時(shí)預(yù)測(cè)的要求;诠ど虡I(yè)電力大數(shù)據(jù)的高頻宏觀經(jīng)濟(jì)景氣指數(shù)構(gòu)建和預(yù)測(cè),可以充分挖掘影響宏觀經(jīng)濟(jì)景氣的各種不同因素以及產(chǎn)業(yè)結(jié)構(gòu)特征和變化的影響,實(shí)現(xiàn)了對(duì)宏觀經(jīng)濟(jì)現(xiàn)狀的精確描述和短期趨勢(shì)預(yù)測(cè),為宏觀調(diào)控和經(jīng)濟(jì)政策制定提供理論依據(jù),為投資和工商業(yè)生產(chǎn)發(fā)展提供決策依據(jù)。

2. 基于電信數(shù)據(jù)的勞動(dòng)力就業(yè)市場(chǎng)預(yù)測(cè)。

(1)基本內(nèi)容

傳統(tǒng)理論中普遍使用“隨機(jī)游走理論”來刻畫個(gè)人行動(dòng)規(guī)律,隨機(jī)游走模型以Levy Flight 模型為基礎(chǔ)不斷拓展。而近幾年的文獻(xiàn)利用大數(shù)據(jù),發(fā)現(xiàn)隨機(jī)游走模型對(duì)人行動(dòng)規(guī)律的刻畫能力存在不足,認(rèn)為個(gè)人行動(dòng)半徑更符合“冪律分布”模型;诂F(xiàn)有文獻(xiàn)研究,本課題探索通過數(shù)據(jù)變換、將個(gè)人行動(dòng)的“冪律分布”模型轉(zhuǎn)化為線性模型,并編寫適用于超大用戶群的并行聚類算法來實(shí)現(xiàn)對(duì)個(gè)人行動(dòng)規(guī)律的分析。本研究主要采用個(gè)體電信手機(jī)用戶每個(gè)月出現(xiàn)在不同基站頻次的統(tǒng)計(jì)數(shù)據(jù),并按照頻次大小進(jìn)行排序,該頻次排序數(shù)據(jù)基本符合“冪律分布”,在對(duì)該數(shù)據(jù)取對(duì)數(shù)化后,可以得到變換后的線性模型,從而實(shí)現(xiàn)簡(jiǎn)化數(shù)據(jù)分析難度。目前所采用的電信手機(jī)數(shù)據(jù)包含2016 年6 月至2016 年11 月的共計(jì)16295554名用戶,用戶行為數(shù)據(jù)總?cè)萘窟_(dá)到150GB,主要采用有限混合模型(Finite mixed model)來對(duì)用戶的行動(dòng)規(guī)律進(jìn)行聚類分析。

目前的成果主要是深入研究了現(xiàn)有混合有限模型算法,將其中的若干關(guān)鍵步驟全部進(jìn)行分布式計(jì)算改寫,同時(shí)所有計(jì)算模塊均充分利用Python 語(yǔ)言現(xiàn)有的高效率數(shù)學(xué)計(jì)算模塊,大大提高了大數(shù)據(jù)情境下的用戶聚類分析。

(2)主要觀點(diǎn)

初步研究結(jié)果表明,對(duì)于上海電信手機(jī)用戶而言,其用戶行動(dòng)規(guī)律可以分為5個(gè)大類,且分類情況隨時(shí)間推移呈現(xiàn)出較為穩(wěn)定的特征。每一類用戶行動(dòng)規(guī)律中的行為參數(shù)有較大差異,表明不同類型的用戶在行為規(guī)律中存在著較大的差異。

通過研究可以看到用戶行為類型可以分為5 類,這對(duì)于用于下一步細(xì)分勞動(dòng)力市場(chǎng)特征而言并不足夠,要想實(shí)現(xiàn)研究目標(biāo),需要計(jì)算獲得更為細(xì)分、具體的聚類結(jié)果。下一步計(jì)劃是進(jìn)一步改進(jìn)聚類算法,將用戶行動(dòng)特征直線分解為“固定趨勢(shì)”與“移動(dòng)趨勢(shì)”兩類,分開進(jìn)行用戶聚類分析;使用基站的地理位置以及周邊建筑屬性(利用百度地圖API),進(jìn)行第三個(gè)維度的聚類分析;結(jié)合上述聚類分析結(jié)果,得到高維度、高精度的用戶行動(dòng)規(guī)律分類結(jié)果,進(jìn)一步對(duì)勞動(dòng)力市場(chǎng)關(guān)鍵指標(biāo)進(jìn)行分析。

(3)學(xué)術(shù)價(jià)值

第一,在研究方法方面,本研究通過利用電信數(shù)據(jù)提出了一個(gè)用于對(duì)個(gè)體行為規(guī)律進(jìn)行聚類的分析框架,本研究認(rèn)為所有個(gè)體行為人隸屬于具有不同行為規(guī)律的群體,因而不同群體的行為參數(shù)是不同的,需要使用聚類方法來進(jìn)行有效識(shí)別。而現(xiàn)有國(guó)內(nèi)外研究將所有個(gè)體視作是同質(zhì)群體,因此其移動(dòng)規(guī)律全部服從相同的概率分布函數(shù)。實(shí)證結(jié)果則印證了本研究所提出的觀點(diǎn)。

第二,在分析技術(shù)方面,本研究對(duì)現(xiàn)有的有限混合模型進(jìn)行重新編程,實(shí)現(xiàn)了在分布式多線程模式下的高性能計(jì)算,大大縮短了計(jì)算時(shí)間、極大提升了分析效率。且這種計(jì)算能力可以進(jìn)行無(wú)縫拓展,適應(yīng)未來更大尺度和更大數(shù)據(jù)量的模型計(jì)算。

(4)社會(huì)影響力

本研究的初步成果在2017 年貴陽(yáng)大數(shù)據(jù)展上進(jìn)行展示,收獲了廣泛的關(guān)注與好評(píng)。其中有包括北京聯(lián)通等在內(nèi)的多家運(yùn)營(yíng)商均表示出了強(qiáng)烈的合作研究意愿,希望能夠通過將本研究的分析方法運(yùn)用到不同地區(qū)、不同類型的數(shù)據(jù)之上,來對(duì)不同地區(qū)的勞動(dòng)力市場(chǎng)進(jìn)行細(xì)致分析。

課題組供稿

(責(zé)編:王瑤)
RM新时代APP官网