根據(jù)這些差異,NEI的構成尤其需要注重勞動力和技術投入指標。除此之外,新經(jīng)濟人力資本密集的特點也需要企業(yè)在成長初期有一個相對更長的學習和積累。
在此基礎上,NEI指標評價體系參考美國信息技術和創(chuàng)新基金會(ITIF)發(fā)布的《2014美國各州新經(jīng)濟指數(shù)》(2014 State New Economy Index)報告指標體系、硅谷指數(shù)(Silicon Valley Index)等國際知名新經(jīng)濟和創(chuàng)新指數(shù)體系,結合中國經(jīng)濟發(fā)展特點和數(shù)聯(lián)銘品的數(shù)據(jù)優(yōu)勢制定了以下新經(jīng)濟指數(shù)的指標體系。
NEI指標體系共有高端勞動力投入、優(yōu)質(zhì)資本投入與科技和創(chuàng)新三大類一級指標(分別代表了新經(jīng)濟發(fā)展的勞動力投入、資本投入、科技與創(chuàng)新投入)和11個二級指標(表3)。這些指標可以綜述為以下幾個方面:
1.高端勞動力投入
高端勞動力投入是新經(jīng)濟體系的基本特征。高端人才去哪了,哪個行業(yè)、哪個地方的經(jīng)濟就充滿了活力。“高端勞動力投入”由“新經(jīng)濟企業(yè)崗位占總招聘崗位”、“新經(jīng)濟企業(yè)總薪酬占全部行業(yè)總薪酬”、“鐵路人口凈流入速度”、“航班人口凈流入速度”這4個二級指標構成。
2.優(yōu)質(zhì)資本投入
和人才一樣,資本流入的方向是經(jīng)濟發(fā)展的未來。外資是改革開放以來帶動中國“新經(jīng)濟”發(fā)展的重要力量。當前風險投資市場也已日趨成熟,成為中國新經(jīng)濟發(fā)展的重要推動力量。“資本投入”包括“新經(jīng)濟行業(yè)風險投資占總風險投資比例”、“新經(jīng)濟領域招標比例”、“申請新三板新經(jīng)濟企業(yè)注冊資本占所有申請新三板企業(yè)總注冊資本比例”、“新經(jīng)濟行業(yè)新增公司注冊資本占所有行業(yè)新增公司總注冊資本比例”這4個二級指標構成。
3.科技與創(chuàng)新
創(chuàng)新能力是區(qū)域新經(jīng)濟發(fā)展的引擎,各企業(yè)的高級專業(yè)化人才、科學家和工程師的數(shù)量是創(chuàng)新的主體。我們通過一個區(qū)域的高級專業(yè)化人才數(shù)量、科學家和工程師保有情況及新增專利數(shù)量來衡量新經(jīng)濟的增長在總經(jīng)濟增長中的重要性,共包含“新經(jīng)濟雇傭的科學家與工程師占總體科學家和工程師的比例”、“適用于新經(jīng)濟的專利占總專利數(shù)量比例”和“適用于新經(jīng)濟的專利轉(zhuǎn)化占總專利轉(zhuǎn)化的比例”這三個指標。
根據(jù)以上3個一級指標和11個二級指標,NEI將產(chǎn)生兩大模塊的指數(shù)產(chǎn)品:1,時間縱比指數(shù);與2,區(qū)域橫比排序。時間縱比指數(shù)重點在于衡量各區(qū)域、各行業(yè)、各指標隨時間的變化。區(qū)域橫比指數(shù)用于衡量同一時段不同區(qū)域的新經(jīng)濟綜合發(fā)展水平,重點在于區(qū)域?qū)Ρ龋l(fā)現(xiàn)各地的長短板。
表3:新經(jīng)濟指數(shù)的指標體系
三、獲取大數(shù)據(jù)
網(wǎng)絡公開的大數(shù)據(jù)是NEI的基礎數(shù)據(jù)。在制作NEI的過程中,我們使用了大量數(shù)據(jù),包括企業(yè)網(wǎng)絡上的公開招聘信息、新成立企業(yè)工商登記信息、風險投資數(shù)據(jù)、招標投標數(shù)據(jù)、三板上市數(shù)據(jù)、各類專利及專利轉(zhuǎn)化數(shù)據(jù)等。為了獲取準確、客觀的新經(jīng)濟指數(shù),詳細討論各類企業(yè)行為的季度趨勢,我們不僅會收集指數(shù)發(fā)布當月的數(shù)據(jù),還會向前回溯,積累更多的歷史數(shù)據(jù)。
至今為止,NEI所用的累計數(shù)據(jù)包括5200余萬條招聘信息、270萬條新企業(yè)登記信息、376萬條招標/投標數(shù)據(jù)、2.8萬條風險投資數(shù)據(jù)、5000余條三板上市數(shù)據(jù)、580萬條專利登記數(shù)據(jù)、30萬條專利轉(zhuǎn)移數(shù)據(jù),另外還包括用以計算城市人口流動信息的實時鐵路出票量數(shù)據(jù)、機場航班流量數(shù)據(jù)。全部合計,我們的原始數(shù)據(jù)儲存總量已經(jīng)超過了100G。為了計算2015年8月至2016年2月這半年的指數(shù),我們產(chǎn)生的數(shù)據(jù)總量合計超過370G。
除了數(shù)據(jù)量龐大這一特點外,構建新經(jīng)濟指數(shù)的數(shù)據(jù)還具有較好的全國代表性。其中,企業(yè)登記、招投標、風險投資、三板上市、專利情況數(shù)據(jù)均為2015年七月以來全國所有可得數(shù)據(jù)。人口流動數(shù)據(jù)囊括了所有的航班信息、列車運行狀況;200公里以上的長途客運周轉(zhuǎn)量(人公里)和運輸人次指標中,我們的數(shù)據(jù)量占全國總數(shù)據(jù)量的74%。我們的招聘數(shù)據(jù)也包括了多家重要招聘網(wǎng)站的完整信息,從一、二千元每月的低技術崗位到50000元每月的高技能崗位,覆蓋全國各個行業(yè)。雖然有部分數(shù)據(jù)沒有達到總體的規(guī)模,但是由于新經(jīng)濟指標的構建采用的是比例指標而不是絕對值,這些指標隨樣本數(shù)量多寡的變化很少。因此總體上,我們的數(shù)據(jù)覆蓋程度使構建全面反應我國新經(jīng)濟發(fā)展狀況新經(jīng)濟指數(shù)成為可能。
為了在每個月的月初發(fā)布NEI,我們需要用到從上個月25日到前一個月26日,共一整個月的數(shù)據(jù)從原始數(shù)據(jù)開始計算新經(jīng)濟指數(shù)。
四、行業(yè)識別
大數(shù)據(jù)的特點之一,是數(shù)據(jù)的龐雜性。我們手中的原始數(shù)據(jù),是一條條企業(yè)行為。例如,A企業(yè)在某招聘網(wǎng)站上發(fā)布了一條招聘信息,B企業(yè)獲得了1000萬元的風險投資。為了讓離散的企業(yè)數(shù)據(jù)聚合產(chǎn)生價值,我們首先必須研究如何將這些企業(yè)聚類、合并。而聚類的最佳標準則是行業(yè)與地域。另一方面,新經(jīng)濟指數(shù)也要求我們將屬于“新經(jīng)濟”行業(yè)的企業(yè)進行準確的歸并。
地域信息的抽取相對容易,我們只需要識別企業(yè)名稱或者企業(yè)在其網(wǎng)站上的登記信息,絕大部分情況下都可以順利的識別出一個企業(yè)的準確地址。但是識別行業(yè)則是一個較為復雜的過程。想象一下,當人們看到一個企業(yè)的名稱時,如何判斷其行業(yè)所在?一般來說,首先會觀察這個企業(yè)名稱是否包含某些關鍵詞。例如,包含“網(wǎng)絡”一詞的,一般屬于信息技術企業(yè),包括“能源”一詞的,可能是新能源企業(yè)。
人們將某些關鍵詞關聯(lián)到某個行業(yè),憑借的是經(jīng)驗。但是,計算機并沒有這樣的經(jīng)驗,因此,我們首先需要讓計算機學會如何通過觀察一個企業(yè)的名稱來準確判斷其行業(yè),具體過程如圖1所示。
第一步,我們必須找到合適的訓練樣本。基于2013年工業(yè)普查數(shù)據(jù)與2008年的經(jīng)濟普查數(shù)據(jù)庫,我們用企業(yè)名稱和詳細的行業(yè)信息(精確到四位數(shù)代碼),來訓練企業(yè)名稱到行業(yè)的映射,但弱點在于,工業(yè)普查數(shù)據(jù)完全集中在制造業(yè),對計算機學習其他行業(yè)的企業(yè)名稱映射并無幫助;2008年經(jīng)濟普查的時間又太過久遠,對該指數(shù)所說的“新經(jīng)濟”涵蓋不全。
因此,我們使用2015年全年的270萬家新成立企業(yè)作為訓練樣本,找到這些企業(yè)與行業(yè)之間的映射關系。映射的路徑為企業(yè)的經(jīng)營范圍——《統(tǒng)計用產(chǎn)品分類目錄》——《國民經(jīng)濟行業(yè)分類》。最后,我們根據(jù)經(jīng)營范圍映射成功的行業(yè)關鍵詞的個數(shù)以及出現(xiàn)順序,判定該企業(yè)的行業(yè)。
例如,當我們在一個企業(yè)的經(jīng)營范圍中看到“電子血壓計”時,可從《統(tǒng)計用產(chǎn)品分類目錄》查詢到其行業(yè)代碼3584。若同時有多個行業(yè)的關鍵詞被匹配到經(jīng)營范圍中,則按照關鍵詞在文中的出現(xiàn)順序分別分配從大至小的一列權重后,加權計算該企業(yè)匹配到的行業(yè)總分來確定該企業(yè)的確切行業(yè)。

圖1:新經(jīng)濟指數(shù)指標體系的行業(yè)識別
第二步,我們將這部分確定了行業(yè)的訓練樣本取出,對其企業(yè)名稱進行自然詞語分割,并以每個企業(yè)的名稱短語組合作為自變量,企業(yè)的實際行業(yè)作為因變量,進行多元logit回歸。我們選擇了出現(xiàn)頻率在前200個的有意義短語(“有限”、“公司”等不具備實際行業(yè)信息的短語不包括在內(nèi))作為預測因變量,計算當某些特定短語在企業(yè)名稱中出現(xiàn)時,該企業(yè)落入某些特定行業(yè)的概率會出現(xiàn)怎樣的變動。我們將經(jīng)過訓練的識別程序引用到原有訓練樣本上,并發(fā)現(xiàn)200個短語的行業(yè)判斷準確度達到了95%左右,這使我們能夠有信心使用該程序來判斷其他企業(yè)的行業(yè)信息。
第三步,我們對所有企業(yè)都進行分詞,同時應用第二步算出的短語行業(yè)識別程序,計算每個企業(yè)的行業(yè)概率分布。為了保持預測的效率,避免帶有新詞語的企業(yè)無法被準確判斷行業(yè),我們每個月度都將更新企業(yè)短語。
五、生成新經(jīng)濟指數(shù)
對企業(yè)的行業(yè)進行準確分類后,我們需要計算新經(jīng)濟行業(yè)企業(yè)在經(jīng)濟產(chǎn)出中的份額。首先,考慮一個一般的生產(chǎn)方程,其中K代表資本,H代表人力資本,A為技術水平,L則為勞動力,w為各個要素投入的產(chǎn)出彈性。
假設每個要素中,有被投入新經(jīng)濟,容易算出,當資本中有的份額被投入新經(jīng)濟,人力資本有的份額被投入新經(jīng)濟,勞動力有的份額被投入新經(jīng)濟時,新經(jīng)濟占總經(jīng)濟產(chǎn)出的份額可表達為下式:
兩邊取對數(shù),可得:
當我們將生產(chǎn)函數(shù)一般化,不僅只包括勞動資本與技術,而是包含更多二級指標時,每一個指標的分權重會減小,使得上式中的對數(shù)符號去掉之后等式兩邊仍然近似成立,即得到下式:
六、新經(jīng)濟指數(shù)指標權重的確定
確定新經(jīng)濟的指標權重實際上等價于確定新經(jīng)濟行業(yè)各要素投入的產(chǎn)出彈性,實踐中包括兩種方案。
其一是經(jīng)驗數(shù)據(jù)法,即根據(jù)國際經(jīng)驗與歷史經(jīng)驗首先判斷各個投入成份的產(chǎn)出占比大小。根據(jù)數(shù)據(jù),2014年中國第三產(chǎn)業(yè)的勞動者報酬占增加值比重約為47.2%,具體到行業(yè),信息傳輸業(yè)的勞動者報酬占比為23.4%、科學研究業(yè)的勞動者報酬占比為49.7%。考慮到新經(jīng)濟行業(yè)是“以高質(zhì)量勞動力為主要要素投入”的行業(yè),我們將勞動者投入的權重定為接近上限的40%,對資本和技術則分別規(guī)定35%和25%的權重。同時,所有二級指標按簡單算術平均合成相應一級指數(shù)。經(jīng)驗數(shù)據(jù)算法的優(yōu)勢在于我們將有一個具有理論框架的新經(jīng)濟指數(shù),如果未來有新的指標,我們可以將這些新的指標納入全要素生產(chǎn)率、勞動或者資本的一項中,進行內(nèi)部權重微調(diào)。
但劣勢在于,如果新經(jīng)濟的發(fā)展十分迅速,各個部分的生產(chǎn)彈性變化很快,我們將不得不考慮大量變動一級指標權重。
其二是主成分分析法。主成分分析法的宗旨是依次找到經(jīng)濟投入這一矩陣的奇異值,即首先找到方差最大的那一組向量所對應的奇異值,再找到方差次大的向量所對應的奇異值,以此類推。主成分分析法的優(yōu)點在于他能夠以最小的信息量,對結果進行最好的預測,因此在預測效率上是最高的。但缺點在于,我們沒有一個合適的理論框架來闡釋我們的權重選擇,并且這樣的權重只是來源于歷史數(shù)據(jù)。問題是在應用到未來數(shù)據(jù)中去,如何選擇計算權重的歷史數(shù)據(jù),選擇哪個區(qū)間的歷史數(shù)據(jù),都較為隨意,使得整個新經(jīng)濟指數(shù)指標體系的建立缺乏客觀性。
在綜合兩種算法的優(yōu)劣后,我們決定采用兩種算法的長處,在初期采用經(jīng)驗數(shù)據(jù)法,根據(jù)理論模型設置各指標權重。未來,則更多地使用主成分分析法,根據(jù)預測效果和歷史數(shù)據(jù)的變化,進行權重微調(diào),以達到用指數(shù)來客觀觀察中國新經(jīng)濟發(fā)展情況的效果。
七、NEI的下一步
新經(jīng)濟將引領未來結構調(diào)整的方向,是新常態(tài)下經(jīng)濟增長的新熱點。新經(jīng)濟數(shù)據(jù),是衡量結構調(diào)整步伐,判讀總體經(jīng)濟走勢,把握投資機會的基礎材料。以大數(shù)據(jù)為基礎的新經(jīng)濟指數(shù),可以更加及時反映新經(jīng)濟變化快的特點,更加適合網(wǎng)絡+時代的投資分析與決策。
NEI第一次可以較為清晰地展示新經(jīng)濟與舊經(jīng)濟之間的關系。新經(jīng)濟的快速成長能否有效抵消舊經(jīng)濟下滑的壓力,是轉(zhuǎn)型與穩(wěn)增長能否同步實現(xiàn)的關鍵。今天發(fā)布的新經(jīng)濟指數(shù)有助于我們理解新經(jīng)濟相對于舊經(jīng)濟的變化,舊經(jīng)濟過快調(diào)整或通過就業(yè)、收入和服務需求的渠道拖累新經(jīng)濟,其影響的量級如何尚不得而知,NEI是跟蹤評估新經(jīng)濟變化的一個主要指標。
NEI是一個詳實的指標體系,一些細項指標本身代表了新經(jīng)濟活動的一個側(cè)面。大數(shù)據(jù)可以捕捉新金融和其他新業(yè)態(tài)的早期趨勢,是互聯(lián)網(wǎng)時代資訊開發(fā)的新渠道,更可以結合線下和傳統(tǒng)的統(tǒng)計數(shù)據(jù),勾畫出一幅更加完整、動態(tài)的新經(jīng)濟圖像。
NEI還可以展示經(jīng)濟發(fā)展的地域差異,有利于政策的差異化和資源的優(yōu)化配置。在新經(jīng)濟指數(shù)的基礎上,可以對主要城市新經(jīng)濟活躍程度進行排名。新經(jīng)濟發(fā)展或是繼工業(yè)化后人口跨地區(qū)流動的重要方向標,結合人口出行大數(shù)據(jù),可以刻畫人口流動熱力圖,指引消費和服務業(yè)資源的跨區(qū)配置。
考慮到大數(shù)據(jù)的收集、清理以及參數(shù)的設定都需要時間來逐步完善,現(xiàn)發(fā)布試行版,待滿一年后重新評估調(diào)試后正式發(fā)布。正式發(fā)布的NEI將主要考慮以下幾個方面的變化:
(1)季節(jié)性因素的影響及調(diào)整。新經(jīng)濟活動占比在很大程度上剔除了季節(jié)性因素的影響,但新經(jīng)濟活動的季節(jié)性是否有異于傳統(tǒng)經(jīng)濟,仍需要觀察。一些月度波動較大的因素,需要通過移動平均的方式進行平滑處理。
(2)新經(jīng)濟行業(yè)需要不斷調(diào)適,更加準確地反映產(chǎn)業(yè)升級和新業(yè)態(tài)的發(fā)展,力爭全面涵蓋新經(jīng)濟活動,準確反映新經(jīng)濟的新趨勢。
(3)各子項因素的權重將逐步完善,根據(jù)歷史數(shù)據(jù),采用主成分分析法進行調(diào)整。
【本文執(zhí)筆:陳沁,BBD Index首席經(jīng)濟學家;沈明高,財新智庫莫尼塔董事長兼首席經(jīng)濟學家;沈艷,北京大學國家發(fā)展研究院教授、財智BBD新經(jīng)濟指數(shù)首席顧問】