777奇米影视一区二区三区-777人体粉嫩u美图-777色狠狠一区二区三区香蕉-777色淫网站女女-乱高h辣黄文np公交车-乱高h亲女

文章詳情
ARTICLE DETAILS

新國大-教授觀點(diǎn) -段錦泉:機(jī)器學(xué)習(xí)視角下的金融市場輿情分析(干貨精華)

  導(dǎo) 讀

  各位大家好,我是新加坡國立大學(xué)的段錦泉,亞洲數(shù)碼金融研究所的負(fù)責(zé)人,也是商學(xué)院的金融教授。這是新加坡國立大學(xué)EMBA的公開課,希望今天的講演,能夠幫同學(xué)對機(jī)器學(xué)習(xí),尤其是自然語言處理,在金融市場上的應(yīng)用提高觀念層次上的了解程度。

  我認(rèn)為學(xué)習(xí)最重要的不是記住許多細(xì)節(jié),而是學(xué)習(xí)一個方向和整體觀念。因為隨著年歲的成長,你我對很多事務(wù)都會逐漸淡忘,但是方向跟架構(gòu)通常還能深留腦海。所以我希望透過今天的學(xué)習(xí),在聽完了演講之后,你會對機(jī)器學(xué)習(xí)的使用,以特定、具體的實(shí)踐場景,達(dá)到更深的領(lǐng)悟。鋪墊一個對自然語言的學(xué)習(xí)和應(yīng)用的基礎(chǔ),讓你可以在將來自己補(bǔ)強(qiáng)。

段錦泉教授

  

綱要

  今天要講的綱要基本上包含三項:

  第一,我要說明如何建立輿情分析的框架,就是你該具備的思維方式。有了框架,可以幫助萃取輿情上更好的運(yùn)作。

  第二是一項具體的應(yīng)用:輿情因子在企業(yè)的違約跟并購中的補(bǔ)強(qiáng)功能。我強(qiáng)調(diào)補(bǔ)強(qiáng)這個詞,是因為它沒有辦法替代傳統(tǒng)的因子,只能夠補(bǔ)強(qiáng)。了解了這一點(diǎn),我們就不會對結(jié)果有不合理的期待。

  在從觀念上了解后,最后我要講自然語言處理的要素,也就是Natural language processing(NLP)技術(shù)工具本身有些什么要素。有了大概的了解后,你以后也就可以與別人溝通了,今天講演的具體目標(biāo)也就達(dá)到了。

框架

  【輿情分析的目的】

  首先,我們要了解做輿情分析的目的是什么?它是作為目標(biāo)變量,還是一個解釋變量?我今天要講的應(yīng)用是把它作為解釋變量的用法。比如在進(jìn)行金融分析(如預(yù)測)時,不能認(rèn)為輿情是唯一的決定要素。輿情之外尚有好多其它的解釋變量,不是嗎?所以輿情在這里起到的是一個補(bǔ)強(qiáng)的功能。

  【輿情分析三要素】

  第二點(diǎn),你要了解金融市場輿情分析,其實(shí)是一個三維的問題。

  第一個要素是主題。比如說我們要研究企業(yè)違約,這是個主題,需要分析在違約方面輿情是如何被討論的。

  第二個要素是主體。在金融問題上很難不觸及主體,例如在分析企業(yè)違約時,要說明輿情是針對哪一個企業(yè),比如說對星展銀行(DBS)有興趣,星展銀行就是輿情分析的主體。但不能忘掉,在建模和應(yīng)用的差別,建模的時候需要有很多、很多主體。一旦有了模型,使用時候,只需要針對關(guān)心的主體就可以了。

  拿放貸為例,比如你是一家銀行,當(dāng)有企業(yè)向你申請貸款時候,你就會去征信機(jī)構(gòu)(Credit Bureau)進(jìn)行查證,這是針對一個主體而已。但是征信單位需要收集好多企業(yè)的信息才能夠提出針對這家企業(yè)的信用狀況。所以,主體是一個很重要的考慮因素。

  第三個要素是態(tài)度。一篇文章或者報道,一定會表達(dá)了一個態(tài)度:贊成、反對或中性,或是強(qiáng)烈的贊成反對。所以,你可能會聽到情感分析,基本上是三維的問題,就是一篇文本談?wù)撃囊粋€主題,提及了哪些主體,對不同主體表達(dá)了什么態(tài)度。例如,我們談?wù)摽逻_(dá)的照相機(jī)品質(zhì)的好壞。那照相機(jī)就是主題,柯達(dá)是主體,覺得好或壞就是態(tài)度。

  【細(xì)節(jié)討論】

  現(xiàn)在稍微談一下關(guān)于主題比較細(xì)節(jié)的東西。我剛才提到照相機(jī),照相機(jī)是一個非常明確的觀念,只要講照相機(jī)就不太需要再進(jìn)一步溝通什么叫照相機(jī)。

  但是在商業(yè)分析上許多主題是不能夠這樣簡單化描述的,比如說,信用風(fēng)險是一個非常籠統(tǒng)的觀念了,不是一兩個詞能講得明白的,這類的主題具有挑戰(zhàn)性。你經(jīng)常會看到很多文本分析的主題,屬于非常簡單的類別,容易用簡單的詞描述,而難的是那種很通泛的主題。比如說,我們現(xiàn)在常常講“環(huán)境永續(xù)經(jīng)營”,這種環(huán)境因素是很難描述的。

  你今天產(chǎn)生了很多碳足跡,并不表示你環(huán)境因素很差,還有其它如水啊之類的因素需要考慮。所以要從文本里面準(zhǔn)確地抓出來這類通泛的主題,是一個很大的技術(shù)挑戰(zhàn)。但是,我們一定要考慮主題,因為沒有主題我們就沒辦法分析具體的金融問題了。

  還有一些關(guān)于金融市場中主體的細(xì)節(jié)需要關(guān)注。主體大概可以分三類:一類是人物、自然人;一類是企業(yè),也就是法人;還有另外的一類,就是國家(經(jīng)濟(jì)體)。大概就是這三類,有時候行業(yè)也是一類關(guān)心的主體。

  主體是不是應(yīng)該屬于主題的一部分?這個問題是很重要,因為有時讓主體變成主題的一部分是必須的。比如說我們分析川普的行為,川普是主體,同時也是我的主題的關(guān)鍵。

  但是我們分析信用風(fēng)險時,主體絕對不應(yīng)該成為信用風(fēng)險的一部分。例如我剛才提到星展銀行的信用,或者我關(guān)心的是中石化的信用。“星展銀行”或“中石化”這些主體所對應(yīng)的公司名,和“信用風(fēng)險”這個主題本身是無關(guān)的,不應(yīng)該被納為主題的一部分。這是很重要的認(rèn)知,因為在制造或者抓取主題的時候,必須把主體都給拿掉,否則包含主體的主題就不夠通泛,不能適用于其他主體。但在研究媒體對具體主體的態(tài)度時,需要再把主體加回來作為區(qū)分。

  另一個很重要的考慮是媒體采用的語言。比如中文和英文是非常不一樣的文字體系,等一下我會介紹中文跟英文最不一樣的地方。我不是學(xué)語言的專業(yè),但以前和大家一樣覺得中文英文差別很大。從學(xué)習(xí)自然語言的方法中,我發(fā)現(xiàn)中文和英文基本是一樣的,其實(shí)只差一個關(guān)鍵地方,今天我的一個重要任務(wù)就是說服你達(dá)到這種認(rèn)知。

  同時,我們必須了解媒體的類型和分析的目的。因為不是所有的媒體類型都適合你的分析目的。正式的媒體,例如新華社和華爾街日報的新聞,因為寫作人的專業(yè)水平較高,加上有編輯審核的過程,文本的品質(zhì)往往比自媒體的內(nèi)容高。我今天討論的輿情分析主要針對的是正式媒體,因為研究的是商業(yè)、金融的問題,更需要依賴專業(yè)的文本。

框架

  【可以預(yù)期的現(xiàn)象】

  我們可以預(yù)期到什么呢?首先,大部分的文章和研究的焦點(diǎn)問題(主題)可能是無關(guān)的。因為媒體并不是為我們的研究問題而報道的,而是去選擇有新聞性的事件進(jìn)行報道的,也就是說媒體是會有選擇偏差的,那是媒體的本質(zhì)。也因此,媒體并不能全面性的覆蓋我們關(guān)心的主題或主體。比如我選擇大華銀行(UOB),但可能一個星期也沒有任何相關(guān)的報道。這并不代表大華銀行出了什么問題,反而是越正常越不會被報導(dǎo)。新聞傾向于負(fù)面性的報道,有新聞價值,大家就越想讀。比如趙薇的事件,是很負(fù)面的,大家愿意去追,媒體更愿意報導(dǎo)。

  有了這些基本了解后,自然可預(yù)期到在進(jìn)行輿情分析時候,會面臨到的基本的問題和挑戰(zhàn)。輿情分析只能當(dāng)補(bǔ)強(qiáng)的工具,不可能取代傳統(tǒng)結(jié)構(gòu)化的金融數(shù)據(jù)。傳統(tǒng)金融數(shù)據(jù)的價值是很高的,因為一家正常營運(yùn)的公司,它的財報就會反映這些信息,但在媒體上很可能找不到任何相關(guān)的報道,因為它太正常了。

  也因此,我在做公司信用分析時候,就會面臨著大量的公司是不被頻繁報道的,導(dǎo)致了有很多缺失數(shù)據(jù)(missingdata),為我的建模帶來了挑戰(zhàn),不過這屬于一個需要解決,也能克服的技術(shù)問題。

  另外,做企業(yè)分析時候,我們可能也想對國家或行業(yè)的輿情有所了解,這種輿情屬于一種共享的情緒、態(tài)度,比如說中國的經(jīng)濟(jì)環(huán)境如何了?美國的金融市場又怎么樣了?在金融分析上歸納為系統(tǒng)性的因素,也就是個別公司會受到大環(huán)境的影響。

  我的團(tuán)隊今天已經(jīng)做到了公司和國家的層面,過程中克服了很多技術(shù)挑戰(zhàn)。但當(dāng)我們的方向非常明確的時候,就能判斷這是做得到或是做不到,做得到的話需要花多少時間和努力,因為等于說我們已經(jīng)有了一個地圖了。

輿情

  【技術(shù)1:主題】

  在主題、主體和態(tài)度的三維問題上,我們怎么處理主題的抓取呢?

  比如說我要講的是信用風(fēng)險和綠色金融,這是兩個不同的主題,而且都是比較籠統(tǒng)的概念,不是幾個字可以描述的。我們用的是一個叫做Source-LDA的技術(shù)。Source的意思就是有一個和主題相關(guān)的資料來源。我們需要根據(jù)資料產(chǎn)生一個不同詞匯出現(xiàn)頻率分布來描述一個主題,然后讓機(jī)器根據(jù)文章中文字的描述把主題抓出來。

  LDA是一種統(tǒng)計方法,是Latent Dirichlet Allocation的縮寫(潛在迪利克雷分布),可以用于對海量的文本進(jìn)行主題分類。假設(shè)所有的文本中共有5個主題,那LDA就讓一篇一篇的文章分成5類。

  但你會馬上面臨兩個問題:

  #01

  第一個是,你閱讀一篇文章,它可能好像講第一個主題,又在講第二個主題,甚至還有點(diǎn)第三個主題的內(nèi)容,那該把這篇文章分到哪個主題下呢?針對這個問題,我們可以采用概率加權(quán)的方法,比如這篇文章里70%是講第一個主題,20%講第二個主題,10%是第三個主題。

  #02

  第二個問題是,到底該把文本分成幾個主題?產(chǎn)生這個問題,其實(shí)是反映了觀念上的謬誤,但“所有文本應(yīng)該被分為幾個主題”本身就是一個很模糊的事情,是3個,5個?也有可能是20個!但當(dāng)我們走向用概率法則來思考問題,也就開始自由了。

  因為我可以將所有文本看成2個主題的組成,一個是我們關(guān)心的主題,另一個就是其它主題。比如,我關(guān)心的是信用風(fēng)險主題,那我只需要知道一篇文章在多少程度是在講信用風(fēng)險就可以了,比如,75%說明比較相關(guān),5%說明幾乎不相關(guān);至于其它的主題是在講什么,是和我的分析沒關(guān)系的。但我們不能讓文本自然呈現(xiàn)出2個主題(文本直接進(jìn)行2分類),因為自然呈現(xiàn)的結(jié)果往往并不會產(chǎn)生我們關(guān)心的主題。因此,需要利用Source主導(dǎo)LDA模型把我們想要的主題區(qū)分出來。

emba

  在處理海量本文上有大量的技術(shù)細(xì)節(jié)要考慮,比如,如何識別出公司名?你可能覺得可以用列表的形式(直接進(jìn)行字符串匹配),但如果出現(xiàn)新公司怎么辦呢?而且一家公司名可能有很多的變體,例如International Business Machine(美國國際商用機(jī)器公司)通常以IBM的形式被報道,United Overseas Bank和UOB都是指大華銀行,等等,全球無數(shù)大大小小的公司,各種情況,不勝枚舉。

  但因為我們研究的是公司的輿情分析,做主題提取時,如前述,必須要把公司名剔除掉,所以必須要實(shí)現(xiàn)識別公司名,這里沒有完美的解決方法,但我們可以選擇效果更好的,效率更高的方法。

  因此,自然語言處理這個工作,很大一部分是基礎(chǔ)建設(shè)的問題,你需要依賴別人努力做出的成果,在其基礎(chǔ)上應(yīng)用、改進(jìn)。

  比如你要開一家工廠,前面需要建一條路通到最近的公路上,那公路就是基礎(chǔ)建設(shè)。我們采用了“命名實(shí)體識別“(NER)的方法,其實(shí)是利用了別人的研究成果,也就是說利用python調(diào)用別人的包來實(shí)現(xiàn)的。但由于我們對金融數(shù)據(jù)有足夠多的了解,在實(shí)際應(yīng)用中發(fā)現(xiàn)了很多的不足,比如,一些小公司或者帶有特殊后綴的公司名,會識別不出來之類的。

  現(xiàn)在,我們也正在進(jìn)行進(jìn)一步的優(yōu)化,訓(xùn)練我們自己的NER模型,可以更準(zhǔn)確的識別出公司名。不過在得到我們自己訓(xùn)練的NER模型之前,我們先選擇了已有的NER技術(shù),因為現(xiàn)實(shí)的問題是,如果你對所有的既有結(jié)果都不滿意,你是無法前進(jìn)的。我只是要強(qiáng)調(diào),別人的包你當(dāng)然可以用,只是不要盲目的相信這些包所產(chǎn)生的效果。

  【技術(shù)2:態(tài)度】

  下面探討關(guān)于態(tài)度的技術(shù)問題。態(tài)度可能是正面、負(fù)面或是中性的,選擇3分法、5分法或者7分法,你自己要決定。5分法就比如把正面的態(tài)度進(jìn)一步拆分為比較正面和非常正面,負(fù)面的態(tài)度拆分為比較負(fù)面和非常負(fù)面。但需要注意,分到太細(xì)就沒有意義了,因為文章的表述的粒度也是有限的,我個人是比較推薦5分法。

    要如何實(shí)現(xiàn)這個態(tài)度分類呢?我們采用了一種現(xiàn)在最進(jìn)步的TABSA-BERT的方法。其中,BERT是谷歌開發(fā)出來的語言表征模型(language representation),也就是學(xué)會如何把詞/句轉(zhuǎn)化為對應(yīng)的詞/句向量(word/sentence embedding),是個已經(jīng)預(yù)先訓(xùn)練過了模型(pre-trained)。

taifu

  我們在這預(yù)訓(xùn)練模型的基礎(chǔ)上,針對具體的任務(wù)對參數(shù)做進(jìn)一步的微調(diào)(fine-tune)。那BERT的優(yōu)勢是什么呢?主要是BERT模型在將文句轉(zhuǎn)化為向量的過程中,不僅考慮了語義的環(huán)境,還讓文字之間的含義在數(shù)學(xué)的運(yùn)算上有了具體的含義。

  舉兩個例子來具體說明,

  01

  第一個是,“我喜歡吃蘋果”和“蘋果公司又推出了新產(chǎn)品”。這兩句話中的“蘋果”雖然在文字上是完全一樣的,但我們知道真實(shí)的含義是不一樣的,一個是水果、一個是公司。BERT學(xué)到的兩個“蘋果”對應(yīng)的詞向量也是不一樣的,因為BERT不僅會去學(xué)“蘋果”這個詞本身,還會考慮其處在的上下文語義。

  02

  另一個例子是,可以找到“國王”、“皇后”,”男人”、“女人”這四個詞對應(yīng)的詞向量之間的關(guān)系,這個關(guān)系幾乎等于:“國王”-”男人”+“女人”=“皇后”,這是挺神奇的吧。因為谷歌的這個BERT模型很大,如果你想從頭就自己做,不僅需要專業(yè)知識,而且還要花很多時間、用很強(qiáng)的電腦硬件。就像政府建的高速公路網(wǎng)一樣,你不會也沒能力自己去建個一樣的公路網(wǎng),谷歌提供的BERT預(yù)訓(xùn)練語言模型就相當(dāng)于是項基礎(chǔ)設(shè)施。

  TABSA全稱是Target Aspect-basedSentiment Analysis,這里其實(shí)就包含了我剛才講的三個維度了。

  #Target(目標(biāo)的意思),在我們企業(yè)違約的分析中,企業(yè)就是我們的目標(biāo);

  #Aspect(方面),相當(dāng)于我們的主題;

  #SentimentAnalysis,代表了態(tài)度維度。

  只不過,在我們的分析中的主題必須被分的粒度為更細(xì),也就是要用剛才提到的Source-LDA方法單獨(dú)處理了。

  另外需要注意的事項是,分析主題時候,應(yīng)以文章為單位的,判定一篇文章在多大程度上與信用主題相關(guān);但在我們分析態(tài)度時候,需以句子為單位。因為一篇文章可能只有某些核心的句子提到了某家企業(yè),并表達(dá)了態(tài)度,而其它的句子或者是與這家企業(yè)無關(guān)的,或者是一些鋪墊而沒有表達(dá)態(tài)度的內(nèi)容。

  另外,個別句子對企業(yè)的態(tài)度可能非常明確,但一篇文章卻不一定。

  綜上,我們在進(jìn)行態(tài)度分析時,必須以句子為單位。在我們得到了每句話對企業(yè)的態(tài)度后,再整合成文章整體對企業(yè)表達(dá)的態(tài)度。

提取主題

  【架構(gòu)圖】

  現(xiàn)在,我把剛才討論的思路用一個架構(gòu)圖來表示,提供一個整體的觀念。

  首先,收集媒體報道的資源,儲存到資料庫,我們通常用mongoDB這種非關(guān)系型數(shù)據(jù)庫來處理,因為它更適合存儲文本。

  然后,從文章層面,對每一篇文本探索它與所關(guān)心的主題的相關(guān)度,這里需要對文章進(jìn)行刪除實(shí)體名、分詞、詞性還原、去掉停用詞、情感詞、數(shù)字、標(biāo)點(diǎn)符號等等一系列文字處理。

  分詞,又稱標(biāo)識化(Tokenization),是將文本分割成一小塊一小塊,每一個小塊叫一個token。分詞是最能體現(xiàn)出中文和英文的本質(zhì)上的差異:英文是以字為單位,一個字就可以表達(dá)完整的含義,中間已用空格或者標(biāo)點(diǎn)符號隔開;而中文則以詞為單位,且詞之間沒有間隔。

  比如說,天氣這個詞,英文是weather,一個字,而中文,需要“天”和“氣”兩個字組成,因為單獨(dú)的“天”和“氣”都可能有其它的含義。中文和英文文本一旦得到準(zhǔn)確的分詞,后面的處理都極為類似,都是把token數(shù)字化的過程。

  你可能會說,中文和英文的文法結(jié)構(gòu)也不一樣啊。我以前也認(rèn)為文法的區(qū)別是很重要的,但我現(xiàn)在明白了,機(jī)器根本不需要提前知道不同語言的文法,因為這些都可以在訓(xùn)練中學(xué)習(xí)到。就像小孩子學(xué)語言,是不會管具體文法的,小孩子只是在不同情境下,簡單的重復(fù)、模仿,文法就會自然呈現(xiàn)了。

  所以,請大家記住,在自然語言處理中,中文和英文的核心差別只有分詞的差別。對于英文,我們很容易得到正確的分詞結(jié)果,中文沒有天然的分隔符號,是一個字連著一個字的,我們?nèi)绾蔚玫椒衷~的結(jié)果呢?這個是比較麻煩的,但已經(jīng)有人做過這樣的工作了,我們可以借助現(xiàn)成的工具(包)讓我們的任務(wù)變得簡單。

  詞性還原(Lemmatization)主要是針對英文,需要把名詞單復(fù)數(shù)、動詞的過去式、進(jìn)行式的時態(tài)還原成一般現(xiàn)在式等;

  去掉停用詞(stopwords)主要是把文章中沒有實(shí)際含義,卻廣泛地出現(xiàn)在每篇文章中的詞拿掉,英文中例如the, of, it等等,中文里也有如“的”,“是”,“個”之類的詞,這些詞如果保留會大大的增加機(jī)器學(xué)習(xí)的時間,卻不能對文章主題分類有實(shí)際的貢獻(xiàn),這些停用詞庫可以直接在網(wǎng)上下載下來。

  去掉情感詞(sentimentwords)是因為我們不希望讓一篇文章表述的情感影響主題的分類。其余的包括去掉標(biāo)點(diǎn)和數(shù)字等環(huán)節(jié)也是在進(jìn)行主題分類時候的一些必要的基本操作。

  分析媒體文本對實(shí)體所表達(dá)的態(tài)度,我們以句子為單位(請注意這部分是一定需要包含實(shí)體名的。為什么以句子為單位請參考上文)。然后我們將整合到文章層面上表達(dá)的態(tài)度,與文章與主題的相關(guān)度加權(quán)匯總起來,得到了文章基于主題對特定企業(yè)的輿情。再進(jìn)一步根據(jù)媒體、日期進(jìn)行整合,最后利用移動平均得到關(guān)于企業(yè)在該主題上平滑的輿情因子的時間序列。之所以進(jìn)行移動平均,是因為考慮一篇媒體的報道可能對未來一段時間都有一定程度的影響力。而移動平均的時間窗口,則需要按照你的數(shù)據(jù)、研究問題的不同而進(jìn)行相應(yīng)調(diào)整。

  比如說,我們在研究企業(yè)違約預(yù)測時,設(shè)定了2星期的移動平均窗口;但在研究綠色金融時,設(shè)置的則是4個星期的窗口。

數(shù)據(jù)庫

  【文本數(shù)據(jù)庫】

  目前,我們的資料庫里已經(jīng)有200萬篇英文文章了,中文也有60多萬篇,而這些數(shù)字還不斷的在增加中,明顯的,對海量文本的分析不靠機(jī)器學(xué)習(xí)是不現(xiàn)實(shí)的。

  【被解釋變量Y】

  現(xiàn)在來討論企業(yè)違約建模的具體考量。討論企業(yè)違約的本質(zhì)問題,首先要明確兩個觀念,一個是“企業(yè)違約概率”(probability of default,PD);一個是“其它退出事件發(fā)生概率”(probability of other exit,POE),例如被收購、上市公司私有化(退市)之類的。分析公司的違約概率,不能忽略發(fā)生其它事件的概率,因為如果一家上市公司被收購了,不再存在,還何談違約呢?

  因此,一家企業(yè)未來是否發(fā)生違約,什么時候可能違約,和它存活多久的概率有關(guān),又與其它退出事件發(fā)生概率有關(guān)。比如從銀行放貸的角度看待其企業(yè)客戶,如果一家企業(yè)客戶轉(zhuǎn)向其它銀行申請貸款,那對于原來的銀行來說,就是一種企業(yè)退出事件的發(fā)生。因此,當(dāng)我們研究企業(yè)違約時候,也就是我們的Y變量,至少需分為3個狀態(tài),分別是0-存續(xù),1-違約、2-其它退出事件。

預(yù)測

  【解釋變量X和維度】

    現(xiàn)在講一講X變量的數(shù)據(jù)維度。假設(shè)樣本有1萬家上市公司(實(shí)際上是全球有8萬家左右),如果有三個重要的共同風(fēng)險因子(Common risk drivers),比如說利率、油價、CPI,每一家公司又有杠桿率、流動性等等5個個體因素(Individual attributes),影響公司違約概率。那么這X變量有多少維呢?1萬家公司,每一家都有5維的個體因素,就是5萬維了,再加上3維大家共用的風(fēng)險因子,也就是50,003維,這是個正常的理解。

  但以機(jī)器學(xué)習(xí)的角度,通常把它想象成8維,為什么?因為所有公司的某一個個體因素,都是作為同一個X變量輸入到模型里去的,使用同一個模型參數(shù)。

  但是如果要對個體公司做壓力測試,就不能忘記這原來是50,003維的問題,因為你公司的杠桿跟我公司杠桿不是同樣的東西,兩個都是動態(tài)的時間序列,并具備相關(guān)性,是不是?其實(shí)這個問題本質(zhì)是50,003維,只不過機(jī)器學(xué)習(xí)在建模時候當(dāng)作8維。我們不能忘了這個數(shù)據(jù)本身的維數(shù)就是非常高的,而我們在金融問題上面臨的就是這樣的數(shù)據(jù),補(bǔ)充輿情分析的因子就是增加數(shù)據(jù)的維數(shù),增加X變量。

  我們面對的數(shù)據(jù)是一個非常不完整的面板數(shù)據(jù),每個公司都是一條多維時間序列。但在某個時間點(diǎn),可能有些公司還沒有出現(xiàn),有些公司已經(jīng)倒閉或被并購了,因此,這個面板數(shù)據(jù)肯定是很不完整的。面對這樣的數(shù)據(jù),這樣的Y和X,我們要探索它們之間的函數(shù)關(guān)系,以及判斷增加輿情因子是否有補(bǔ)強(qiáng)的效果。

企業(yè)債務(wù)

  【違約概率預(yù)測函數(shù)】

  這個違約概率預(yù)測函數(shù)本身是很復(fù)雜的,因為需要考慮的因素非常的多。比如說,違約或上市概率一定會有期限結(jié)構(gòu),我們關(guān)心的可能是1個月之內(nèi)的違約也可能是3年之內(nèi)的違約。靠慮是否加入輿情因子,并不會影響函數(shù)的形式只會改變X變量維度。

預(yù)測

  【違約預(yù)測背景交代】

  新國大的信用研究行動計劃(NUS Credit Research Initiative, CRI)已經(jīng)進(jìn)行了12年了,我們提供關(guān)于全球超過8萬家上市公司不同期限的違約概率預(yù)測數(shù)據(jù),大家都可以從公開的平臺下載(如CRI官網(wǎng):http://nuscri.org)。很多金融機(jī)構(gòu),像國際貨幣基金組織(IMF)、商業(yè)銀行等都在用CRI產(chǎn)出的數(shù)據(jù)。

  

輿情

  【輿情的補(bǔ)強(qiáng)功能】

  因為結(jié)構(gòu)化的金融數(shù)據(jù),已經(jīng)為企業(yè)違約預(yù)測提供了非常豐富的信息,我們只能期待,輿情因子起到補(bǔ)強(qiáng)的功能。

功能

  【輿情分析背景交代】

  其實(shí)早在2014年,CRI研究團(tuán)隊就已經(jīng)開始探索,輿情對于企業(yè)違約預(yù)測的作用,當(dāng)時,我們采用的是RavenPack輿情指數(shù)。研究發(fā)現(xiàn),當(dāng)只采用輿情單因子進(jìn)行違約預(yù)測時,輿情起到一定作用;但當(dāng)我們把它納入到既有預(yù)測模型時,也就是和其它金融結(jié)構(gòu)化數(shù)據(jù)一起預(yù)測企業(yè)違約的時候,輿情因子并不能產(chǎn)生額外貢獻(xiàn)。

  經(jīng)過了一年的努力,我們不得不遺憾宣告失敗。那時候的我們,目標(biāo)是十分明確的,但回頭仔細(xì)思考,發(fā)現(xiàn)采用的方法還是不成熟的,因為RavenPack的輿情是一般性的輿情,并沒有考慮主題相關(guān)性問題。

  2019年7月,CRI重啟了輿情分析計劃,開始自己生成主題明確的輿情因子。經(jīng)過不斷的探索,我很高興的告訴大家,這次我們得到了正面的成果,輿情對違約預(yù)測是有價值的,可以提供豐富的結(jié)構(gòu)化數(shù)據(jù)之外更多的信息。

  我現(xiàn)在十分有信心,是因為我們無論在方向上還是方法上,都有了很大程度上的掌控。同時,我們也相信、希望輿情因子可以更有效地用在為還沒上市的中小企業(yè),提供更多的信息,這也是我們重啟這個計劃的初衷。因為中小企業(yè)的財報沒有嚴(yán)格的審計、市場監(jiān)管,很可能是不夠準(zhǔn)確的。同時,它們通常沒有上市,沒有那么多的結(jié)構(gòu)化數(shù)據(jù)提供信息,所以輿情至少在觀念上,可能會補(bǔ)充更多有用的信息。

數(shù)據(jù)庫

  【語料庫】

  目前,我們收集的包括全球主流英文媒體金融時報、華爾街日報和路透社的報道,中文收集了新浪財經(jīng)和財新網(wǎng)的報道。另外,我們還收集了東南亞本地媒體的報道(英文)。近期,我們也開始建立其它語言的輿情,比如印尼語。在了解了中英文在分詞上的本質(zhì)差異后,我們自然對處理其它語言時充滿信心。

數(shù)據(jù)庫

  【樣本描述】

  英文文本方面,我們先以美國和加拿大交易所上市的17,816家公司為例進(jìn)行驗證。考慮文本歷史覆蓋時間后,我們最終采用的是從1998年6月到2020年12月,共近148萬條月度樣本,其中,有1,681個違約事件,15,597條屬于其它退出事件。不難發(fā)現(xiàn),像被收購、退市之類的其它退出事件是違約事件的將近10倍。

  但中國的樣本具有不同的特征,CRI關(guān)于中國大陸交易所的4,294家上市公司所對應(yīng)的樣本中,有1,747個違約事件,但其它退出事件只有544個。這是因為,中國上市公司的殼資源很有價值錢,再不濟(jì)也可以通過借殼避免退市(目前,中國的退市機(jī)制也在不斷的完善中)。

數(shù)據(jù)庫

  【變量描述】

  那前面提到我們的輿情因子采用的是五分法,從-2到+2。其中,0代表中性的態(tài)度。對于輿情缺失的時間點(diǎn),就是在當(dāng)月沒有媒體報道一家公司時,我們也放入0。但要注意,此0非彼0(態(tài)度中性的0和填充缺失值的0)。

  所以我們增加一個啞變量(dummy),用來區(qū)分兩個0代表著不同含義。這個是統(tǒng)計上的處理方法,當(dāng)一家公司在某月有媒體報道時,無論報道的態(tài)度是如何,啞變量都設(shè)置為1,但當(dāng)在那時間點(diǎn)上沒有媒體報道時,則設(shè)為0。可以想象,大部分公司在大部分時間點(diǎn)都不會被媒體報道,啞變量都為0。另一方面,啞變量也有經(jīng)濟(jì)的含義,也就是某家公司是否被媒體關(guān)注,代表著被關(guān)注本身也可能具有意義。

統(tǒng)計

統(tǒng)計

  【統(tǒng)計結(jié)果】

  現(xiàn)在,我們采用邏輯回歸(logistic regression)的方法來展示最終的效果。這個方法雖然不是CRI系統(tǒng)采用的較為復(fù)雜、高質(zhì)量的統(tǒng)計模型,但邏輯回歸非常直觀、簡單,便于非信用風(fēng)險專業(yè)人士的理解。

  圖表中對應(yīng)的Y為1和2,分別代表企業(yè)一年內(nèi)發(fā)生違約或者其它退出事件的邏輯回歸結(jié)果。其中,dummy就是我們剛才提到的啞變量,predictedlabel就是輿情因子。標(biāo)X的是其它解釋變量。

  可以看到,無論是我們用美國和加拿大的英文輿情因子(P21),還是中國大陸的中文輿情因子(P23),在對違約事件的邏輯回歸中,統(tǒng)計上都是非常顯著的,而且對應(yīng)的系數(shù)為負(fù),方向也是符合經(jīng)濟(jì)常識,即輿情因子越正面,企業(yè)的違約風(fēng)險越小。

  而在其他退出事件的邏輯回歸中(P22,P24),可以看到,相比輿情因子,啞變量在兩組樣本的邏輯回歸中在統(tǒng)計上更顯著,說明一家公司被報道這件事本身更有助于預(yù)測其他退出事件的發(fā)生。你可能會質(zhì)疑,統(tǒng)計上的顯著在經(jīng)濟(jì)層面上不一定有實(shí)際用途。比如,統(tǒng)計上我驗證了兩塊錢跟三塊錢有很大的差別,但是我對兩、三塊錢之間的差異根本不在乎。

統(tǒng)計

  【PD變化】

  接下來,我們看看加入輿情因子,違約概率實(shí)際上發(fā)生了多大的變化。這里都是以基點(diǎn)(即萬分點(diǎn),bps)為單位的。因為違約本來就屬偶發(fā)事件,所以哪怕是10個基點(diǎn),其實(shí)已經(jīng)是很大的違約率了。比如統(tǒng)計顯示,一家信用評級為BBB的企業(yè),一年內(nèi)違約的概率大概是15個基點(diǎn),所以5個基點(diǎn)的變化都不能被輕視的。所以,根據(jù)兩組違約概率差異分布圖,可以看到輿情因子的影響還是很大的。

統(tǒng)計和經(jīng)濟(jì)意義

  【PD衍生評級變化】

  我們可以進(jìn)一步將預(yù)測違約概率的差異具象到信用評級層次上。

  首先要了解,信用越好的公司,只要它的違約概率發(fā)生了些微的變化,對應(yīng)的信用評級就會變化很大。以標(biāo)準(zhǔn)普爾(S&P)的劃分方法將PD對應(yīng)到信用評級上,可以看到,美國和加拿大的57,175個有輿情的數(shù)據(jù)點(diǎn)中,6,400個數(shù)據(jù)點(diǎn)的信用評級都發(fā)生了變化,其中,包含5,417個數(shù)據(jù)點(diǎn)的信用評級都下降了一級(notch),比如BBB就會變成BBB-。

  中國大陸上市公司的資料,有14,367個包含輿情的數(shù)據(jù)點(diǎn),其中5,929個數(shù)據(jù)點(diǎn)都因為輿情的加入而改變了原來的信用評級,甚至有2、3級上的變化。這驗證了輿情因子不僅在統(tǒng)計顯著上,在使用層面也會帶來明顯的價值。

統(tǒng)計和經(jīng)濟(jì)意義

  【POE變化】

  對于其它退出事件(比如被并購、私有化)的發(fā)生概率上,橘色和藍(lán)色分別代表考慮輿情因子前后,其它退出事件概率的分布圖。可以看出,加入輿情因子后,其它退出事件的概率比之前大了很多(中文同理)。如果說,違約的預(yù)測有助于進(jìn)行風(fēng)險管理,那么并購標(biāo)的的預(yù)測則對投資非常重要,因為被收購的公司往往可以獲得高額的溢價,股票會大漲。

  根據(jù)上述的描述可確認(rèn),主題、主體明確的輿情分析,在中英文本上都已經(jīng)發(fā)生了明顯的效果,也達(dá)到甚至超出了我們的目標(biāo),即利用另類數(shù)據(jù)構(gòu)建的因子,有望補(bǔ)強(qiáng)原有的預(yù)測模型的準(zhǔn)確度,其補(bǔ)強(qiáng)效果顯著。

  當(dāng)然,我們不能期待輿情因子可以在每一家公司上發(fā)揮作用,因為媒體不會對所有公司都進(jìn)行報道,但一家公司只要被報道,輿情就可能帶著有用的信息。

  2

  案例分析

  GameStop(游戲驛站)-違約概率

  現(xiàn)在檢視一個今年年初鬧得沸沸揚(yáng)揚(yáng)的案例GameStop(游戲驛站),反映了一場社交媒體和正式媒體的大戰(zhàn)。在圖中可以看到(灰色的條),正式媒體的報道都是表達(dá)了負(fù)面的態(tài)度,但是我們知道,社交媒體對GameStop的評價是非常正面的。在那段時間,股價完全反映了社交媒體的意見。

  但我們也知道,GameStop已經(jīng)是沒有前途的公司,它的違約風(fēng)險也應(yīng)該不低,而它瘋狂暴漲的股價完全沒有客觀地反映該公司的基本面。根據(jù)我們的邏輯回歸模型,股價的大漲會相應(yīng)地降低違約概率的預(yù)測值。

  我之所以選這個案例,是想看看正式媒體表達(dá)的客觀、負(fù)面的態(tài)度評論,能否扭轉(zhuǎn)社交媒體正面評價所帶來的影響。但我們也可以看到,扭轉(zhuǎn)的效果還是不夠的,因為股價的效果實(shí)在很強(qiáng),也就是說,傳統(tǒng)金融資料對模型的解釋力是極強(qiáng)的。不過,GameStop目前也還沒有違約或倒閉,所以我們只是從模型的角度來看看在極端情況下的一種預(yù)測。

案例

  案例分析

  天齊鋰業(yè)-違約概率

  我們再看一家已經(jīng)發(fā)生違約的中國上市公司,天齊鋰業(yè)。

  圖中可以看到,藍(lán)色的加入輿情因子后的違約概率比原來模型預(yù)測的顯著增加。所以,無論是從整體還是案例層面,輿情因子都是非常有用的。

案例分析

  案例分析

  Solar City(太陽城)-并購概率

  我們再來檢視并購的例子。美國的案例是SolarCity(太陽城),這是家被Tesla在2016年以高溢價收購的公司,但在今年年初又惹出了法律問題,打了官司。圖中顯示,在原來模型加入輿情后,被并購的概率就上升了,而且數(shù)據(jù)告訴我們,媒體報道態(tài)度的方向是不重要的,只要被媒體報道,被收購的概率就會增大。

  仔細(xì)想想,應(yīng)該會覺得這是很合理的結(jié)果:因為媒體報道的態(tài)度對違約預(yù)測,應(yīng)該是有方向性的,越負(fù)面,違約概率越大。但在收購預(yù)測層面,信用越差,越可能成為被收購的目標(biāo);信用特別好,也可能成為被并購的目標(biāo)。因為收購方既可以去低價買入爛公司,也可能高溢價收購好公司,所以這個結(jié)果是很合理的。

案例分析

  尾 聲

  獲得這些成果,我其實(shí)是很驚喜的。因為我曾經(jīng)設(shè)想,輿情可能就像牛反芻一樣,看了財報、其它金融信息,然后表達(dá)了相應(yīng)的意見,而我們的模型已經(jīng)包含了財報、股價等等信息。但科學(xué)分析的結(jié)果告訴我們,輿情是有補(bǔ)強(qiáng)價值的。一旦我們掌握了問題的關(guān)鍵,解決問題的方向和方法,我們就可以得到更科學(xué)的答案。

  3

  問答環(huán)節(jié)

  Q1

  目前有部分的金融企業(yè)輿情分析存在著數(shù)據(jù)來源單一、覆蓋率不足、數(shù)據(jù)挖掘的程度不深等問題,這會導(dǎo)致輿情分析判斷不夠準(zhǔn)確嗎?可以請段老師給我們一些建議嗎?

  答:輿情分析的數(shù)據(jù)是永遠(yuǎn)不會夠的,我認(rèn)為最重要的問題不是這個媒體來源,媒體來源一定是有限制的。你要做個判斷:是不是要離開正式媒體(轉(zhuǎn)而選擇社交媒體或者其他數(shù)據(jù)),剩下的就是技術(shù)問題。所以,你首先要了解我講的三維問題,把三維問題想清楚后,再做輿情分析才會比較有效。很多人分析的結(jié)果不成功是因為觀念上的問題,導(dǎo)致即使做出技術(shù)上正確的分析,也不一定會有結(jié)果。

  另一方面,如果選擇的媒體本身品質(zhì)不高,我們技術(shù)上分析得好也可能沒有額外信息。所以我認(rèn)為做了一定程度的努力再做判斷是比較好的方法。我今天在講座里面講了很多觀念問題,但如果從純粹的技術(shù)層次說,高手跟普通人確實(shí)是有差別的。同樣的東西,比如你看了一本秘籍,你就體會跟另外一個人體會不一樣。

  所以基本功還是個挺重要的事情,我希望今天參與我這個講座的同學(xué)能收獲到正確的思維方式,這樣也可以和專業(yè)人士進(jìn)行比較具體的溝通。

  我覺得就能達(dá)到今天講座的目的,但是要變成專家,還是很長的路程,就必須要做很多努力。

  Q2

  面對突發(fā)的金融事件,如何快速的進(jìn)行輿情風(fēng)險分析呢?

  答:我現(xiàn)在講的輿情分析是根據(jù)我們做出來的系統(tǒng),來分析企業(yè)的每日輿情動態(tài),系統(tǒng)是天天產(chǎn)生新的東西,所以我講座中談到,要關(guān)注“主題”。

  現(xiàn)在我關(guān)心的兩個主題:一個是信用的問題,一個是綠色金融的問題。我們的系統(tǒng)中每天都會產(chǎn)生針對這兩個非常明確的主題的新的輿情結(jié)果。所以突發(fā)金融事件發(fā)生時,我們的系統(tǒng)都可以及時捕捉到。

  因此,你要先想的是輿情分析的目的是什么:做研究或者做報告是一個目的,update(更新)是另一個目的,因此我們要目標(biāo)明確,應(yīng)對突發(fā)事件只要媒體報道,我們就可以知道結(jié)果了。

  Q3

  段老師,如果我們的模型越來越完善,可以越來越準(zhǔn)確的預(yù)測,那這個模型會不會被反向利用?發(fā)布對公司有用的信息,最后又不準(zhǔn)了,就這個問題,段老師您怎么看?

  答:你提到的模型在所謂的社會科學(xué)里面有一個基本的辯論,我們對社會,對行為的越發(fā)了解,會反過來改變行為。

  但是我現(xiàn)在講的這個事情不會發(fā)生,因為我今天用的是正式媒體,是有一套系統(tǒng)跟管控的。比如,華爾街日報不會做虛假報道,尤其是為了讓某個模式產(chǎn)生效果的虛假報道。所以,你說的情況在正式媒體上的發(fā)生的幾率是非常小的,模型反映的是現(xiàn)實(shí)。

  因此,我個人認(rèn)為在正式媒體上,沒必要擔(dān)心文章的出現(xiàn)會影響事件本身。

  Q4

  老師還提到您做的輿情因子是針對上市公司的,也可以更好的補(bǔ)充對中小微企業(yè)的信息補(bǔ)充。但會不會媒體更傾向于報道大型公司,比如蘋果、特斯拉、貴州茅臺,而對中小微企業(yè)的報道很少的。老師是否有這方面的衡量呢?

  答:媒體是會有這樣的傾向的。因為你不能指望華爾街日報去報道印尼的一家小公司。我們對此也有所考量。所以,我們除了國際上大型的新聞媒體之外,還收集了不同國家的地方媒體資料(尤其是東南亞AEAN國家的),甚至包括地方語言(比如印尼語)的資料。

  Q5

  目前市面上不少利用各種另類數(shù)據(jù),比如電信賬單、支付記錄之類的來做中小微企業(yè)的輿情,段老師有這種打算嗎?

  答:除了傳統(tǒng)數(shù)據(jù),新聞報道是另類資料的一種,你剛提到的電信賬單、支付記錄之類數(shù)據(jù)也是另類資料的一種。另類資料是無處不在、無窮無盡的,如果任何數(shù)據(jù)都拿來用,那我們就被另類數(shù)據(jù)綁住了。

  因此,我們首先要明確,另類資料在我們的研究問題中(預(yù)測)不是來取代傳統(tǒng)資料,而是用于補(bǔ)強(qiáng)的。因為傳統(tǒng)的金融數(shù)據(jù)已經(jīng)包含了十分豐富的信息,這是我們的核心研究。

  在其基礎(chǔ)上,我們?nèi)缃耱炞C了,媒體的報道確實(shí)對企業(yè)違約預(yù)測具有顯著地補(bǔ)強(qiáng)作用。所以,對于另類數(shù)據(jù),我們一直是基于這個補(bǔ)強(qiáng)作用來考量。至于將來,我們會采用何種另類數(shù)據(jù)進(jìn)一步探索,主要還是根據(jù)我們的研究問題,重要程度、數(shù)據(jù)的可獲得性等等多個層面來決定的。

  Q6

  老師對于輿情因子在企業(yè)違約預(yù)測中的作用進(jìn)行了細(xì)致的講解,讓我們受益匪淺。同時,老師還提到的在綠色金融中的應(yīng)用,可以稍微再展開一些嗎?另外,老師對于輿情因子在我們投資中的應(yīng)用方式,有什么建議嗎?因為老師一直在強(qiáng)調(diào)的“主題”好像比較少在投資領(lǐng)域聽到。

  答:我先講投資領(lǐng)域的應(yīng)用。剛剛在我們分析的結(jié)果時,你可以看到輿情因子已經(jīng)能夠幫助預(yù)測企業(yè)并購/收購的發(fā)生,這在投資上就很有用。因為我們都知道如果一家企業(yè)變成被并購/收購的目標(biāo),股價往往會漲得很厲害(溢價收購)。所以如果能增加準(zhǔn)確度,這就是一個很好的投資的方式。

  另外,對于綠色金融也好,其他應(yīng)用也好,還是我一直強(qiáng)調(diào)的,要明確做這項技術(shù)的目的。我們要區(qū)分,想產(chǎn)生的是Y變量還是X變量。我在講座里也談到的,Y變量是預(yù)測的結(jié)果,X變量是用于預(yù)測的變量。例如,我根據(jù)企業(yè)在信用主題上的輿情,來預(yù)測公司發(fā)生違約的幾率。那輿情因子就是我們的X變量。關(guān)于綠色金融的輿情因子,那么就需要明確我們要利用綠色金融來做什么?我的目標(biāo)是做企業(yè)在綠色金融的輿情分析,了解企業(yè)在綠色金融上的貢獻(xiàn),也就是產(chǎn)生Y變量,而不是產(chǎn)生X變量用于幫助解釋其他。


  圖文/新加坡國立大學(xué)EMBA官方微信

報名申請
請?zhí)峁┮韵滦畔ⅲ猩蠋煏M快與您聯(lián)系。符合報考條件者為您提供正式的報名表,我們承諾對您的個人信息嚴(yán)格保密。
姓名*
最高學(xué)歷/學(xué)位*
提 交
恭喜你,報名成功

您填的信息已提交,老師會在24小時之內(nèi)與您聯(lián)系

如果還有其他疑問請撥打以下電話

40004-98986
0/300
精彩留言
主站蜘蛛池模板: 国产在线一卡 | 色视频在线观看 | 亚洲欧洲国产视频 | 亚洲成a人v大片在线观看 | 亚洲黄色片免费看 | 国产成人精品福利站 | 天天狠狠| 琪琪午夜免费影院在线观看 | 欧美成人精品在线 | 亚洲性色永久网址 | 91啦中文成人 | 老妇激情毛片 | 亚洲欧美国产中文 | 国产视频 一区二区 | 欧美一级欧美一级在线播放 | 天天操天天操天天干 | 精品国产成人在线 | 国产一区二区三区在线 | 欧美天堂在线 | 精品国产91久久久久 | 国产区精品一区二区不卡中文 | 在线观看亚洲一区 | 免费在线亚洲 | 又粗又硬又大久久久 | h小视频在线 | 伊人久久综在合线亚洲不卡 | 91亚洲精品 | 人人干人人草 | 国产精品亚洲w码日韩中文 国产精品小黄鸭一区二区三区 | 亚洲一二三区在线观看 | 欧美一级视频在线观看 | 最新日本免费一区二区三区中文 | 欧美一区二区三区成人看不卡 | 一区二区高清在线观看 | 天天干夜夜笙歌 | 亚洲国产日韩欧美在线as乱码 | 日日操夜夜骑 | 最近2019中文 | 亚洲欧美日韩国产精品 | 午夜dj免费高清在线观看影院 | 青草视频国产 |