現(xiàn)在互聯(lián)網(wǎng)上關(guān)于“增長黑客”的概念很火,它那“四兩撥千斤”、“小投入大收益”的神奇法力令無數(shù)互聯(lián)網(wǎng)從業(yè)者為之著迷。
一般來說,“增長黑客”主要依賴于企業(yè)的內(nèi)部數(shù)據(jù)(如企業(yè)自身擁有的銷售數(shù)據(jù)、用戶數(shù)據(jù)、頁面瀏覽數(shù)據(jù)等),以此為依據(jù)進(jìn)行數(shù)據(jù)分析和推廣策略擬定。但是,如果遇到如下幾種情況,“增長黑客”就捉襟見肘了:
- 假如一家初創(chuàng)公司,自己剛起步,自身并沒有還積累數(shù)據(jù),怎么破?
- 就算有數(shù)據(jù),但自己擁有的數(shù)據(jù)無論在“質(zhì)”和“量”上都很差,正所謂“garbage in ,garbage out”,這樣的數(shù)據(jù)再怎么分析和挖掘,也難以得到可作為決策依據(jù)的數(shù)據(jù)洞察。
- 能看到數(shù)量上的變化趨勢,卻無法精準(zhǔn)的獲悉數(shù)值變動(dòng)的真正原因,比如,近期APP上的活躍度下降不少,從內(nèi)部數(shù)據(jù)上,你只能看到數(shù)量上的減少,但對(duì)于用戶活躍度下降的真實(shí)動(dòng)因卻無法準(zhǔn)確判定,只能拍腦袋或者利用過時(shí)的經(jīng)驗(yàn),無法讓相關(guān)人信服。
由此,筆者引出了“外部數(shù)據(jù)”這一概念,尤其是“Open Data”這片“數(shù)據(jù)藍(lán)?!?,“他山之石,可以攻玉”,從海量的外部數(shù)據(jù)中獲取可以對(duì)自身業(yè)務(wù)起到指導(dǎo)作用和借鑒意義的insight,借助外部環(huán)境數(shù)據(jù)來優(yōu)化自己。
下圖是本文的行文脈絡(luò):
在談及外部數(shù)據(jù)的重要性之前,讓我們先簡單的看一看數(shù)據(jù)分析的四種類型。
四種常見的數(shù)據(jù)分析類型
按數(shù)據(jù)分析對(duì)于決策的價(jià)值高低和處理分析復(fù)雜程度,可將數(shù)據(jù)分析歸為如下圖所示的4種范式:
從上圖可以看到,越遠(yuǎn)離坐標(biāo)原點(diǎn),沿坐標(biāo)軸正向延伸,價(jià)值度就越高,分析處理的難度也就越大。
對(duì)于數(shù)據(jù)分析師而言,“描述型分析”、“診斷型分析”和“預(yù)測型分析”最為常見,而“規(guī)范型分析”涉及比較高深的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)知識(shí),不是我們接下來討論的重點(diǎn)。
1.1 描述型數(shù)據(jù)分析
描述型分析是用來概括、表述事物整體狀況以及事物間關(guān)聯(lián)、類屬關(guān)系的統(tǒng)計(jì)方法,是上述四類中最為常見的數(shù)據(jù)分析類型。
通過統(tǒng)計(jì)處理可以簡潔地用幾個(gè)統(tǒng)計(jì)值來表示一組數(shù)據(jù)地集中性(如平均值、中位數(shù)和眾數(shù)等)和離散型(反映數(shù)據(jù)的波動(dòng)性大小,如方差、標(biāo)準(zhǔn)差等)。
1.2 診斷型數(shù)據(jù)分析
在描述型分析的基礎(chǔ)上,數(shù)據(jù)分析師需要進(jìn)一步的鉆取和深入,細(xì)分到特定的時(shí)間維度和空間維度,依據(jù)數(shù)據(jù)的淺層表現(xiàn)和自身的歷史累積經(jīng)驗(yàn)來判斷現(xiàn)象/問題出現(xiàn)的原因。
1.3 預(yù)測型數(shù)據(jù)分析
預(yù)測型數(shù)據(jù)分析利用各種高級(jí)統(tǒng)計(jì)學(xué)技術(shù),包括利用預(yù)測模型,機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等技術(shù)來分析當(dāng)前和歷史的數(shù)據(jù),從而對(duì)未來或其他不確定的事件進(jìn)行預(yù)測。
1.4 規(guī)范型數(shù)據(jù)分析
最具價(jià)值和處理復(fù)雜度的當(dāng)屬規(guī)范型分析。
規(guī)范型分析通過 “已經(jīng)發(fā)生什么”、“為什么發(fā)生”和“什么將發(fā)生”,也就是綜合運(yùn)用上述提及的描述型分析、診斷型分析和預(yù)測型分析,對(duì)潛在用戶進(jìn)行商品/服務(wù)推薦和決策支持。
對(duì)外部數(shù)據(jù)中的分析很重要
經(jīng)過上面對(duì)四種數(shù)據(jù)分析類型的描述,筆者認(rèn)為現(xiàn)有的基于企業(yè)內(nèi)部數(shù)據(jù)的數(shù)據(jù)分析實(shí)踐存在如下幾類特征:
大多數(shù)的數(shù)據(jù)分析僅停留在描述性數(shù)據(jù)分析上,未觸及數(shù)據(jù)深層次的規(guī)律,沒有最大限度的挖掘數(shù)據(jù)的潛在價(jià)值。
數(shù)據(jù)分析的對(duì)象以結(jié)構(gòu)化的數(shù)值型數(shù)據(jù)為主,而對(duì)非結(jié)構(gòu)化數(shù)據(jù),尤其是文本類型的數(shù)據(jù)分析實(shí)踐則較少。
對(duì)內(nèi)部數(shù)據(jù)高度重視,如用戶增長數(shù)據(jù),銷售數(shù)據(jù),以及產(chǎn)品相關(guān)指標(biāo)數(shù)據(jù)等,但沒有和外部數(shù)據(jù)進(jìn)行關(guān)聯(lián),導(dǎo)致分析的結(jié)果片面、孤立和失真,起不到問題診斷和決策支撐作用。
由此,我們必須對(duì)企業(yè)之外的外部數(shù)據(jù)引起重視,尤其是外部數(shù)據(jù)中的非結(jié)構(gòu)化文本數(shù)據(jù)。
外部數(shù)據(jù)的幾種常見類型
外部數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代的產(chǎn)物,隨著移動(dòng)互聯(lián)時(shí)代的興起,外部數(shù)據(jù)的增長呈現(xiàn)井噴的趨勢。
各個(gè)領(lǐng)域的外部數(shù)據(jù)從不同角度刻畫了移動(dòng)互聯(lián)時(shí)代的商業(yè)社會(huì),綜合這些外部數(shù)據(jù),才能俯瞰到一個(gè)“全息式”的互聯(lián)網(wǎng)版圖。
按互聯(lián)網(wǎng)行業(yè)和領(lǐng)域的不同,外部數(shù)據(jù)包括且不限于:
- 阿里(淘寶和天貓):電商大數(shù)據(jù)
- 騰訊(微信和QQ):社交網(wǎng)絡(luò)大數(shù)據(jù)
- 新浪(新浪微博和新浪博客):社交媒體大數(shù)據(jù)
- 脈脈:職場社交大數(shù)據(jù)
- 谷歌/百度:搜索大數(shù)據(jù)
- 優(yōu)酷:影視播放大數(shù)據(jù)
- 今日頭條:閱讀興趣大數(shù)據(jù)
- 酷云EYE:收視大數(shù)據(jù)
- 高德地圖:POI大數(shù)據(jù)
- 外部數(shù)據(jù)的獲取和采集
隨著互聯(lián)網(wǎng)時(shí)代對(duì)于“Open Data(開放數(shù)據(jù))”或“Data Sharing(共享數(shù)據(jù))”的日益倡導(dǎo),很多互聯(lián)網(wǎng)巨頭(部分)開放了它們所積累的外部數(shù)據(jù)。
再者一些可以抓取網(wǎng)絡(luò)數(shù)據(jù)的第三方應(yīng)用和編程工具不斷出現(xiàn),使得我們可以以免費(fèi)或付費(fèi)的方式獲得大量外部數(shù)據(jù)(在獲得對(duì)方允許和涉及商業(yè)目的的情況下),最終的形式包括未加工的原始數(shù)據(jù)、系統(tǒng)化的數(shù)據(jù)產(chǎn)品和定制化的數(shù)據(jù)服務(wù)。
以下是一些常見的外部數(shù)據(jù)分析和采集工具:
4.1 指數(shù)查詢
- 百度指數(shù)
- 微指數(shù)
- 優(yōu)酷指數(shù)
- 谷歌趨勢
4.2 爬蟲工具
- 火車頭
- Data Scraping
- 八爪魚
4.3 社會(huì)化媒體監(jiān)測與分析平臺(tái)
- 新浪微輿情
- 外部數(shù)據(jù)分析的應(yīng)用場景
最先對(duì)外部數(shù)據(jù)高度重視的先行者其實(shí)是政府機(jī)構(gòu),它們利用大數(shù)據(jù)輿情系統(tǒng)進(jìn)行網(wǎng)絡(luò)輿情的監(jiān)測,但隨著大數(shù)據(jù)時(shí)代的向前推進(jìn),外部數(shù)據(jù)的應(yīng)用場景也越來越多,包括且不限如下方面:
- 輿情監(jiān)測
- 企業(yè)口碑和客戶滿意度追蹤
- 企業(yè)競爭情報(bào)分析
- 品牌宣傳、廣告投放及危機(jī)公關(guān)
- 市場機(jī)會(huì)挖掘、產(chǎn)品技術(shù)開發(fā)創(chuàng)意挖掘
- 行業(yè)趨勢分析
接下來,筆者將以某互聯(lián)網(wǎng)社區(qū)上近6年的文章數(shù)據(jù)作為實(shí)例,進(jìn)行“360度無側(cè)漏式”的數(shù)據(jù)分析,來“示范”下如何對(duì)外部數(shù)據(jù)進(jìn)行挖掘,從中最大限度的“榨取”關(guān)于互聯(lián)網(wǎng)產(chǎn)品、運(yùn)營方面的insight。
外部數(shù)據(jù)分析實(shí)操案例
以某互聯(lián)網(wǎng)社區(qū)的文章數(shù)據(jù)分析為例
在筆者下面的“數(shù)據(jù)發(fā)現(xiàn)之旅”中,會(huì)帶著3個(gè)目的,主要是:
- 通過該社區(qū)的資訊文章中,發(fā)掘國內(nèi)互聯(lián)網(wǎng)發(fā)展的一些特征
- 發(fā)掘互聯(lián)網(wǎng)某些欄目下的熱點(diǎn)及其變動(dòng)趨勢
- 給筆者的內(nèi)容創(chuàng)作予以寫作風(fēng)格定位和題材選取方面的指導(dǎo)
以下是筆者抓取的數(shù)據(jù)的原始形態(tài),抓取了“標(biāo)題”、“時(shí)間”、“正文”、“閱讀量”、“評(píng)論量”、“收藏量”和“作者”這7個(gè)維度的數(shù)據(jù),抓取時(shí)間區(qū)間是2012.05.17~2017.07.31,文章數(shù)據(jù)共計(jì)33,412條。
然后,筆者對(duì)數(shù)據(jù)進(jìn)行了清洗,主要是“閱讀量”,將“k(1000)“、“萬(10000)”、“m(1000000)”變成了相應(yīng)的數(shù)字,便于后續(xù)的數(shù)值計(jì)算和排序。同時(shí),新增3個(gè)維度,即文章所屬的欄目“類別”、“正文字?jǐn)?shù)”和“標(biāo)題字?jǐn)?shù)”。
6.1全局縱覽
6.1.1 各欄目下的文章數(shù)量分布情況
首先,先對(duì)各個(gè)欄目下的文章數(shù)量進(jìn)行基礎(chǔ)性的描述性分析,看看10個(gè)欄目類別下的文章數(shù)量分布。
從上面的條狀圖和環(huán)形圖可以看出,“業(yè)界動(dòng)態(tài)”這一欄目下的文章數(shù)量最多,為10,,452篇,占到了文章篇數(shù)總量的31.3%,其次是產(chǎn)品設(shè)計(jì)和產(chǎn)品運(yùn)營,分別占到了總數(shù)的19.5%和16.87%,反倒是“產(chǎn)品經(jīng)理”下的文章數(shù)量不多。
接下來,筆者統(tǒng)計(jì)了這10各欄目在過去的6年中的數(shù)量變化情況,如下面的熱力圖所示:
上面的熱力圖中,色塊越深,對(duì)應(yīng)的數(shù)值就越大,越淺則數(shù)值愈小。其中,互聯(lián)網(wǎng)的“業(yè)界動(dòng)態(tài)”一直是文章發(fā)布數(shù)量最多的欄目。
而“產(chǎn)品經(jīng)理”的發(fā)文數(shù)量一路飆升(當(dāng)然2017年還沒過完),間接的可知該職位的熱度(關(guān)注和寫作偏好)蹭蹭的往上竄,成為“改變世界”、拿著高薪的產(chǎn)品經(jīng)理,是無數(shù)互聯(lián)網(wǎng)從業(yè)人員夢寐以求的工作。與此類似的是“產(chǎn)品運(yùn)營”欄目,發(fā)文數(shù)量也在穩(wěn)步上升。
另外,“產(chǎn)品設(shè)計(jì)”方面的文章主要集中在2012年,可以看出以“用戶體驗(yàn)”、“UI設(shè)計(jì)”、“信息架構(gòu)”和“需求規(guī)劃”為主要活動(dòng)的產(chǎn)品設(shè)計(jì)在2012年蓬勃發(fā)展,產(chǎn)生了大量基于實(shí)踐經(jīng)驗(yàn)的干貨文章。
6.1.2 閱讀數(shù)據(jù)分析
現(xiàn)在,筆者從“閱讀量”、“點(diǎn)贊量”、“收藏量”、“正文字?jǐn)?shù)”和“標(biāo)題字?jǐn)?shù)”這些能反映讀者閱讀偏好的數(shù)據(jù)著手,進(jìn)行由淺入深的挖掘,從中發(fā)現(xiàn)閱讀數(shù)據(jù)中的洞察。
在統(tǒng)計(jì)分析之前,先去掉若干有缺失值的數(shù)據(jù),此時(shí)文本數(shù)據(jù)總量為33,394。
(1)文章數(shù)據(jù)的描述性分析
先對(duì)所有文章的各個(gè)維度進(jìn)行描述性統(tǒng)計(jì)分析,獲得這些數(shù)據(jù)的“初の印象”。
上面的數(shù)據(jù)過多,為節(jié)省篇幅,筆者僅摘取部分?jǐn)?shù)據(jù)進(jìn)行解讀:
從上表中,筆者發(fā)現(xiàn),單篇文章閱讀量的最大值是2,100,000!閱讀數(shù)高得驚人!在后面的截圖中,小伙伴們可以知曉具體是哪一篇文章如此之高的閱讀熱度。
讀者的評(píng)論熱情不高,絕大部分的文章沒有評(píng)論,這可以從“平均值”、“中位數(shù)”和“標(biāo)準(zhǔn)差”這3項(xiàng)指標(biāo)中看出。
絕大部分的文章字?jǐn)?shù)不超過3000,篇幅短小精悍,當(dāng)然大多數(shù)文章都有配圖,寫得太長,讀者懶得看。
絕大部分的標(biāo)題字?jǐn)?shù)不超過20字,太短說不清楚,太長看著招人煩。
(2)文章聚類分析
在該部分,筆者選取 “閱讀量”、“收藏量”、“評(píng)論量”、“標(biāo)題字?jǐn)?shù)”這4個(gè)維度作為此次聚類分析的特征(Feature),它們共同構(gòu)造了一個(gè)四維空間,每一篇文章因其在這4個(gè)維度上的數(shù)值不同,在四維空間中形成一個(gè)個(gè)的點(diǎn)。
以下是由DBSCAN自動(dòng)聚類形成的圖像,因4維空間難以在現(xiàn)實(shí)中呈現(xiàn),故以2維的形式進(jìn)行展示。
從上圖可以看出,此次聚類中,有少數(shù)的異常點(diǎn),由上面的描述型分析可知,閱讀量極大的那幾篇文章的“嫌疑”最大,現(xiàn)在在源數(shù)據(jù)中“揪出”它們,游街示眾,然后再“除掉”。
去除掉上述異常點(diǎn)之后的聚類圖譜:
從上圖中可以看出,雖然因?yàn)榫S度過高,不同類別簇群存在重合現(xiàn)象,但不同的顏色明顯的將文章類別進(jìn)行了區(qū)分,按照“閱讀量”、“收藏量”、“評(píng)論量”、“標(biāo)題字?jǐn)?shù)”這4個(gè)維度進(jìn)行的DBSCAN聚類可以分為5個(gè)類別。
(3)閱讀量與正文字?jǐn)?shù)、標(biāo)題字?jǐn)?shù)之間的關(guān)聯(lián)分析
接著,筆者分別對(duì)“閱讀量”與“標(biāo)題字?jǐn)?shù)”、“正文字?jǐn)?shù)”做了散點(diǎn)圖分析,以期判斷它們之間是否存在相關(guān)關(guān)系。
從上圖來看,閱讀量和標(biāo)題字?jǐn)?shù)之間并沒有明顯的線性相關(guān)性,標(biāo)題字?jǐn)?shù)及其對(duì)應(yīng)數(shù)量的散點(diǎn)分布,近似形成了一條左偏態(tài)的正態(tài)曲線,從圖像上印證了上面的描述性分析,而且更新了我們的認(rèn)知:在10~30這個(gè)“標(biāo)題字?jǐn)?shù)”區(qū)間的文章數(shù)量最多,而標(biāo)題字?jǐn)?shù)過多未必是好事。
從上圖可以看出,從1000字開始,閱讀量和正文字?jǐn)?shù)在大體上呈負(fù)相關(guān)關(guān)系,即文章字?jǐn)?shù)越多,閱讀量越小。由此看來,大家都比較喜歡短平快的“快餐式”閱讀,篇幅太長的文章看起來太磨人。
6.1.3 熱門文章特征分析
一篇文章的“收藏量”能在一定程度上反映讀者對(duì)該文章的價(jià)值度的認(rèn)可,較高的收藏量能代表該文章的質(zhì)量屬于上乘。而從一定數(shù)量的高收藏量文章中,我們又能間接的從中發(fā)掘出讀者的閱讀偏好,進(jìn)而界定讀者群體的某些特征。
在這部分,筆者篩選出收藏量大于1,000的文章,各欄目合計(jì)下來,不多不少,剛好60篇。以下是它們?cè)诟鳈谀肯碌臄?shù)量分布情況:
從上表中,筆者發(fā)現(xiàn)如下信息:
- “產(chǎn)品經(jīng)理”欄目下收藏量過1,000的文章數(shù)量最多,占到半數(shù);
- “分析評(píng)測”下的文章數(shù)量不多,但讀者互動(dòng)最多(平均評(píng)論量為90);
- “分析評(píng)測”、“交互體驗(yàn)”、“業(yè)界動(dòng)態(tài)”、“原型設(shè)計(jì)”入圍的文章數(shù)量不多,但它們的平均閱讀量較高
以上3點(diǎn)僅是從數(shù)值型數(shù)據(jù)上獲得的認(rèn)知,但是這些熱門文章到底有哪些特征,我們不得而知,由此,筆者統(tǒng)計(jì)了這些熱門文章的標(biāo)題中的高頻詞,并將其制成關(guān)鍵詞云:
從上面的高頻詞,“Axure”、“干貨”、“工具”、“新人”、“7天”、“速成”等高頻詞可以間接的推測出,這些文章的主要面向初學(xué)者(按照心理學(xué)上的“投射原理”,讀者其實(shí)也大都是初學(xué)者),以干貨類、工具類和方法論為主題,并透露出濃厚的“成功學(xué)氣息”(如“速成”、“7天”、“必學(xué)”等詞),具有這類標(biāo)題特征的文章,堪稱“眼球收割機(jī)”,初學(xué)者合并小白喜聞樂見,最是喜歡。
6.1.4 文本中一線~五線城市提及次數(shù)的地理分布
在該部分,筆者先列出了一個(gè)國內(nèi)一、二、三、四、五線城市的城市名錄,然后在經(jīng)過分詞處理的333,94篇文本數(shù)據(jù)中統(tǒng)計(jì)這些城市的提及次數(shù)(不包含簡稱和別稱)。
最后制成一張反映城市提及次數(shù)的地理分布地圖,進(jìn)而間接的了解各個(gè)城市互聯(lián)網(wǎng)的發(fā)展?fàn)顩r(一般城市的提及跟互聯(lián)網(wǎng)產(chǎn)業(yè)、產(chǎn)品和職位信息掛鉤,能在一定程度上反映該城市互聯(lián)網(wǎng)行業(yè)的發(fā)展態(tài)勢)。
經(jīng)處理,制成的數(shù)據(jù)地圖如下:
上圖反映的結(jié)果比較符合常識(shí),北上深廣杭這些一線城市/互聯(lián)網(wǎng)重鎮(zhèn)的提及次數(shù)最多。其次是成都、天津、重慶、蘇州和青島這些二線城市,再次是哈爾濱、大連。
總結(jié)起來的一句廢話就是——互聯(lián)網(wǎng)發(fā)達(dá)的城市主要集中在東南沿海。
上面的數(shù)據(jù)分析大多數(shù)是基于數(shù)值型數(shù)據(jù)的描述性分析,接下來,筆者將利用其中的文本數(shù)據(jù)做深入的文本挖掘。
6.2 針對(duì)“產(chǎn)品運(yùn)營&數(shù)據(jù)分析”欄目的專項(xiàng)文本挖掘
因?yàn)楣P者關(guān)注的領(lǐng)域主要是數(shù)據(jù)分析和產(chǎn)品運(yùn)營,平時(shí)寫的文章也大都集中在這兩塊,所以筆者把這兩個(gè)板塊的數(shù)據(jù)單獨(dú)拎出來,從文本挖掘角度,做一系列由淺入深的數(shù)據(jù)分析。
6.2.1 高頻詞匯TOP200
首先是文本挖掘中最常規(guī)的高頻詞分析,筆者從中獲取了TOP200詞匯。
可以看到,大部分是跟“運(yùn)營”息息相關(guān)的詞匯,比如“用戶”、“運(yùn)營”、“內(nèi)容”、“APP”、“營銷”、“微信”等詞匯。
單獨(dú)看其中的高頻詞TOP30,可以發(fā)現(xiàn),這些詞大部分跟新媒體運(yùn)營(“內(nèi)容”、“微信”、“微博”、“文章”等)、用戶(“用戶”、“粉絲”、“需求”、“社群”、“客戶”、“消費(fèi)者”等)有關(guān)系。
將這TOP200高頻詞制成關(guān)鍵詞云,直觀的看到其中重要的信息。
6.2.2 Bicluster文本聚類分析
剛才筆者提到了基于關(guān)鍵詞歸納主題的做法,在上面的高頻詞中,這種主題特征不甚明顯,因而筆者采用更強(qiáng)有力的Bicluster文本聚類分析,從“數(shù)據(jù)分析&產(chǎn)品運(yùn)營”的數(shù)千篇文章中“析出”若干“子主題”,并進(jìn)行“發(fā)布年份”&“主題構(gòu)成”之間的關(guān)聯(lián)分析。
基于譜聯(lián)合聚類算法(Spectral Co-clusteringalgorithm)的文檔聚類,這部分的原理涉及到艱深的數(shù)學(xué)和算法知識(shí),可能會(huì)引起小伙伴們的閱讀不適感,如果是這樣,請(qǐng)快速跳過,直接看后面的操作和結(jié)果。
先將待分析的文本經(jīng)TF-IDF向量化構(gòu)成了詞頻矩陣,然后使用Dhillon的譜聯(lián)合聚類算法(Spectral Co-clusteringalgorithm)進(jìn)行雙聚類(Biclusters)。
所得到的“文檔-詞匯”雙聚類(Biclusters)會(huì)把某些文檔子集中的常用詞匯聚集在一起,由若干個(gè)關(guān)鍵詞構(gòu)成某個(gè)主題。
正式分析之前,先對(duì)保存在Excel中的文本數(shù)據(jù)做一定的預(yù)處理,使用“乾坤大挪移”,將Excel中的文本數(shù)據(jù)按年份一條條的歸到不同的文件夾下面,具體步驟如下圖所示:
做好預(yù)處理后,進(jìn)行正式的Bicluster文本聚類,結(jié)果如下:
上面的分析結(jié)果中,Bicluster1的話題區(qū)分度不明顯,且僅包含2個(gè)文檔和16個(gè)關(guān)鍵詞,所以排除掉這個(gè)主題,僅留下其他5個(gè)主題,排除噪聲,從這些子話題中的主要關(guān)鍵詞來歸納其要旨。
為了看得更清楚,筆者將這些數(shù)據(jù)整理成二維表格的形式:
從上表可以看出,“數(shù)據(jù)分析&產(chǎn)品運(yùn)營”下的子話題中,涉及“新媒體運(yùn)營”的內(nèi)容最多,占到文檔總量的35.62%,其次是“APP運(yùn)營”和“智能硬件”方面的話題,分別占到文檔總量的23.72%和19.6%。而“數(shù)據(jù)分析”話題下的文檔數(shù)最少。
將子話題和年份進(jìn)行交叉分析,可以從中了解到各個(gè)子話題在各年份的信息分布量,從某種意義上講,也就是話題熱度。
從上表可以看到,“智能硬件”的子話題在2012和2013年的熱度最高,而“APP運(yùn)營”和“數(shù)據(jù)分析”在2016和2017年開始火了起來,而“新媒體運(yùn)營”在近3年也是風(fēng)光無限。
而單獨(dú)從2016年來看,除了“智能硬件”方面的話題不火外,其他三個(gè)話題均有較高的熱度,達(dá)到了近5年來熱度峰值,看來2016年是個(gè)特殊的年份。
總體上,除了“智能硬件”這個(gè)子話題外,其他3個(gè)子話題熱度都呈現(xiàn)出不斷上升的趨勢,當(dāng)然,筆者假設(shè)2017年的4個(gè)月過完的時(shí)候還是如此。
6.2.3 基于“數(shù)據(jù)分析&產(chǎn)品運(yùn)營”語境下的關(guān)聯(lián)詞分析
接下來進(jìn)行的是基于Word Embedding的Word2vec詞向量分析,將正文分詞文本直接進(jìn)行詞向量模型訓(xùn)練,然后用來進(jìn)行關(guān)聯(lián)詞分析。
Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進(jìn)行詞向量處理,將這些詞匯映射到向量空間,變成一個(gè)個(gè)詞向量(WordVector),以使這些詞匯在便于被計(jì)算機(jī)識(shí)別和分析的同時(shí),還具有語義上的關(guān)聯(lián)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。
由此,通過Word2vec,我們可以查找到在“數(shù)據(jù)分析&產(chǎn)品運(yùn)營”語境下的各個(gè)詞匯的關(guān)聯(lián)詞。
先看看筆者最關(guān)心的“數(shù)據(jù)分析”,在“數(shù)據(jù)分析&產(chǎn)品運(yùn)營”語境下有哪些詞與之關(guān)聯(lián)度最高,這里采用的method是’predict_output_word’,也就是把“數(shù)據(jù)分析”單個(gè)詞當(dāng)做語境,預(yù)測在“數(shù)據(jù)分析”語境下的關(guān)聯(lián)詞。(Report the probability distribution of the center word given the context words as input to the trainedmodel.)
在這種情況下,“數(shù)據(jù)分析”與自身的關(guān)聯(lián)度不是1了,因?yàn)樗赡茉谝欢卧捓锍霈F(xiàn)兩次。
后面關(guān)聯(lián)度較高的詞匯依次是“統(tǒng)計(jì)分析”、“數(shù)據(jù)挖掘”、“BI”、“Excel”等,從其中的幾個(gè)數(shù)據(jù)工具(Growing IO、神策和友盟等)來看,廠家的品宣軟文做的還是蠻好的。
再來看看“數(shù)據(jù)挖掘”+“運(yùn)營”下的關(guān)聯(lián)詞有哪些,這次采用的method是’most_similar’,結(jié)果如下:
結(jié)果顯示,這2個(gè)詞的組合得到的關(guān)聯(lián)詞,除了“數(shù)據(jù)分析”外,還有“精細(xì)化”、“BI”、“統(tǒng)計(jì)分析”、“(用戶)畫像”、“數(shù)據(jù)模型”、“指標(biāo)體系”、“產(chǎn)品策劃”等關(guān)鍵詞,它們是數(shù)據(jù)運(yùn)營中涉及較多的概念。
下面是“pm”和“運(yùn)營”的共同關(guān)聯(lián)詞,它們能較好的說明運(yùn)營和產(chǎn)品之間的存在的某些“公共關(guān)系”。
本來,這兩個(gè)職位由于跟進(jìn)流程多,涉及面廣,需要干各種“雜活”,因而很多產(chǎn)品或運(yùn)營抱怨自己就是 “打雜”的。
近一段時(shí)間,互聯(lián)網(wǎng)界某些專家適時(shí)造出“全棧產(chǎn)品”和“全棧運(yùn)營”這兩個(gè)新概念,認(rèn)為必須在這兩個(gè)崗位上掌握更多的“斜杠”技能,熟諳相關(guān)領(lǐng)域的各個(gè)“工種”,最好精通各個(gè)流程。
要做好這兩個(gè)“非技術(shù)”的崗位,很多方面不僅要“略懂”,還要扮演“多面手”的角色,比如“技術(shù)開發(fā)”、“產(chǎn)品策劃”等,如此才能在實(shí)際工作中“獨(dú)當(dāng)一面”。
接下來,筆者從中挑選出出90個(gè)跟“數(shù)據(jù)分析”具有較高關(guān)聯(lián)度的詞匯,看哪些詞匯在該語境下中提及次數(shù)最多,以及這些詞之間的共現(xiàn)關(guān)系(Co-occurrence Relation),通過詞匯鏈接關(guān)系的多寡,找到重要性程度最高的詞匯。
從字體大小來看, “數(shù)據(jù)”、“數(shù)據(jù)分析”、“運(yùn)營”、“數(shù)據(jù)挖掘”“數(shù)據(jù)庫”、“預(yù)測”等詞鏈接的詞匯最多,它們的重要性程度在這90個(gè)詞匯中的重要性程度最高。
從顏色上來看,這90個(gè)詞根據(jù)“關(guān)系親疏(共現(xiàn)關(guān)系)”聚集為5個(gè)社群(Community),最為突出的是3個(gè)社群,分別是:
- 橙色系的“SPSS”和“SAS”,數(shù)據(jù)分析工具類;
- 紫色系的“數(shù)據(jù)”、“數(shù)據(jù)分析”、“數(shù)據(jù)挖掘”等,數(shù)據(jù)分析相關(guān)重要的概念;
- 綠色系的“營銷”、“社會(huì)化媒體”、“監(jiān)測”等,品牌營銷類。
其中,“社會(huì)化媒體”與“營銷”之間的線條最為明顯,代表它們之間有很強(qiáng)的關(guān)聯(lián)度—因?yàn)樯鐣?huì)化媒體正式營銷活動(dòng)的載體,營銷活動(dòng)必須在各類社會(huì)化媒體(微信、微博、頭條號(hào)等)實(shí)施。
6.2.4 Lexical dispersion plot(詞匯分散圖)
接下來,筆者想了解“產(chǎn)品運(yùn)營&數(shù)據(jù)分析”欄目中的某些詞在2012.05~2017.07之間的數(shù)量分布情況,以及它們出現(xiàn)的位置信息(the location of a word in the text),這時(shí)可以利用Lexicaldispersion plot(詞匯分散圖)進(jìn)行分析,它可以揭示某個(gè)詞匯在一段文本中的分布情況(Producea plot showing the distribution of the words through the text)。
筆者先將待分析的文本按時(shí)間順序進(jìn)行排列,分詞后再進(jìn)行Lexicaldispersion plot分析。因此,文本字?jǐn)?shù)的累積增長方向與時(shí)間正向推移的方向一致。圖中縱軸表示詞匯,橫軸是文本字?jǐn)?shù),是累加的;黑色豎線表示該詞匯在文本中被提及一次,對(duì)應(yīng)橫軸能看到它所處的位置信息,空白則表示無提及。
從上圖可以看出,在近4,500,000詞匯量的文本中,“運(yùn)營”、“微博”和“電商”在近6年里的提及次數(shù)極高,中間的間隙較少,貫穿始終,它們是作家談?wù)撟疃嗟娜齻€(gè)詞匯/話題。像“新媒體”、“微信公眾號(hào)”、“用戶運(yùn)營”、“社群”等詞匯,在頭兩年的提及熱度不高,但后來居上,提及量呈現(xiàn)逐漸上漲的趨勢。
而“BI”、“CRM”在近六年內(nèi)呈零星分布,提及量較少,在“產(chǎn)品運(yùn)營&數(shù)據(jù)分析”欄目中屬于冷門話題。
6.2.5 利用DTM模型(Dynamic Topic Models )分析主題下的熱點(diǎn)變遷
上面的分析是針對(duì)某個(gè)詞匯的時(shí)間動(dòng)態(tài)分析,這里筆者要分析的是某個(gè)話題隨時(shí)間的變遷情況(This implements topics that change over time)。
筆者運(yùn)用的模型是DTM模型 (Dynamic Topic Models ),它是“概率主題模型”家族中的一員,用于對(duì)語料庫中主題演變進(jìn)行建模。
它基于這樣的假設(shè):
蘊(yùn)含時(shí)間因素的主題,盡管它包含的關(guān)鍵詞會(huì)隨著時(shí)間的變化而產(chǎn)生相應(yīng)的變化,但它如構(gòu)成要素不斷更新?lián)Q代的“忒修斯之船(The Ship of Theseus)”一般,即使同一主題下的開端和末尾中的主題詞沒有一個(gè)是相同的,但還是原先的主題,保留有相同的語境。(By having a time-basedelement to topics, context is preserved while key-words may change.)
首先,從“產(chǎn)品運(yùn)營&數(shù)據(jù)分析”中“解析”出如下6個(gè)子話題,它們是“運(yùn)營”、“商業(yè)模式”、“流量運(yùn)營&數(shù)據(jù)分析”、“品牌營銷&數(shù)據(jù)分析”、“電商運(yùn)營”和“內(nèi)容運(yùn)營”,如下表所示:
筆者對(duì)Topic2,也就是“流量運(yùn)營&數(shù)據(jù)分析”在2012.05~2017.07間的話題變遷情況感興趣,于是將這6年間出現(xiàn)的主題詞重新整合,制成下面的熱力圖:
上圖中縱軸是主題詞,橫軸是年份,顏色由淺入深代表數(shù)值的由小到大。從中可以明顯的看出,“流量運(yùn)營&數(shù)據(jù)分析”子話題下的“數(shù)據(jù)”、“數(shù)據(jù)分析”、“運(yùn)營”和“業(yè)務(wù)”在該話題中始終處于“核心地位”,保持較高且穩(wěn)定的word_prob值。
而“渠道”、“游戲”、“互金”在近3年的word_prob值有了較大的提升,說明社區(qū)的作者在近期比較關(guān)注這3個(gè)主題詞所代表的領(lǐng)域,間接表明它們?cè)诨ヂ?lián)網(wǎng)中的話題熱度呈現(xiàn)上升趨勢。
6.2.6 利用ATM模型(Author-TopicModel)分析作家寫作主題分布
在這個(gè)版塊,筆者想了解“人人都是產(chǎn)品經(jīng)理”上作家的寫作主題,分析某些牛X作家喜歡寫哪方面的文章(比如“產(chǎn)品運(yùn)營”、“數(shù)據(jù)分析”、“新媒體運(yùn)營”等)寫作了啥,主題相似度的作者有哪些。
為此,筆者采用了ATM模型進(jìn)行分析,注意,這不是自動(dòng)取款機(jī)的縮寫,而是author-topic model:
ATM模型(author-topic model)也是“概率主題模型”家族的一員,是LDA主題模型(Latent Dirichlet Allocation )的拓展,它能對(duì)某個(gè)語料庫中作者的寫作主題進(jìn)行分析,找出某個(gè)作家的寫作主題傾向,以及找到具有同樣寫作傾向的作家,它是一種新穎的主題探索方式。
首先,先從文本中“析出”若干主題,經(jīng)過探索,10個(gè)主題的區(qū)分度正好。根據(jù)各個(gè)主題下的主題詞特征,筆者將這10個(gè)主題歸納為 :“行業(yè)動(dòng)態(tài)”、“電商運(yùn)營”、“商業(yè)模式”、“產(chǎn)品運(yùn)營”、“社交媒體”、“互金產(chǎn)品”、“數(shù)據(jù)運(yùn)營”、“用戶研究”、“產(chǎn)品設(shè)計(jì)”和“新媒體運(yùn)營”。
同時(shí),在數(shù)據(jù)處理的過程中,模型建立了作者(author)、主題(topic)及文檔(document)之間的映射關(guān)聯(lián)關(guān)系,以dict的形式保存數(shù)據(jù)。
模型訓(xùn)練完畢,先看看筆者自己的寫作主題分布吧。值得注意的是,這里的文檔數(shù)據(jù)經(jīng)過甄選,并不是全部的文檔數(shù)據(jù),因此數(shù)量會(huì)少于網(wǎng)站上所看到的文章數(shù)。
上面的“Docs”中的元素是文章對(duì)應(yīng)的文檔ID編號(hào)按照時(shí)間順序排列的,“Topics”中的元素有兩列,一列代表主題,一列代表主題的權(quán)重大小。
很明顯,筆者的寫作主題主要集中在“數(shù)據(jù)運(yùn)營”、“新媒體運(yùn)營”和“用戶研究”這3個(gè)主題上,有些直接從標(biāo)題即可看出,有些“潛藏”在文章的正文論述之中。
接下來,根據(jù)上述作者的寫作主題分布,筆者找出與他們寫作相似度最高的作家,為保持準(zhǔn)確度,筆者有一個(gè)限制條件—發(fā)文數(shù)量不小于3篇。
結(jié)果以表格的形式展示,主要的維度有“作者(Author)”、“相似度得分(Score)”和“文檔數(shù)量(Size)”。
6.2.7 LSI相似標(biāo)題索引
最后,筆者想通過文章標(biāo)題之間的語義相似關(guān)系來找到相同主題的文章,而這種語義相關(guān)性不僅僅是字面上的(不包含相同的詞匯,但其中的詞含義相近)。利過LSI(Latent Semantic Index,潛在語義索引)就可以做到這一點(diǎn)。
通過“詞袋模型(bag-of-words)”將語句映射到特定的Vector Space Model (VSM)中,比較語句向量化后的余弦夾角值(介于0-1之間),值越大,就代表相似度越高。詳細(xì)的原理推導(dǎo),小伙伴們可以自行Google腦補(bǔ)。
從標(biāo)題中找出主題相似的文章,檢索感興趣的內(nèi)容,不僅僅是通過關(guān)鍵詞檢索,潛在語義分析。
在這里,筆者先后對(duì)如下三篇文章進(jìn)行LSI語義索引:
- 當(dāng)數(shù)據(jù)分析遭遇心理動(dòng)力學(xué):用戶深層次的情感需求浮出水面(萬字長文,附實(shí)例分析)
- 萬字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運(yùn)營領(lǐng)域的“增長黑客”
- 運(yùn)營實(shí)操 | 如何用聚類分析進(jìn)行企業(yè)公眾號(hào)的內(nèi)容優(yōu)化
從索引結(jié)果可以看到,搜尋到的語句和原語句之間即使沒有包含相同的詞匯,但語義上是相關(guān)的,分別從屬于4“用戶研究”、“運(yùn)營實(shí)操根據(jù)”和“內(nèi)容運(yùn)營”這三個(gè)話題。
結(jié)語
拿分析實(shí)踐為例,在“數(shù)據(jù)分析”欄目中,采用上述分析手段,發(fā)現(xiàn)相關(guān)文章大都是理論型和設(shè)想型的論述,缺少真實(shí)的數(shù)據(jù)分析實(shí)例支撐,真正投入到實(shí)際工作中的效果也未可知。
同時(shí),很多是常規(guī)的、基礎(chǔ)性的數(shù)值型分析,介紹的工具則是Excel、SQL、SPSS,難以滿足當(dāng)今大數(shù)據(jù)背景下的數(shù)據(jù)分析實(shí)踐。
在數(shù)據(jù)分析工具和方法的使用上盡量做到多樣化,實(shí)例分析不為得出具體的結(jié)論,重在開拓讀者的數(shù)據(jù)分析思路,授人以漁。
最后,透過上面的外部數(shù)據(jù)分析實(shí)例,想闡明如下3點(diǎn):
- 要厘清不同數(shù)據(jù)類型的特征,如本例中的數(shù)值型數(shù)據(jù)、文本型數(shù)據(jù)以及從中抽取的關(guān)系型數(shù)據(jù),對(duì)其采用合適的分析思路和挖掘方法;
- 數(shù)據(jù)分析的方法要盡可能的多樣化,如本例中采用了多種分析方法和模型,如交叉分析、高頻詞分析、關(guān)鍵信息抽取、詞匯分散圖分析和ATM模型等;
- 分析層次上,以業(yè)務(wù)邏輯為軸線,由淺入深,由簡入繁,由表及里,既有描述型的統(tǒng)計(jì)分析,也有診斷型的數(shù)據(jù)挖掘,還有基于演變規(guī)律(如動(dòng)態(tài)主題模型)的預(yù)測型分析。
文:蘇格蘭折耳喵@運(yùn)營喵是怎樣煉成的
相關(guān)文章推薦:
《在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,助力產(chǎn)品走向成功的三個(gè)層次》
《侯天華:數(shù)據(jù)分析架構(gòu)及方法》
《用數(shù)據(jù)驅(qū)動(dòng)決策,這才是達(dá)成KPI提升銷量的有效途徑》
更多精彩,關(guān)注:增長黑客(GrowthHK.cn)
增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營銷目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時(shí)常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來的有效增長…
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.allfloridahomeinspectors.com/cgo/8937.html