界面新聞?dòng)浾?| 肖芳
界面新聞編輯 | 文姝琪
多次因為熱點(diǎn)事件的處理引發(fā)爭議之后,抖音近日首次公開(kāi)了算法原理。
據界面新聞了解,抖音安全與信任中心網(wǎng)站已上線(xiàn)試運營(yíng),正向用戶(hù)、創(chuàng )作者、社會(huì )各界征集意見(jiàn)。該網(wǎng)站公開(kāi)了抖音算法推薦系統的原理、用戶(hù)行為背后的算法推薦邏輯以及平臺人工治理識別各類(lèi)風(fēng)險等內容。
在此前舉辦的2025中國網(wǎng)絡(luò )媒體論壇上,抖音總裁韓尚佑解釋了公開(kāi)算法推薦系統原理的原因。他表示,很多人對推薦算法技術(shù)存在誤解,認為算法是給內容打上對應標簽,再給用戶(hù)打上對應的屬性,最后通過(guò)數據運算,把對應標簽的內容推薦給有對應屬性的用戶(hù)。實(shí)際上,抖音的推薦系統已幾乎不依賴(lài)對內容或者用戶(hù)打標簽,而是通過(guò)一系列神經(jīng)網(wǎng)絡(luò )計算,直接預估每一個(gè)用戶(hù)對每一個(gè)內容的目標行為,并挑選出概率最大的一部分內容,推薦給用戶(hù)。
抖音安全與信任中心網(wǎng)站也著(zhù)重介紹了這部分內容:當用戶(hù)打開(kāi)抖音時(shí),抖音的推薦算法會(huì )給候選視頻打分,并把得分最高的視頻推送給用戶(hù)。用戶(hù)在觀(guān)看時(shí)可以對看到的視頻做出各種互動(dòng),這些互動(dòng)體現了用戶(hù)對這個(gè)視頻的感興趣程度。比如,“看完了”就是一次反饋動(dòng)作,“點(diǎn)贊”也是一次反饋動(dòng)作。用戶(hù)對觀(guān)看的視頻的每一次反饋,都會(huì )對內容流量產(chǎn)生影響。
抖音算法的核心邏輯就是通過(guò)預測用戶(hù)行為概率和用戶(hù)不同行為的價(jià)值權重來(lái)確定視頻推薦優(yōu)先級。
雖然推薦算法已并非新生事物,圍繞它的爭議卻從未間斷。這些爭議包括推薦算法帶來(lái)標題黨、低質(zhì)量、甚至虛假內容以及信息繭房的問(wèn)題。但算法也有積極的一面,其提升了信息分發(fā)效率、促進(jìn)信息流動(dòng),不能因為存在問(wèn)題就被一棒子打死。
今年以來(lái),抖音和今日頭條陸續釋放算法和平臺治理的相關(guān)信息,試圖通過(guò)增加透明性來(lái)破解算法引發(fā)的種種爭議。
首次解釋抖音算法不追求平臺短期數據
從抖音公開(kāi)的算法原理和算法特點(diǎn)來(lái)看,抖音的推薦算法與國內外大部分內容推薦平臺相似,包含召回、過(guò)濾、排序等環(huán)節,重點(diǎn)是學(xué)習用戶(hù)行為。
抖音基于用戶(hù)行為的推薦方法包含多種技術(shù)模型,如協(xié)同過(guò)濾、雙塔召回、Wide&Deep模型等。算法可以在完全“不理解內容”的情況下,找到興趣相似的用戶(hù),把其他人感興趣的內容推薦給該用戶(hù)。
其中,協(xié)同過(guò)濾推薦算法是最經(jīng)典的推薦算法。簡(jiǎn)單來(lái)說(shuō),協(xié)同過(guò)濾就是協(xié)同用戶(hù)的行為,一起對海量的信息進(jìn)行過(guò)濾,從中更加快速篩選出用戶(hù)可能會(huì )產(chǎn)生行為(比如完播、點(diǎn)贊)的內容。比如,用戶(hù) A 觀(guān)看了內容 X、Y、Z,用戶(hù) B 觀(guān)看了內容 X、Z、W,這意味著(zhù)X 和 Z 之間就有較高的相似度,系統會(huì )根據用戶(hù)對已觀(guān)看或已評分內容的偏好,為用戶(hù)推薦與這些內容相似的其他內容。其原理就是,找到和你興趣相似的用戶(hù),把他們感興趣的內容也推薦給你。
Wide&Deep模型是抖音推薦算法主力模型之一。Wide部分的主要作用是讓模型具有較強的“記憶能力”,模型可直接學(xué)習并利用歷史數據中物品或者特征的“共現頻率”;Deep部分的主要作用是讓模型具有“泛化能力”,能夠發(fā)掘稀疏甚至從未出現過(guò)的稀有特征與最終標簽相關(guān)性。這個(gè)模型能夠解決協(xié)同過(guò)濾算法推薦結果頭部效應比較明顯的問(wèn)題。
算法能學(xué)習、預估用戶(hù)行為,但因其無(wú)法理解內容語(yǔ)義,對內容的理解存在不足,可能導致違法違規、不良內容被推薦傳播。因此,算法在真實(shí)使用場(chǎng)景中,必須由平臺治理對其進(jìn)行約束和規范。抖音平臺治理體系包括異常感知、標準定義、機器識別、人工研判、風(fēng)險處置等過(guò)程。其中,人工主要負責“深度”,確保專(zhuān)業(yè)、敏感或疑難等問(wèn)題盡可能精準研判。
在很多用戶(hù)的認知中,算法會(huì )推薦一些博眼球甚至擦邊的內容來(lái)提升用戶(hù)使用時(shí)長(cháng)和用戶(hù)留存率。在4月15日舉辦的抖音開(kāi)放日上,抖音方面首次對這個(gè)問(wèn)題進(jìn)行了解釋。
抖音算法工程師劉暢表示,抖音更關(guān)注用戶(hù)長(cháng)期價(jià)值,而非追求平臺的短期數據。為此,抖音算法考慮了眾多目標,如完播、評論、點(diǎn)贊、對作者長(cháng)期消費、分享、跟拍等,力圖計算出更符合用戶(hù)長(cháng)期價(jià)值的目標。
他同時(shí)還對引發(fā)爭議較多的信息繭房問(wèn)題進(jìn)行了回應:為引導算法打破信息繭房,抖音算法在多目標建模體系下,設置了專(zhuān)門(mén)的探索維度。
一是對用戶(hù)在平臺上已經(jīng)表現出的興趣,盡可能推薦更多樣的內容,通過(guò)多樣性打散、多興趣召回、扶持小眾(長(cháng)尾)興趣等方法控制相似內容出現的頻次。二是幫助用戶(hù)探索更多新興趣,采用隨機探索、基于用戶(hù)社交關(guān)系拓展興趣、搜索推薦聯(lián)動(dòng)、“不感興趣”不再展現等多種方式,讓用戶(hù)的主動(dòng)行為影響推薦系統,使推薦更加個(gè)性化和多樣化。
從抖音對算法原理的一系列解釋來(lái)看,其想強調的是算法的核心是以數學(xué)計算學(xué)習人類(lèi)行為,它將用戶(hù)對內容的具體偏好抽象為高維空間中的數學(xué)映射關(guān)系,而算法本身是沒(méi)有偏好的。
這種解釋并沒(méi)有錯,但算法帶來(lái)的爭議并不是簡(jiǎn)單的數學(xué)問(wèn)題,而是夾雜著(zhù)諸多社會(huì )熱點(diǎn)事件本身引發(fā)的爭議以及公眾情緒,這才是消除公眾誤解的關(guān)鍵和難點(diǎn)。
打破算法爭議,抖音仍需提升熱點(diǎn)事件處置的透明性
回溯去年以來(lái)抖音和今日頭條算法引發(fā)的爭議,每一次都和具體的熱點(diǎn)事件相關(guān)。
比如,在郭有才等網(wǎng)紅走紅過(guò)程中,一些網(wǎng)友的疑問(wèn)在于,網(wǎng)紅的走紅是否由平臺算法強推出來(lái)的。在一些熱點(diǎn)新聞中,公眾關(guān)心的是算法推薦是否加劇了謠言的傳播、讓謠言處理的難度提升。
在和界面新聞記者談及抖音算法引發(fā)的爭議時(shí),多位抖音用戶(hù)表示,相比于算法的數學(xué)原理,他們更關(guān)心的是平臺對熱點(diǎn)事件處置的透明性。
實(shí)際上,平臺對熱點(diǎn)事件處置的不透明加劇了公眾對算法的誤解。比如,在吳柳芳事件中,很多用戶(hù)認為是平臺通過(guò)算法推薦吳柳芳的擦邊內容,帶動(dòng)其走紅,進(jìn)而質(zhì)疑平臺算法故意推薦擦邊內容。而真實(shí)的情況是,在成為社會(huì )熱點(diǎn)事件之前,吳柳芳在抖音上的流量和粉絲量一直較少,平臺也并未對其進(jìn)行推薦。其流量的增長(cháng)是在該熱點(diǎn)引發(fā)社會(huì )關(guān)注后,用戶(hù)主動(dòng)搜索導致的。
去年12月以來(lái),抖音集團副總裁李亮開(kāi)始在微博上活躍,多次解釋算法的相關(guān)問(wèn)題,并對吳柳芳事件、抖音用戶(hù)把錢(qián)讀成米等熱點(diǎn)事件進(jìn)行了回應,增加與公眾的溝通。
但這還遠遠不夠。比如在張蘭封號事件中,雖然李亮在微博上解釋封號的原因是當事人推薦不實(shí)信息進(jìn)行商業(yè)炒作,但網(wǎng)友們仍然對判罰的尺度存在疑問(wèn),爭議依然發(fā)酵數日。
針對公眾關(guān)心且爭議比較大的問(wèn)題,抖音也在抖音安全與信任中心網(wǎng)站上進(jìn)行了解釋。目前,網(wǎng)站解釋的問(wèn)題包括“抖音為何突出收藏按鈕”“App會(huì )竊聽(tīng)用戶(hù)談話(huà)嗎”“網(wǎng)紅是平臺強推出來(lái)的嗎”等。據界面新聞了解,抖音后續還將在該網(wǎng)站解釋更多爭議性問(wèn)題。
一位抖音內部人士告訴界面新聞,抖音內部收集到了很多反饋信息,最終決定上線(xiàn)一個(gè)網(wǎng)站來(lái)和外界溝通,把已經(jīng)做的工作向外界傳遞出去。