- 相關推薦
360搜索上線“后羿算法”保護原創
引導語:近日,360搜索發布站長公告,宣布上線后羿算法,對低劣的采集站點加以控制,對原創和稀缺性網頁進行保護和提權,與站長共同建設良好的互聯網生態環境。下面我們一起來看一下具體內容。
互聯網冗余信息已達百億 嚴重挫傷原創積極性
“原創+轉載+信息分類聚合”已經成為互聯網新聞網站的最常見內容產出模式,比如新浪、搜狐、網易這些傳統門戶,和今日頭條等移動APP。原創內容保證了網站的獨特性,而轉載內容保證網站信息的足夠全面,大量的分類聚合工作,讓互聯網信息條理清楚類目分明。
網站之間常規的轉載,要求轉載網站在醒目位置列出文章出處和原創頁面入口,用戶可以直接跳轉到原創頁面。但采集站,往往隱瞞或者篡改文章出處,且不分條理的盲目抓取互聯網信息。為了獲得流量收益,采集站會在頁面中夾雜大量的廣告和彈窗信息,不僅浪費了搜索引擎的收錄資源,侵害了原創作者的版權,用戶搜索體驗也大打折扣。
據估計,用戶喜歡的高質量原創內容,互聯網每天會誕生數十萬個頁面,與之成鮮明對比的是,采集網站帶來互聯網上的冗余信息則高達上百億個頁面,與冗余信息相比,原創內容可謂九牛一毛。
采集站的內容分布領域非常廣泛,常見的領域有普通問答類,商品購物類,娛樂新聞類,企業商情類,成人色情類,賭博詐騙類,私服外掛類,違法違禁類等,涵蓋了互聯網內容的各大領域。與此同時,移動互聯網的采集和垃圾網頁,雖然其數量級要比PC端要低,但在行為模式方面與PC端區別不大。
“后羿算法”倡導原創,控制惡意采集
12月26日,360搜索發布站長公告,宣布上線抑制采集保護原創的高級算法“悟空算法”,該算法將對低劣的采集站點加以控制,對原創和稀缺性網頁進行保護和提權。360搜索表示,愿與無數專心做好站的站長共同建設良好的互聯網生態環境
“后羿算法”上線后,對于內容豐富的優質網頁(如原創、稀缺資源、精心編輯的內容頁等),會增加其在用戶面前展現的機會;對于濫用采集手段的行為(如整站大規模采集,頁面內容拼湊、含有大量廣告干擾用戶閱讀、惡劣彈窗跳轉、大量堆砌無關熱詞、站內搜索結果頁等),會顯著降低其展現機會和網頁收錄量;對于新聞網站正常的轉載行為,采取了合理引導和規范控制,而不是一棒子打死。
據悉,后羿算法采取了業界領先的大規模并行機器學習算法,通過億萬維度特征的刻畫,結合對搜索領域問題的不斷探索和實踐,對海量文本數據進行主題和內容傾向性分析,對用戶喜好程度進行全面建模和應用,能夠對原創信息進行快速而精準的鑒別,能夠對采集行為和垃圾網頁進行定向的約束和管控。
360搜索一直以來都掌握著采集類站點的完整索引量和歷史行為模式,并對之進行長期的密切的關注和監控,一旦發現有惡劣作弊傾向就會進行嚴肅處理,用“后羿“命名該算法,就是為了秉承了英雄后羿的“去除冗余,除暴安良”精神。
原創收錄異議 可求助站長平臺
公告中,360搜索表示將矢志不移地與無數專心做好站的站長共同建設良好的互聯網生態環境。360搜索建議那些存有惡意采集行為的站長,能夠從長遠發展考慮,積極完善網站建設,提供更多時效性高、內容豐富的原創內容,引擎將隨著網站完善,不斷提升收錄量。
360搜索同時也歡迎原創網頁的作者,通過360站長平臺主動提報收錄缺失的信息。對于原創網站和作者,如發現自己的內容被惡意采集,對采集判定結果及收錄狀況存在異議時,360搜索建議通過站長平臺的反饋中心及360搜索論壇版主進行反饋:
●站長平臺反饋中心:http://info.so.com/feedback.html?product=zhanzhang
●360搜索論壇: http://bbs.#/forum-137-1.html
●站長平臺注冊地址:http://zhanzhang.so.com/
●站長平臺使用說明請見:http://www.so.com/help/help_3_3.html
【360搜索上線“后羿算法”保護原創】相關文章:
網賺新手尋找上線注意要點02-28
創業融資的估值算法08-04
原創服裝創業計劃書11-21
中國鐵路95306網站正式上線11-20
奇虎360 創業故事01-15
新浪微博僅5%用戶原創?03-28
城鎮土地使用稅的算法02-25
海外首站失利 百度退出日本搜索市場03-28