AI 前線導讀: 前幾日,人民日報在推特和 Facebook 上發布歡迎谷歌回歸的消息,并強調前提是要遵守中(zhōng)國的法律。耐人尋味的是,這兩個平台上的消息沒多久就全部删除。
根據外(wài)媒 The Intercept 的消息,谷歌搜索極有可能是通過與中(zhōng)國企業“合作”的方式回歸中(zhōng)國。據知(zhī)情人士透露,谷歌内部已經完成了一(yī)個可以通過中(zhōng)國政府審查的“閹割版”搜索引擎,内部項目代号“Dragonfly”。
雖然不知(zhī)道這次谷歌回歸是否能成真,但在随之而來的谷歌百度之争中(zhōng),大(dà)部分(fēn)網友已經出現了對谷歌“一(yī)邊倒”的支持。誠然,百度一(yī)直以來故事與“事故”頗多而飽受批評,但作爲很多人心中(zhōng)的“白(bái)月光”,谷歌其實也做過不少糟心事。
01
都在罵百度,那是你們忘了谷歌的惡
如果你是網絡老鳥,相信你還記得谷歌退出中(zhōng)國前給中(zhōng)國網民留下(xià)深刻不良印象的那件事兒。
簡單回顧一(yī)下(xià):2010 年初,有用戶在谷歌自定義界面上的“搜索熱詞榜”上,看到了排名**的熱詞竟然是“Chinese people eating babies”,意爲:中(zhōng)國人吃嬰兒。
現在大(dà)家可能會會心一(yī)笑:嗨,不就是個梗嗎(ma)。但是在當時,這件事可是引發了軒然大(dà)波。隻要搜索“中(zhōng)國人”就會出現“吃嬰兒”的頭條消息,仿佛是個中(zhōng)國人就會吃嬰兒一(yī)樣,簡直可以認爲是惡意抹黑了。美籍華人維權社團從 2009 年開(kāi)始就這一(yī)事件投訴谷歌,一(yī)直到 2016 年,谷歌方面才回複律師,詞條得以删除。
還記得谷歌曾經的口号是“不作惡”,這樣看來,種族歧視似乎不在谷歌的“作惡辭典”之中(zhōng)?
百度在幾年前因“魏則西事件”受到了網友的強烈譴責與抵制,還因此牽出一(yī)堆違規經營的“莆田系”醫院,之後百度承諾要對搜索引擎進行整改,但仍然有眼尖的網友發現搜索的結果中(zhōng)“偶爾”會冒出一(yī)些莫名其妙的廣告。
有人會說百度是自讨苦吃,觸碰了危險的底線:醫療,哪知(zhī)道谷歌又(yòu)何嘗不是在醫藥行業賺到過盆滿缽滿。
早在 2003 年,谷歌就因爲網絡藥品廣告問題接到美國國會三個不同委員(yuán)會的調查質詢。2004 年 7 月,就在谷歌上市前一(yī)個月,由于美國參議員(yuán)計劃通過兩項監管網絡藥店(diàn)的法案,谷歌負責全球網絡廣告的副總裁謝莉爾·桑德伯格 (SherylSandberg) 還趕赴首都華盛頓就這一(yī)問題作證。
但随後發生(shēng)的系列負面事件顯示,盡管谷歌高層早就意識 到非法藥品廣告的問題,但這家全球**搜索引擎依然會不時卷入負面消息。
2009 年爆出的大(dà)衛·惠特克 (David Whitaker) 事件則讓谷歌在這一(yī)問題上首次形象掃地,也讓谷歌真正意識到虛假網絡廣告的危害以及搜索引擎對公衆的責任感。同樣在那一(yī)年,百度也被曝出過虛假醫療廣告事件。
AI 前線注:2006 年,因爲金融欺詐等罪名數次入獄的惠特克從美國偷渡到墨西哥,做起了開(kāi)網店(diàn)賣假藥的生(shēng)意。惠特克把純淨水貼上類固醇的标簽,通過谷歌 AdWords 打廣告,以每瓶 1000 美元的價格從墨西哥賣給美國顧客。2008 年,惠特克被遣送回美國。他對美國司法部供述稱谷歌的客服在明知(zhī)他的“藥品”不符合美國法律的情況下(xià),主動指導他避開(kāi)谷歌的審查機制,在網上投放(fàng)假藥廣告。
2011 年 8 月,就在谷歌宣布收購摩托羅拉移動的那個月,谷歌與美國司法部就非法網絡藥店(diàn)廣告一(yī)事達成和解,谷歌爲此支付了當時企業高額的企業罰金——5 億美元。
經曆過一(yī)些事情,才能意識到什麽是正确的路線,個人成長如此,對一(yī)家公司來說更是這樣。兩家搜索引擎在各種各樣的風浪中(zhōng)不斷前進着,雖然偶有互相超越,但總體(tǐ)态勢是向上的。可是,對于用戶來說,這些負面事件深深地刻進了他們的心裏,這樣的搜索引擎,有些人表示再也不敢相信了。
02
搜索技術哪家好?看**怎麽說
百度與谷歌都曾作過“惡”,人們似乎很容易用這些事情作爲評判的标杆,按你胃(anyway),不管你想從什麽角度來評價這兩家公司的好壞,那是你的自由,我(wǒ)(wǒ)們的任務是從技術層面上來告訴各位讀者如何來評判他們的區别。
2006 年,有人做過這樣的比較。
上圖是 2007 年有人做過的百度和谷歌用戶眼球追蹤的對比圖。簡單來說,圖上綠色的點就是用戶眼球浏覽的記錄,從上圖能夠看出:百度用戶雖然很高的幾率下(xià)能夠在**條結果就得到自己想要的答案,但是浏覽整個頁面的概率遠高于谷歌。
十年前的比較,似乎谷歌在搜索結果的精準度上略勝百度一(yī)籌,但是十年過去(qù)了,事情還是這樣的嗎(ma)?
近幾日,一(yī)組百度和谷歌的搜索結果對比圖又(yòu)火(huǒ)了。
同樣的詞彙,在谷歌搜圖上找到的就是雪白(bái)的場景或者顔色,而百度出現的确實各種不可描述(已打碼),雖然經過 AI 前線編輯的實測發現百度并沒有出現上述情況,不知(zhī)道是因爲“求生(shēng)欲”還是其他原因。
但是,僅僅因爲同一(yī)詞語搜出不同結果就判定搜索引擎的好壞未免太過武斷。AI 前線因此采訪到了一(yī)些技術**,請他們來幫忙解答一(yī)下(xià):怎樣評價搜索引擎的好壞?
微博計算機大(dà) V龍星镖局 告訴我(wǒ)(wǒ)們:從技術角度來講,有一(yī)系列專業的做法去(qù)比較兩個不同搜索産品的各方面指标,如召回率,準确率,多樣性,停留時間等等,業界也有一(yī)些第三方機構、學術研究機構會做專業的評測,可以參考。
但要注意的是,搜索結果質量的評測是個值得好好讨論的問題:一(yī)方面抽樣的 query 是否足夠多,代表了大(dà)部分(fēn)用戶的需求;另一(yī)方面,相關性并不完全是一(yī)個可以說得清楚的标準,而且可能部分(fēn)是因人而異的标準。如果有機構想從事評測這方面的工(gōng)作,個人覺得利用“衆包”方式來解決以上兩個問題是值得嘗試的。
對于谷歌和百度兩家搜索引擎的排序系統,他認爲從公開(kāi)可見的技術方案來看差異不大(dà),但也不排除有些核心機密沒有公開(kāi)出來。但他認爲 技術方案上的大(dà)差異不足以造成兩家明顯的不同,更多是産品、運營甚至公司文化上的差異。
他進而補充道:“另外(wài)我(wǒ)(wǒ)特别想說的一(yī)點是,用戶使用行爲對搜索排序影響非常大(dà),技術方案的先進性更多體(tǐ)現在猜用戶的意圖,拟合用戶的習慣。
據我(wǒ)(wǒ)了解,在中(zhōng)國,百度和谷歌的核心用戶是有天然差異的,這就可能造成即使同樣的技術方案,排出來的東西也是有差異的。”
而接受 AI 前線采訪的另一(yī)位來自達觀數據的**則表示:搜索引擎受語言種類的影響很大(dà),谷歌作爲覆蓋全球各類語種的搜索引擎,在索引庫的大(dà)小(xiǎo)方面有天然的優勢,因此在搜索英文或其它非中(zhōng)文内容時效果比百度明顯領先。在中(zhōng)文搜索領域,百度和谷歌的系統對文字語義理解的方式也各不相同,因此結果也一(yī)定存在差異。
另外(wài),達觀技術**認爲,需要特别指出的是:搜索引擎給出的結果,是由兩部分(fēn)合并組成的,一(yī)部分(fēn)是從網頁庫中(zhōng)搜出的自然結果,另一(yī)部分(fēn)是從廣告庫中(zhōng)匹配出的廣告。
搜索引擎會把這兩部分(fēn)的結果合并在一(yī)起後終呈現給用戶。搜索引擎的主要利潤來自後者,因此廣告匹配技術的取舍非常重要,需要在保護好用戶體(tǐ)驗和赢得商(shāng)業收入方面盡可能做好平衡。百度之前引起很大(dà)争議的地方主要也是在這裏。理想的方式是通過更精準優質的廣告匹配技術,讓用戶真正認可搜出的結果,幫客戶找到所需的信息。
有不少人認爲:在中(zhōng)國環境和中(zhōng)文條件下(xià),中(zhōng)國人研發的本土化搜索引擎或許更好用。對于這個觀點,達觀數據的**認爲:中(zhōng)文自然語言理解有很多獨特的地方,中(zhōng)國人當然應該更懂怎樣讓計算機系統更好地解讀中(zhōng)文背後的含義,也更理解中(zhōng)文網民的搜索意圖。另外(wài)中(zhōng)國網民巨大(dà)的用量和積累的海量行爲數據對訓練出更優質的搜索系統也大(dà)有裨益。
他補充道:“雖然我(wǒ)(wǒ)們歡迎國際巨頭積極參與市場競争,促進行業健康發展,但也同樣期待核心技術能掌握在中(zhōng)國人手上。”
後,我(wǒ)(wǒ)們再回過頭來聊聊搜索結果的問題。
上文中(zhōng),我(wǒ)(wǒ)們提到:不同的用戶搜索出來的結果可能不同。對此,達觀數據的**告訴我(wǒ)(wǒ)們:根據用戶的過往浏覽行爲實現“千人千面”的個性化結果是幾乎所有搜索引擎都在使用的技術。
龍星镖局則進一(yī)步告訴我(wǒ)(wǒ)們:目前 各家搜索引擎都不同程度地考慮了個性化因素,搜出來的結果是受非個性化和個性化兩方面共同作用的。在确定性 query 上,個性化策略起的作用有限。但不确定性 query 上,個性化策略可能造成肉眼可見的差異。但無論如何,做不做個性化,個性化因素影響多少都不關鍵,關鍵的還是爲用戶服務,找出來用戶更想要的内容。
到此我(wǒ)(wǒ)們簡單總結一(yī)下(xià)上述大(dà) V **們的發言:
由于搜索引擎的個性化技術,導緻了搜索結果的差異;
谷歌和百度各有各的技術專長,百度在中(zhōng)文搜索更勝一(yī)籌,谷歌則強在英文結果;
如何評價搜索引擎的好壞是很複雜(zá)的問題,僅憑搜索結果來下(xià)結論不是很嚴謹。
03
就算回來,谷歌還會是老大(dà)嗎(ma)?
8 月 6 日,人民日報在推特、Facebook 等海外(wài)社交平台上發文,歡迎谷歌回歸中(zhōng)國,但是前提是要遵守中(zhōng)國的法律。随後還附上了一(yī)篇名爲《穩定是中(zhōng)國互聯網開(kāi)放(fàng)的前提》的文章鏈接。
文章提到:谷歌當初離(lí)開(kāi)中(zhōng)國的選擇是一(yī)個失誤,這八年來中(zhōng)國互聯網的發展十分(fēn)迅猛,我(wǒ)(wǒ)們十分(fēn)歡迎谷歌回歸,但守法是前提。
正如這篇文章提到的,在谷歌離(lí)開(kāi)中(zhōng)國大(dà)陸的這 8 年時間裏,除了互聯網,谷歌的老對手百度也在不斷發展,李彥宏對此事也在朋友圈中(zhōng)進行了回複:2010 年,百度在國内的市場份額已占到 70%。
而現在,2018 年,百度所占的市場份額應該更高了。
從搜索引擎的使用人群來看,熱衷于使用谷歌的大(dà)都是技術從業者,或者是學生(shēng)群體(tǐ)。這些人會使用一(yī)些“科學上網”工(gōng)具,同時由于谷歌搜索結果裏英文資(zī)料比較豐富,所以這一(yī)群體(tǐ)偏好谷歌更多。
圖片内容來自微博
通過對一(yī)些技術人的采訪,我(wǒ)(wǒ)們總結出了技術人對百度和谷歌的三種态度:
1 兩款搜索引擎當年都用過,百度當時确實對中(zhōng)文搜索體(tǐ)驗比谷歌好很多,一(yī)個“你可能還要找” 功能就已經強出太多了,這麽多年過去(qù)了,百度的優勢隻會更大(dà)。
2 不用非此即彼,兩個一(yī)起用沒有一(yī)點毛病,事實上現在我(wǒ)(wǒ)也是同時用百度/必應/谷歌。現在喊谷歌喊得兇的未必将來是真用谷歌的。
3 對于學術狗來說,谷歌回歸是大(dà)好事。
其實,對于國内的非研究或學術的一(yī)般用戶來說,百度其實也是夠用的,查一(yī)些中(zhōng)文資(zī)料,百度完全沒有問題。而這一(yī)類人群占到了百度用戶的大(dà)多數,他們當中(zhōng)有的或許完全沒用過甚至不知(zhī)道其它搜索引擎的存在,這一(yī)類群體(tǐ)也給百度帶來了不小(xiǎo)的市場。
但是,對于百度來說,谷歌這個對手的武器可不止搜索引擎這一(yī)項。
谷歌翻譯曾經被人诟病爲“靈魂翻譯”,結果總是驢唇不對馬嘴,但是加入神經網絡的谷歌翻譯現在可謂是智能翻譯界的标杆産品,短篇文章翻譯幾乎不用人工(gōng)校對。
此外(wài),谷歌知(zhī)名的深度學習框架 TensorFlow 已經占有了巨大(dà)的市場份額,百度出品的 paddlepaddle 想要趕超似乎有些困難。
與此同時,李飛飛、Jeff Dean 頻(pín)繁來到中(zhōng)國,在深圳、北(běi)京等地開(kāi)展宣講會,與清華等知(zhī)名高校的學生(shēng)接觸,似乎也在不斷放(fàng)出信号,人才資(zī)源的争奪對百度來說也是一(yī)份壓力。
不過,對于百度來說,這份壓力或許是一(yī)件好事兒,大(dà) V 龍星镖局認爲:首先肯定是歡迎谷歌回歸中(zhōng)國,服務中(zhōng)國用戶。不過,目前我(wǒ)(wǒ)隻看到要回歸的消息,但具體(tǐ)什麽時候回歸,哪些産品回歸,以什麽樣的方式回歸都還沒有定論。但我(wǒ)(wǒ)始終認爲抛開(kāi)政治因素,谷歌遲早會重新撿起中(zhōng)國市場的,因爲這裏的商(shāng)業利益太大(dà)了。
能否威脅到百度的地位不太好說,這個關鍵點要看能多大(dà)程度上奪得中(zhōng)國用戶的芳心。如果隻是回歸中(zhōng)文搜索的話(huà),個人認爲比較難。百度的強大(dà)不止在于搜索,更在于圍繞搜索建立的周邊生(shēng)态,如貼吧、知(zhī)道、地圖、音樂、視頻(pín)等都是很好的護城河。
達觀數據的**也表示:從用戶的角度來看,一(yī)個存在競争的市場是健康和有益的,也能夠推動整個搜索行業的技術和體(tǐ)驗以更快速度前進。谷歌如果回歸,一(yī)定會在短時間内搶占一(yī)塊可觀的市場份額,長期來看,則會起到“鲶魚效應”,擾動中(zhōng)國搜索市場往更健康的方向發展。
百度曾經有過不好,但是作爲國内用戶,雖然嘴上說着一(yī)萬個不好用,但是心裏還是希望它能更好,隻是這樣的希望真的經不起三番五次的消耗,問題當然會出現,但正視問題,并積極處理問題才是關鍵。
而對于谷歌,雖然好用,但真的回歸之後,我(wǒ)(wǒ)們迎來的是否會是一(yī)個經過修剪、“閹割”的,不完整的谷歌呢?答案幾乎是必然的。
後,用達觀數據的**在采訪中(zhōng)的一(yī)段話(huà)作結:
搜索廣告本身并沒有錯,因爲如果廣告内容就是能滿足用戶的需求,那是兩全其美的好事情。但是如果爲了追求更高的廣告收益,而放(fàng)松對所出廣告結果的管控,通過虛假方式騙取用戶對廣告的點擊,這就傷害用戶對搜索引擎的信任了。我(wǒ)(wǒ)們都希望掌握着巨大(dà)流量的搜索引擎,能扮演好到客觀公正的“知(zhī)識領路人”的角色,而不是利益驅動的帶路黨。
上一(yī)篇:建設企業網站時需要注意哪些問題?
下(xià)一(yī)篇:企業官網制作的幾個要點