語義搜索——變革之風
已發表: 2019-11-15目錄
什麼是語義搜索?
單詞和語義搜索的魔力
語義搜索是怎麼來的?
混亂中的秩序——用語義搜索工具整理
標籤遊戲 - 語義搜索工具卷。 2
語義搜索領域的遠見者
語義搜索的轉折點
知識圖譜
語義網絡世界中的人工智能
如何優化語義搜索引擎優化內容
什麼是語義搜索?
在原始的技術術語之下是一種天真的慾望,就像人類本身一樣古老。
我們一直試圖超越表象,了解我們周圍事物的更深層含義。
有時,這讓我們有了深刻的認識。 在其他時候,我們成功地失敗了。
現在我們有了技術來增強和深化我們對意義的追求。
進入語義搜索。
單詞和語義搜索的魔力
語義是語言學迷人的一面,被賦予尋找意義的任務。
詞的意義及其相互關係。 語義必須解釋為什麼我們選擇某些詞和短語來描述事物。
什麼語義定義為語義搜索的一個重要組成部分是我們必須尋求和創建連接的嚮往。
想像一下大海撈針——一種無可否認的傷腦筋的經歷。
如果沒有工具來實現快速和直觀的結果,您會在互聯網上尋找具有大致相同成功水平的東西。
幸運的是,使我們的生活結構化和互聯的動力甚至會轉化為我們在網絡上搜索事物的方式。 這就是語義搜索的方式。
我們從 Hannah Bast 及其合著者的出版物中獲得了關於語義搜索的更詳細解釋。
正如他們所描述的,語義搜索是“有意義的搜索”。 我們至少可以在搜索過程的幾個部分中找到意義。
首先,在查詢本身中。 在這裡,我們需要弄清楚請求背後的真實意圖。
然後,我們必須考慮我們必須檢索的數據,以及它是否真正適合我們正在尋找的數據。
或者,如果我們正確呈現信息,那麼它對搜索有意義。
打破語義搜索的含義
用外行的術語來說,語義搜索旨在以人類的方式理解自然語言,並提供適當的語義網絡搜索結果。
這意味著什麼?
好吧,假設我在 Google 的搜索字段中輸入“這是最小的哺乳動物”。
可以理解,搜索引擎會根據我想找出最小的哺乳動物是哪種假設來回答我的問題——而不是尋找與我輸入的短語完全匹配的內容。
這就是我第一次得到一篇名為“世界上 6 種最小哺乳動物”的文章,然後是伊特魯里亞鼩鼱的照片——順便說一下,它是地球上已知最小的哺乳動物。
希望了解我的查詢的含義有助於語義搜索引擎建議更正拼寫錯誤的單詞。
所以,如果我碰巧拼錯了“哺乳動物”這個詞,谷歌會建議我可能在尋找“哺乳動物”而不是“哺乳動物”。
語義搜索是怎麼來的?
我們的物種被吸引去尋找秩序——如果缺乏秩序,我們會忍不住嘗試創造秩序。
因此,我們正在構建一個虛擬世界來滿足我們對訂單和優化時間的需求,這是可以理解的。
除了提供正確的答案外,搜索引擎還借助人工智能為其增添了意義。
他們使用語義搜索機器學習來幫助處理和排序信息,還可以理解自然的人類語音。
最後,所有這些都為我們的查詢提供了足夠的結果。
但他們究竟如何才能回答諸如“世界上最大的甜甜圈”之類的問題?
語義搜索是從語義網絡中出現的,所以為了忠於我自己的尋求順序的本性,讓我們先看看什麼是語義網絡。
語義網源
簡而言之:語義網是萬維網的延伸。
根據萬維網聯盟 (W3C) 的說法,它為共享和重用數據提供了一個通用框架。
這適用於應用程序、企業和社區。
框架或“本體論”,正如在信息科學領域所熟知的那樣,收集最終成為知識系統的事實和信息。
簡而言之,語義網絡結構和標記數據以計算機可以讀取的方式進行。
語義網允許基於網絡或相關因素分析特定輸入。 它使用集合、屬性和關係來理解構成 Web 的大量數據。
我會把它比作我試圖建立我的家譜。
我肯定無法弄清楚我祖母聲稱是我母親身邊的遠房表親的人是誰。 我缺乏背景,因為我不認識他們。
然而,語義網在整理事物方面做得更好。
語義網的願景
正如其創始人蒂姆·伯納斯·李 (Tim Berners-Lee) 所見,語義網的最終目標是讓計算機能夠代表我們更好地操縱信息。
語義網的概念已經演變成今天形成它的兩種重要數據類型——鏈接開放數據和語義元數據。
混亂中的秩序——用語義搜索工具整理
鏈接開放數據 (LOD) 被建模為圖形並以允許跨服務器互連的方式發布。
它本質上代表結構化數據。 2006 年,Tim Berners-Lee 將鏈接數據的四項規則形式化為:
- 使用通用資源標識符 (URI) 作為事物的名稱。
- 使用 HTTP URI 以便人們可以查找這些名稱。
- 當有人查找 URI 時,使用標準格式(RDF、SPARQL)提供有用的信息。
- 包括指向其他 URI 的鏈接。 所以他們可以發現更多的東西。
LOD 使人和機器能夠跨不同服務器訪問數據並更輕鬆地解釋其語義。
結果,語義網從包含鏈接文檔的空間轉變為包含鏈接信息的空間。
反過來,這允許一個相互關聯的意義網絡,可由機器處理。
有數以千計的數據集,在不同部門以 LOD 形式發布。
一些例子是百科全書、地理數據、政府數據、科學數據庫和文章、娛樂、旅遊等。
由於它們相互關聯,這些數據集形成了一個巨大的數據網絡或知識圖。
該圖連接了對具有普遍重要性的實體和概念的大量描述。
標籤遊戲——語義搜索工具卷。 2
語義網依賴的第二個重要工具是語義元數據。
這基本上是語義標籤,添加到常規網頁中以更好地描述其含義。
例如,可以對諾貝爾獎的主頁進行語義註釋,引用幾個相關的概念和實體——瑞典、學術進步、文化和獎項等。
主題和相應結果之間這些明確的關係最好通過結構化元數據方案來表示,例如Schema.org
元數據使得根據語義標準查找網頁變得更加容易。
通過從過去的結果中學習並在實體之間創建鏈接,搜索引擎可能能夠推斷出搜索者查詢的答案,而不是提供可能包含也可能不包含正確答案的多個鏈接。
元數據解決了任何潛在的歧義,並確保當我們搜索王子(音樂家)時,我們不會得到任何關於皇室成員的頁面,例如。
你可以為此感謝語義網。
現在。
語義網的結構讓我們知道什麼是語義搜索。 它甚至告訴我們搜索引擎如何確定世界上最大的甜甜圈是什麼。
但
讓我們來看看它的歷史。
語義搜索領域的遠見者
與任何大型運動一樣,變革背後有一個領導者。 我們已經提到了 Tim Berners-Lee 的名字,許多人認為他是語義搜索背後的人。
1998 年,在現代網絡的初期,伯納斯-李已經在他發表的一份名為語義網絡路線圖的報告中談到了這個想法。
21 年後,他的想法被採納,語義搜索成為現實。
谷歌是帶來變革並讓位於語義搜索興起的公司。
“機器應該能夠像人類一樣相互交流,”伯納斯-李說。
谷歌現在正在努力實現他的願景。
如何?
語義搜索的轉折點
雖然自 1998 年以來發生了很多事情,但 2012 年是語義搜索的轉折點。
正是在這一年,所有 Google 搜索中有20%是新搜索。 不僅如此,長尾關鍵詞佔所有搜索的70%左右。
這告訴谷歌,用戶越來越有興趣使用他們的搜索引擎作為回答問題和解決問題的工具。
它不再只是查找事實和查找單個網站。
因此,邁出了語義更新的第一步。
知識圖譜
知識圖譜於 2012 年推出,標誌著谷歌轉向理解實體和上下文,而不是盲目地比較關鍵字字符串。
或者正如穀歌所說,“事物,而不是字符串。”
什麼是知識圖譜?
維基百科指出,谷歌及其服務使用知識圖譜來利用來自各種來源的信息來增強其搜索引擎的結果。
換句話說,知識圖是一種對知識領域建模的編程方式——在該領域專家、數據互連和機器學習算法的幫助下。
使這個特殊圖成為語義搜索工具的原因是它收集信息的方式。
它收集了被認為是公共領域的數據(例如,從地球的大小到樂隊成員的姓名),以及每個實體的屬性(生日、兄弟姐妹、父母、職業——所有可以與之相關的東西)實體。)
或者
我們可以說它建立在現有數據庫之上,將大量數據鏈接在一起——結合了結構化信息(列表)和非結構化信息。
知識圖收集搜索引擎提供合理答案所需的信息。
谷歌的圖表為即將到來的大規模算法變化奠定了基礎。 很快,蜂鳥緊隨其後。
使用蜂鳥加速取得成功
蜂鳥是一個轉折點。 該算法影響了全球約90% 的搜索。
它旨在精確和快速,許多人將其稱為將“對話式搜索”引入搜索活動的工具。
它是語義搜索技術的明星。
然而, Hummingbird 不僅僅提供對話式查詢的答案。
該算法關注查詢中的每個單詞。
然後它確保考慮整個查詢、整個句子或含義,而不是特定的單詞。
目的是讓頁面匹配更深層的含義,而不僅僅是實際的單詞。
還有更多。
除了 Hummingbird 更新在速度和準確性方面的改進外,Google 還確保它集成了語義搜索。
他們顯著提高了對搜索查詢(甚至是長尾搜索)的理解,從而提高了對用戶意圖的理解。
其結果:
整個查詢和搜索查詢中詞組的關係被識別、定位和解釋。
蜂鳥算法的影響
Hummingbird 的改進特別側重於上下文和對話搜索。
這兩個領域都與基本語義和單詞之間的關係密切相關。
現在。
該算法處理自然語言,以便在頭部和長尾級別檢索查詢的利基結果。
換句話說,它使用上下文搜索,其中谷歌越來越多地返回與查詢背後的意圖相匹配的結果。
結果不再局限於單詞本身,而是包括對搜索詞意圖的解釋。
具體如何?
該工具的作用是檢查尚未明確建模的關係。
該過程結合語法、統計和詞典來實現關係標記。
通過以語義方式評估意圖並專注於同義詞和與主題相關的主題,Hummingbird 允許其用戶自信地搜索主題和子主題,而不是試圖通過搜索“abracadabra”。
該算法在很多方面都是語義搜索的定義。
一個說明蜂鳥實際工作方式的示例可以是搜索,例如“英格蘭總統”。
現在。
英國沒有總統,只有首相,他是政府首腦。 英國還有一位國家元首,即女王。
谷歌知道這一點,所以它會顯示與首相或女王有關的結果。
在某種程度上,Hummingbird 允許人們獲得他們不知道如何提問的問題的答案 - 並策劃結果以幫助用戶找到他們正在尋找的內容。
定位導向
Hummingbird 帶來的另一個改進是面向本地的結果。
由於使用了上下文,本地結果變得更加精確。
因此,當您尋找優質的意大利餐廳時,Google 會假設您想在您所在的城市享用晚餐。
這就是為什麼它會使用您的位置數據來推薦您所在地區的好披薩,而不是列出意大利的餐館。
我們經常認為精確度是理所當然的,通過它我們可以獲得正確的結果。
是幕後多年研發的碩果累累。
語義搜索的夢想是通過對話語言處理和基於位置數據理解人類意圖的結合而形成的。
Hummingbird 是語義搜索的一個重要突破,但 Google 並沒有就此止步。
他們後來引入的另一個非常重要的改進是 RankBrain。
語義網絡世界中的人工智能
RankBrain 是語義搜索機器學習工具,用於解決谷歌在回答關鍵字查詢時偶然發現的問題。
幾年前,谷歌大約有 15% 的搜索包含它以前從未見過的詞。
它無法確切地知道用戶在尋找什麼。
乍一看,15% 似乎沒什麼大不了的。
儘管如此,谷歌每天處理數十億個請求,所以這個百分比絕對是一個相當大的數字。
大約4.5 億次搜索包含以前從未處理過的關鍵字。
那麼當你不知道如何回答問題時,你會怎麼做?
猜測?
這就是谷歌在收到對任何這些未知關鍵字的請求時所做的。
不幸的是,這並沒有導致準確的結果。 搜索引擎只是查找包含用戶輸入的所有關鍵字的頁面,而不了解它們背後的意圖。
它不知道如何為搜索引擎以前從未收到的請求實現和生成語義搜索。
這促使 Google 尋找解決方案並推出可以隨時隨地學習的工具。
進入RankBrain
基於機器學習的搜索引擎算法幫助谷歌處理搜索結果,為用戶提供更相關的搜索結果。
谷歌不僅使用人工智能算法來解決這些搜索查詢,而且還處理和理解它們。
RankBrain 有什麼變化?
在 RankBrain 之前,Google 的算法 100% 都是手工編碼的。
因此,這個過程在很大程度上依賴於試圖猜測什麼會改善搜索結果的人類工程師。
今天人類工程師仍在研究算法,但 RankBrain 也在後台做它的事情。
過程
簡而言之,RankBrain 可以調整自己的算法以產生更好的響應。
根據關鍵字,RankBrain 增加或減少反向鏈接、內容新鮮度、內容長度、域權限和其他排名變量的重要性。
然後它觀察用戶如何與新的搜索結果交互。 如果他們更喜歡新算法,它就會留下來。
如果不是,RankBrain 將回滾舊算法。
借助其智能語義更新, Google 能夠弄清楚您的意思,即使它之前沒有關聯您的查詢。
如何?
通過您的-從未見過的關鍵字匹配的關鍵字,它已經見過。
作為語義網絡如何工作的一個例子,谷歌 RankBrain 可能已經註意到人們搜索“世界上最大的甜甜圈”。
它了解到,尋找那個的人幾乎都在尋找有史以來最大的甜甜圈。
因此,當有人搜索“世界上最大的甜甜圈”時,RankBrain 會給出類似的結果。
在甜甜圈的情況下,您在兩次搜索中獲得的前三個網頁是相同的。
RankBrain的方法
谷歌評論了他們如何使用機器學習通過一種稱為“ Word2vec ”的技術來更好地理解搜索者的意圖,該技術將關鍵字轉化為概念。
例如,他們說這種語義網絡技術“理解巴黎和法國的關聯方式與柏林和德國的關聯方式相同(首都和國家),而不是馬德里和意大利。”
即使他們沒有特別提到這也是 RankBrain 的工作方式,我們幾乎可以猜測它使用了類似的技術。
回到關鍵字匹配的概念概念——RankBrain 嘗試根據您的搜索意圖給出結果。
用戶滿意度 vs RankBrain
當然, RankBrain 可以在理解新關鍵字方面冒險。 它甚至可以自行調整算法。
那麼第一個問題是:
一旦 RankBrain 顯示一組結果,它如何知道它們是否好?
好吧 - 它觀察到。
RankBrain 使用用戶體驗信號——至少這是技術術語。
簡單來說,這意味著 RankBrain 會向您展示一組它認為您會喜歡的搜索結果。
如果很多人喜歡某個特定條目,他們就會提升該頁面的排名。
如果他們不這樣做呢?
然後算法刪除該頁面並用不同的頁面替換它。
RankBrain 究竟觀察到了什麼?
它密切關注我們如何與搜索結果互動。
它正在監視幾個信號:
- 有機點擊率 (CTR)
- 停留時間
- 跳出率
- Pogo-sticking
這些被稱為用戶體驗信號(UX 信號)。
讓我們看一個例子,看看 Google 的語義網絡如何解釋我的搜索。
如果我搜索“最適合兒童的無人機”,我得到的第一個結果是 6 月中旬發表的一篇文章。
這會影響 RankBrain 在建議查詢答案時評估的內容的新鮮度。
但是讓我們暫時離開那個。
算法會關注我打開的網站。 它將比較它之前打開過多少次以獲得類似的結果 - 從而給出點擊率。
打開頁面後,RankBrain 將觀察我的停留時間。 這是我花在網站上的時間。 這樣,算法將估計我是否發現這些信息有用。
如果我打開查看與我的查詢無關的內容或顯示不佳的內容,我會迅速返回結果頁面。
如果有足夠多的人這樣做,網站的排名就會下降。
如果頁面沒有按時加載,反彈的機會就會增加,頁面的排名也會隨之下降。
現在,假設我無法通過第一次單擊頁面找到我要查找的內容。 我可能會繼續探索我得到的結果,直到找到它。
這是 RankBrain 用來分析其工作成功的另一個因素——pogo-sticking。
我來回走得越多,RankBrain 將那些不幸的頁面推薦給下一個具有類似搜索的用戶的可能性就越小。
現在。
我們已經介紹了Google 等搜索引擎用來理解用戶請求並為其提供適當答案的基本語義工具。
因此,我們可以看看如何利用這些優勢。
如何優化語義搜索引擎優化內容
對於 SEO 來說,理解語義搜索有很大的好處。 很大一部分是在比賽中保持領先的能力。
專家建議的良好語義搜索引擎優化策略有幾個步驟。
隨著時間的推移,語義搜索的影響力越來越大,這些步驟是幫助任何人優化內容和更好地排名網站的好建議。
- 考慮主題,而不僅僅是關鍵字
- 將內容與搜索意圖匹配
- 在您的內容中包含相關關鍵字
- 針對精選片段優化您的內容
- 在內容中包含結構化數據
- 考慮主題而不僅僅是關鍵字
正如我們在文章前面看到的,這一切都與主題有關 - 搜索的上下文。 谷歌和其他搜索引擎正在尋求為我們提供最相關的結果。
因此,內容應該比以往任何時候都更加全面和翔實。
如果您正在考慮為廣泛搜索查詢的每個變體創建簡短而平面的內容頁面 – 不用麻煩。 相反,您應該創建一個涵蓋整個主題的全面而持久的指南。
然後,您應該使用關鍵字優化最佳實踐來確保內容針對搜索引擎和讀者進行了全面優化。
將內容與搜索意圖匹配
在為您想要定位的 SEO 關鍵字創建內容之前,您應該詢問用戶為什麼會搜索該短語。 確定關鍵字代表的意圖,您還可以更輕鬆地吸引觀眾。
關鍵字的意圖可以是:
- 信息性——用戶試圖學習一些東西,所以他們使用“知道”關鍵字來尋找信息並獲得答案;
- 導航——用戶試圖導航到特定站點或查找特定項目,因此他們使用“go”關鍵字來查找熟悉品牌的網站;
- 交易 - 用戶正在嘗試進行購買,因此他們使用“do”關鍵字來查找要購買的產品或進行交易的頁面。
在內容中包含相關關鍵詞
要檢查語義搜索的語義欄,您應該向內容添加相關或潛在語義索引關鍵字 (LSI)。
LSI 關鍵字是與目標關鍵字密切相關的短語。 它們為內容提供上下文並幫助搜索引擎更好地了解內容的含義以及它如何為受眾服務。
所以當你談到巧克力時,你至少應該把它與可可聯繫起來。
優化精選片段的內容
搜索引擎喜歡直接在他們的結果頁面上顯示豐富的結果,為用戶提供他們想要的信息。
要提高搜索可見性,您可能需要:
- 優化答案框和段落、列表和表格精選片段的內容
- 明確回答內容中重點關注長尾關鍵詞的問題
- 使用格式使信息成為精選片段的有吸引力的選項
最後,在內容中包含結構化數據
另一種幫助搜索引擎理解您的內容的含義和相關性的方法是通過結構化數據。
結構化數據或模式標記是一種微數據形式,可添加額外的上下文以復製到網頁上。
它使用一組標準數據結構來對搜索引擎的內容進行分類。
此額外信息可幫助搜索引擎對內容進行排名並識別可在豐富搜索結果中顯示的信息。
實際上,到目前為止我們所說的一切都歸結為一件事。
為了充分利用我們的在線狀態,我們發布的信息應該按語義進行組織。
上下文是語義網絡搜索的未來。 雖然仍有一些拼圖需要收集,但語義網已經存在。
也許離下一代智能網絡將幫助我們安排約會、購物、查找所需信息以及將我們與志同道合的人聯繫起來的那一天不遠了。
最重要的是,自主進行。
我們當然不必問什麼是語義搜索。 它將成為我們日常生活中不可分割的一部分。