Google Cloud Search vs. Apache Solr 介紹與功能差異大解析

隨著Google搜尋引擎的發展,企業開始意識到企業搜索解決方案的重要性,它能協助企業作出更明智的決策、讓員工更輕鬆地獲取企業知識、優化數據治理以及改善顧客服務和銷售。
分享在 facebook
分享在 twitter
分享在 pinterest
分享在 linkedin

越來越多的企業開始意識到企業搜索解決方案的重要性,它能協助企業作出更明智的決策、讓員工更輕鬆地獲取企業知識、優化數據治理 (Data governance)以及改善顧客服務和銷售。

但,並非所有企業搜索解決方案都是一樣的

雖然Google Cloud Search(GCS)和 Apache Solr 均屬於基於文本的搜索引擎 (text-based search engine),能讓使用者透過查詢介面從結構化和非結構化資料中擷取出相關的資訊,但是它們並不完全相同。

以下是 GCS 優於 Solr 的6大理由:

一、「最佳化」設置

大多數搜索引擎具有各式各樣的設置和調整功能。
例如,搜索引擎讓您調整文字的解析方式:根據語言或上下文來判斷文字的意思; 並且讓您控制文檔的評分和排名方式。

雖然 GCS 和 Solr 均依賴於複雜的演算法,但它們主要的區別在於 GCS 具有為典型情況而設計的「最佳化」內置設定而 Solr 則需要針對各個方面自行進行安裝和配置。別外, GCS 設有針對內容和語言作出假設的模型,及均衡的評分算法。 這些模型和演算法源自 Google 在 google.com 上廣泛的搜索引擎經驗,以及在多種情況下的設計和測試。

由於Solr 並沒有「最佳化」預設模式,一切都是需要自行去調整的。這意味著 Solr 可以針對許多獨特、特殊的使用情境進行調整,但也需要針對「日常」情境進行調整。 如果您沒有專業的技術員開發Solr,則不能體驗Solr的高性能表現。

二、規模與維護

第二個主要的差異是軟體結構和維護。 Solr 具有高度的可擴展性,可以處理非常大的工作量,前題是必須由客戶安裝、配置和維護。 Solr 支援按比例擴展的多節點安裝(稱為分片),但是必須手動設置和管理。 如果將來您的需求發生變化,則將需要透過複雜的開發與維運過程來重建節點和分片,並不會自動重新平衡或調整大小。 市場上提供了Solr 的託管版本,但不具備 Google 產品的可擴展性和可靠性。

GCS 則是一項託管服務,無論是擁有 100,000 個文檔或是 100,000,000 個文檔的客戶都能享有相同效能的服務。由Google設計的GCS可容納數十億個文檔,而終端用戶則無需進行任何調整即可達到該規模。 GCS在不同層級的性能表現皆非常出色,無需自行管理備份、調整調整節點(nodes)或分片(shards)或針對結構或性能進行任何設置。

powered-by-machine-learning_2x

三、查詢功能

Solr 具有非常廣泛的查詢功能,適用於多種情況。 一些客戶使用它來搜索文檔中的大量非結構化數據,而另一些客戶則使用它來分析結構化數據,類似於SQL,但更具有性能優勢。您將在 Solr 查詢語言中找到更進階的功能,例如能夠指定接近因子proximity factors(術語接近性) (nearness of terms)、萬用字元 (wildcard)搜索、模糊搜索和動態相關性增強。 Solr 還支援跨非規範化文檔的查詢(合併)以及對經度和緯度數據的空間搜索。Solr支援特殊的查詢,但需要專業的支術員開發此功能。

另一方面,GCS所使用的搜索方式與 google.com 上的搜索界面非常相似。 Google 保持搜索界面簡單,並利用機器學習和自然語言處理功能來自動從查詢中得出其他意圖。 例如,雖然 Solr 允許您透過手動調整接近度和模糊度,但 GCS 會根據數據分析和回饋為您自動進行調整。 Google 並未透露他們可以進行的所有調整,但是我們從基本關鍵字/短語搜索中觀察到GCS對同義詞擴展、模糊性、接近度、篩選器和排名的自動調整。

四、索引功能

Solr 和 GCS 均支援結構化和非結構化數據,兩者可通過 API 或以流行的編程語言編寫的包裝器進行索引。 文件格式方面,GCS 支援二進位制文件格式(例如 PDF 或 Word), Solr的編制索引只支援文本格式。安全性方面, GCS索引中的每個記錄都可以具有不同的訪問控制權限; Solr 不支援任何本機安全調整,需要通過外部應用程式或元數據篩選器 (metadata filters)來控制對敏感內容的存取,這導致Solr 可能存在安全漏洞。無論如何存取數據,GCS 都會在記錄級別強制執行安全權限,無一例外。

built-on-trusted-proven-platform_2x

五、性能

在一般情況下,Solr 和 GCS 都有高性能的運行。 作為Google的代管服務,GCS預設範圍內都能運行順暢。

Solr 在適當地調整下,其性能也能非常好。 但是,在大型索引活動或配置更改期間,會對Solr查詢性能造成已知的影響。 而 GCS ,即使在索引活動或配置更改期間也不會有任何停機時間。

六、Google的創新

GCS 是一種 SaaS 解決方案,隨著新功能的不斷開發,它將持續發展。 新功能將同時適用於新客戶和現有客戶。例如,在G CS 推出的首年,Google新增了:

  • 內建光學字元辨識(無需額外付費)
  • 高級拼寫檢查和更正
  • 動態查詢擴展(使用 google.com 派生的常用術語和概念同義詞)
  • 自然語言查詢解釋
  • 萬用字元搜索
  • 內容感知、安全的預先輸入建議

隔一年,更新增了一些創新的功能,例如「答案」卡 (“answer” cards)、知識圖 (knowledge graphs)、對排名和相關性的其他優化、對查詢中自然語言的更多理解、人員搜索等等。

若想了解更多有關 Google Cloud Search 的資訊,歡迎隨時與我們聯繫,思想科技 Master Concept 有專業的業務團隊能隨時解答您的需求,同時我們也有豐富的成功使用案例準備與您分享!

參考來源:翻譯SADA

了解更多

相關文章

如何在「混合辦公制度」中保持工作的敏捷性和效率?

COVID-19 疫情翻轉全球各地的職場生態,在過去一年半之內,相當多企業已展出一套適應遠距的工作型態。而今,當疫苗接種率持續上升,多數城市開始調降警戒狀態,企業經營者即將面臨是否啟用「混合辦公模式」或者直接「重回辦公場景」的決策兩難。

思想科技 Master Concept

Leave Us Your Message.
We are ready to talk!

歡迎您與我們聯絡。
我們會協助您取得最佳解決方案!

歡迎您與我們聯絡。
我們會協助您取得最佳解決方案!

Leave Us Your Message.
We are ready to talk!

找不到您需要的? 加入我們的最新活動!

搶先了解
新趨勢