最像電影裡的全能 AI 助理?Google 推出多模態模型 Gemini !

去年 12 月,Google 宣布推出號稱目前市面上最強大的多模態 AI 模 Gemini ,不僅打破過往只能以文字下指令的限制,更透過大量資料訓練獲得超群的理解能力,而且價格相較 OpenAI 更加實惠 。

AI 紅了一陣子,有些功能對於工作的幫助很大,但不少人也漸漸開始感受到一般模型帶來的限制,究竟要到什麼時候,我們才能夠有像是漫威電影中鋼鐵人的 AI 助手 F.R.I.D.A.Y. 一樣強大、理解力高的服務呢?

去年 12 月,Google 宣布推出號稱目前市面上最強大的多模態 AI 模型 Gemini ,不僅打破過往只能以文字下指令的限制,更透過大量資料訓練獲得超群的理解能力,而且價格相較 OpenAI 更加實惠 。

多模態模型(Multimodality)是什麼?

傳統上來說, AI 模型會專注於單一的資料來源形式,像是 Google Vision AI 就是以圖片為主、Google Speech-to-Text AI 就是以音訊為主;多模態模型則是尋求大量資料的整合,加強其模型的準確度和有效性。就像是人類還是胚胎時,最早發展出的是觸覺,接著嗅覺、味覺、聽覺等,最後是視覺,當感官逐漸成熟,胚胎或是嬰兒對於環境給予的刺激會有越來越多不同的反應;小學時,我們大部分的學科都先將重點放在單一方向基本功,國語需要學習認字、寫字、詞語解釋,數學則是加減乘除,但到了中學、高中、大學,則會仰賴過去累積的所有技能做出綜合性的判斷,寫作出一篇用字正確、用詞得宜、搭配個人經驗、符合歷史脈絡的文章,或是針對考題上所附的地圖,考慮地理知識、搭配計算能力找出解答。上面舉出的例子也顯示出,多模態模型的學習方式與人類近似,能力也將與人腦更加相近。

多模態模型的應用範圍相較於一般 AI 模型更加多元且廣泛。在過去,我們上網購物時,通常可透過網站的分類選取或是輸入關鍵字尋找想購買的商品,但有時,可能因為不太確定該商品的正式名稱,而找不到該商品,在結合了圖片的輸入來源後,只要將想買的產品照片上傳,就可以快速找到一模一樣的物品,購物網站甚至還能夠推薦類似的款式,讓消費者可以更有效率的比價、挑選。

目前最強的多模態模型 Google Gemini 部分版本已上線

Gemini 是一個由 Google 從頭開始建置的多模態模型,透過內部跨部門合作,Gemini 能夠通用於多元場景,且確實、通順地理解和回應文字、圖片、影片、音訊及程式碼等不同形式的資料輸入,同時具有高度彈性,無論是資料中心、電腦或是行動裝置等不同平台都可以運作。

目前 Gemini 有三種版本,分別是 Ultra、Pro、Nano:

  • Ultra:目前最高等級、最大的模型,適用於高度複雜的任務。
  • Pro:已經與 Bard, Vertex AI 等 Google 旗下服務結合,通用性最高。
  • Nano:效率最高、在小型裝置(如手機)上也能輕鬆使用的版本。

根據 Google 實測,Gemini 在各方面的性能幾乎都超越了 GPT 模型:

Gemini Text
Source: Google Cloud
Gemini Multimodel
Source: Google Cloud

未來的企業應用可能

新人指南

過去我們提過 Google Vertex AI Search 可協助企業建置一個專屬的搜尋引擎,企業若是將內部的規章、SOP 程序等資料投入,對於新進員工訓練、內部資訊的查找都有很大的幫助。搭配 Gemini 的強大效能,我們對於這個系統將可以有更具體的適用案例:新進員工 A 從上司那收到了一份文件,該文件沒有標題,A 不知道該從何下手處理這份文件。這時,他將可以將該文件拍照上傳內部的檢索系統,透過文字辨識讓 AI 了解文件的內容和目的,進而找出相關的程序,還可以檢查文件上是否有缺漏任何主管或部門的簽章。

行銷規劃

行銷部門的 B 在今年的活動安排已滿,但因為公司意外獲頒獎項,B 必須在企劃一場兩週後就要舉行、符合老闆偏好、獲獎主題的慶祝派對,B 對於這個獎項的細節一無所知,也沒有時間慢慢思考規劃。這時,他就可以請 Gemini 提供建議,並在對話當中一步步完成企劃、也獲得舉辦活動所需的資訊。

Source: Google Cloud

數據整理

數據科學家 C 必須在年底做出一份關於網站流量的分析報告,他的主管希望他不只是做一個年度的總結,更整理過去的歷史資料,分析公司的軌跡並提出對未來走向的預測。這時, C 可以利用 Gemini 找出眾多歷史資料中他所需要的數字和圖表(沒錯,還有圖表)。

Source: Google Cloud

程式碼生成

工程師 D 用 Figma 設計了一個網頁,但他目前只有一個初步的構想,很多細節都還沒規劃,這個情況下,需要花費大把時間寫出一個前端, 對 D 來說很不划算。這時,就可以出動 Gemini, 一張簡單的網頁設計圖就可以生成完整的前端程式碼。

Source: Google Cloud

業務輔助

業務 E,最近接到了一個來自國外的 Qualified Leads,因為採購金額很大,若是成了他今年的業績目標就穩了。遺憾的是,E 的外語能力非常弱,客戶的公司由來自不同國家的成員組成,口音多元,認真的 E 會把會議錄下來,事後做成文字紀錄,但總是花上很多時間。在不久的將來, Gemini 就可以幫助 E 改善這個問題!直接接收音訊的 Gemini 可以幫助 E 做出摘要,也能夠根據語氣中的變化提供更詳細的提示。

Source: Google Cloud

由上述案例可知,多模態模型 Gemini 的超高理解力將為我們的生活、工作再度帶來新一波變革!現在,從 Bard 、Vertex AI 都可以立即體驗 Gemini 模型,歡迎聯絡思想科技了解更多!

延伸閱讀:

AI 、ML、DL 到底是什麼?客製企業專屬生成式AI 模型就用Vertex AI! | 思想科技Master Concept

輕鬆將生成式AI 融入企業!Google Vertex AI 搜尋和對話模板全面上線

內容參考:

Google台灣 – 官方部落格: 隆重推出Gemini:我們最強大的AI 模型

Introducing Gemini: Google’s most capable AI model yet

What is MultiModal in AI?

熱門方案

最受歡迎文章

獲取最新資訊

訂閱我們的電子報

沒有垃圾郵件,只為您提供最新的科技資訊。

追蹤我們

了解更多

相關文章

關於 Outsystems 的7件事!低程式碼帶動企業的數位化發展

OutSystems 的低程式碼開發平台,可以讓軟體開發人員和業務使用者通過直觀的視覺化界面來構建應用程式 ,而不是傳統的編寫程式碼的模式,這不但可以降低企業App開發人力成本,更可以將原有開發時間成倍縮短。此外,這類平台非常適合於那些使用者無法具體描述需求,或者需要使用者在開發過程中深度參與的項目。

Leave Us Your Message.
We are ready to talk!

歡迎您與我們聯絡。
我們會協助您取得最佳解決方案!

歡迎您與我們聯絡。
我們會協助您取得最佳解決方案!

Leave Us Your Message.
We are ready to talk!

找不到您需要的? 加入我們的最新活動!

搶先了解
新趨勢