從資料清洗到 RAG,大型語言模型的必需品,做出專屬企業的 AI 知識庫!

更新 發佈閱讀 7 分鐘

圖/文cacaFly

在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。然而,資料清理在這個過程中顯得至關重要。若企業未能妥善管理和清洗數據,將會陷入“劣質數據,誤導結果”(Garbage in, Garbage out, GIGO)的困境。也就是說,用不準確或無效的數據訓練模型,最終的預測和決策結果同樣會是錯誤的。

即便擁有乾淨的數據,在運用 LLM 時仍會遇到一些限制。首先,LLM 的知識僅限於訓練數據範圍,對於特定領域的專業知識和最新資訊可能不夠全面。當模型缺乏相關上下文或使用過時的數據時,可能會產生“幻覺”現象,即生成不準確或錯誤的回應。為了克服這些挑戰,開發者越來越關注生成式 AI 和檢索增強生成(Retrieval-Augmented Generation, RAG)技術。

RAG (Retrieval-Augmented Generation) 是什麼?

檢索增強生成(RAG,Retrieval-Augmented Generation)是一種對大型語言模型輸出優

化的流程,將 LLM 與來自其他資料源的後端資料檢索相結合的架構模式。這種方法透過先檢索企業內部或外部的相關資料,然後結合 LLM 的生成能力,提供更加準確和具體的回應。由自然語言處理科學家 Patrick Lewis 等於 2020 年提出。最原始 RAG 的流程工作其原理主要分為兩大階段:檢索和生成技術,其核心概念是在生成回應前,從外部資料庫中檢索相關資訊,再與原本要詢問 LLM 的問題結合,一併提供給 LLM,使其能夠依據檢索的資料生成更準確、具體的回應。

目前 RAG 使用的不只是傳統的資料庫,也有向量資料庫(vector database)。在資料處理的過程中,將可以提供給大型語言模型做參考的文字、圖片、聲音、影片等非結構化資料切分成小區塊,並透過嵌入(Embedding)技術將資料轉換為向量,存放於向量資料庫中,當大型語言模型回答問題時,可以找出與提示詞最相關的資料,作為 LLM 回應的參考。IBM 的語言技術總監 Luis Lastras 用 open book 比喻 RAG 與 Fine-tuning 的差異:「使用RAG系統時,你要求模型從資料庫中檢索內容,而不僅依靠 Fine-tuning 的記憶回答問題。」

RAG (Retrieval-Augmented Generation) 需要做哪些資料處理?

RAG 結合了搜尋系統和生成語言模型的優勢,但能夠充分發揮優勢的前提是搜尋系統要能爲大型語言模型提供精準的相關結果,提供不準確或錯誤的搜尋結果反而會使大型語言模型回答出更離譜的答案。優秀的搜尋系統往往需要精細且可靠的資料前處理,以目前搜尋系統主流使用的向量資料庫來說,資料前處理有以下三大步驟:

1. 檔案文字提取

文字提取包含了各種來源、檔案格式(word, pdf, 圖片, 影片, 網頁等等)的資料,且不僅僅是擷取文件中的文字,如何保留文件中有意義的表格、圖片與流程圖等等的非文字資訊才是關鍵。

2. 文字資訊切檔

大型語言模型都有輸入文字的上限,在過去,為了避免無法提供完整文件內容給大型語言模型的問題我們會將提取出來的檔案文字做切檔。隨著語言模型的更新,可以一次性輸入的文字也大幅提升,例如 Gemini 1.5 Pro 可以一次接受 128k token 的輸入(粗略估計大概 5 集哈利波特的內容),但我們很難控制大型語言模型在長文本中關注的重點(就像是正在開書考試的學生,如果抓錯課本的重點仍然會回答不好),且每次呼叫大型語言都提供超長提示詞會導致費用高昂,因此文字資訊切檔仍有其必要性。

3. 文字轉向量

文字轉向量是將資料儲存進向量資料庫前的最後一步,Google text embedding 可以依照不同應用任務(文本搜尋、分類、分群等等),最佳化文字轉向量的結果,完整保留文字中的語意資訊,且支援多國語系。

總結來說,搜尋系統的資料前處理環環相扣,每一個步驟處理不好都會影響下一步驟的產出,最終導致 RAG 的效果大打折扣。

Vertex AI Agent Builder - 輕鬆建立企業級 RAG 系統的秘密武器

如前言所述,大型語言模型(LLM)基於廣泛的公開數據進行訓練。然而,僅依賴這些數據的模式和經驗,LLM 缺乏真正的理解能力,這導致其在處理企業內部數據時常出現領域知識不足、事實性問題及幻覺現象。此外,如果模型無法不斷學習,便無法跟上知識的更新速度。

企業可以使用 RAG 技術,將內部的產品數據、技術文檔或客戶服務記錄整合進來。在 RAG技術中,關鍵在於如何確保語意空間的精確性,以及如何使擷取的資訊與 LLM 生成的內容協調一致。這包括比對查詢和文件的語意空間,以確保擷取器能夠提供最相關和最有用的資訊,從而幫助 LLM 生成自然流暢的文字。

Vertex AI 的 Agent Builder 能夠大幅簡化許多複雜的步驟,例如資料解析(Parsing)、嵌入(Embedding)和索引(Indexing)等。這讓使用者只需專注於管理自己的資料,準備好企業知識,其餘的編碼工作由 Agent Builder 來完成。不論所處的產業,RAG 技術都具有廣泛的適用性。

透過使用 Vertex AI Agent Builder,企業能夠輕鬆建立並維護一個強大的 RAG 系統,確保其 AI 應用在處理內部數據時具備高效性和準確性,從而提升整體競爭力。cacaFly 雲端智能中心專注於協助企業建立核心知識庫。企業在使用知識庫時,常常面臨用戶提問不易理解,導致無法準確找到相應回覆的資料。針對這一挑戰,cacaFly 提出了一個解決方案——透過 AI 先行解析公司內部資料,將用戶問題優化成更易於查詢的形式。

這一技術被 cacaFly 稱為 Enhancer 技術,大大提升了生成式 AI 在 RAG(檢索增強生成)方面的效果,成功使正確率提升至 60%。

此圖為企業 AI 知識庫的範例

此圖為企業 AI 知識庫的範例

AI 轉型的關鍵:不只是工程師,第一線人員同樣重要

在當前快速變遷的商業環境中,AI 技術的應用變得越來越重要。尤其是 RAG(檢索增強生成)技術,能顯著提升大型語言模型(LLM)的效能。這項技術不僅能減少模型的幻覺現象,還能增強回應的事實性和專業性,對於需要處理大量專業數據並提供個性化服務的企業尤為重要。RAG 技術彌補了 LLM 的不足,更好地滿足企業的特定需求,使企業在 AI 時代中保持競爭優勢。

然而,當企業希望導入 AI 或進行模型訓練時,資料的品質是影響成效的關鍵因素之一。我們經常與各產業領域的需求方討論資料欄位的意義和代表的內容,因為第一線人員最了解這些資料。如果資料定義不夠清晰,工程師訓練 AI 的效果往往不理想,這並非完全是工程師的責任。許多人往往忽略這一點,實際上,資料的品質和定義在其中扮演了至關重要的角色。這意味著,AI 轉型不僅僅是工程師的責任,第一線人員同樣肩負重任。他們對資料的深入理解和精確定義,直接影響到 AI 技術的應用效果。因此,在推動 AI 轉型的過程中,我們需要加強第一線人員與工程師之間的合作,確保資料的質量和準確性,才能真正發揮 AI 的潛力,為企業帶來競爭優勢。


留言
avatar-img
廣告雜誌
96會員
5.2K內容數
滾石文化旗下的《廣告雜誌》創刊於1991年,從世界觀點出發,收錄最具前瞻性的廣告構思,以及國內外的行銷經典案例,以獨特的風格,不斷續寫新的篇章,豐富讀者的視野。
廣告雜誌的其他內容
2025/04/17
本週TenMax 零售媒體趨勢焦點將與您分享 Walmart 宣布將零售媒體擴展燃油加油站版圖、便利商店成為未來零售媒體的一大焦點、DoorDash 推出結帳後廣告新格式,讓您深入了解零售媒體的發展趨勢。 
Thumbnail
2025/04/17
本週TenMax 零售媒體趨勢焦點將與您分享 Walmart 宣布將零售媒體擴展燃油加油站版圖、便利商店成為未來零售媒體的一大焦點、DoorDash 推出結帳後廣告新格式,讓您深入了解零售媒體的發展趨勢。 
Thumbnail
2025/03/07
品牌持有的 CRM 數據是最核心的資產,能夠直接反映消費者偏好並提供個人化的行銷機會。cacaFly 聖洋科技幫助 OGUMA 進行 CRM 資源盤點、分類,以細分的會員特徵及消費標籤精準定位受眾
Thumbnail
2025/03/07
品牌持有的 CRM 數據是最核心的資產,能夠直接反映消費者偏好並提供個人化的行銷機會。cacaFly 聖洋科技幫助 OGUMA 進行 CRM 資源盤點、分類,以細分的會員特徵及消費標籤精準定位受眾
Thumbnail
2025/02/04
在數位廣告時代,數據驅動的精準行銷已成為品牌成功的關鍵策略。行銷策略領導品牌 cacaFly 聖洋科技為「上山採藥」品牌成功構建了 LINE Biz 生態圈的數據驅動解決方案,展現如何透過第一方與第二方數據的靈活運用,精準觸及目標消費者,為品牌帶來顯著成效。
Thumbnail
2025/02/04
在數位廣告時代,數據驅動的精準行銷已成為品牌成功的關鍵策略。行銷策略領導品牌 cacaFly 聖洋科技為「上山採藥」品牌成功構建了 LINE Biz 生態圈的數據驅動解決方案,展現如何透過第一方與第二方數據的靈活運用,精準觸及目標消費者,為品牌帶來顯著成效。
Thumbnail
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
產品經理想做 AI 產品要懂哪些基本名詞?這篇整理我過往參與 AI 自傳生成時,和 NLP 工程師有討論到的概念,AI 應用目前還尚未普及,未來我會再陸續整理不同功能或產業需要知道的 AI 基礎知識。
Thumbnail
產品經理想做 AI 產品要懂哪些基本名詞?這篇整理我過往參與 AI 自傳生成時,和 NLP 工程師有討論到的概念,AI 應用目前還尚未普及,未來我會再陸續整理不同功能或產業需要知道的 AI 基礎知識。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News