從資料清洗到 RAG,大型語言模型的必需品,出專屬企業的 AI 知識庫!

更新於 發佈於 閱讀時間約 8 分鐘

文/圖 cacaFly

raw-image


在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。

然而,資料清理在這個過程中顯得至關重要。若企業未能妥善管理和清洗數據,將會陷入“劣質數據,誤導結果”(Garbage in, Garbage out, GIGO)的困境。也就是說,用不準確或無效的數據訓練模型,最終的預測和決策結果同樣會是錯誤的。

即便擁有乾淨的數據,在運用 LLM 時仍會遇到一些限制。首先,LLM 的知識僅限於訓練數據範圍,對於特定領域的專業知識和最新資訊可能不夠全面。當模型缺乏相關上下文或使用過時的數據時,可能會產生“幻覺”現象,即生成不準確或錯誤的回應。為了克服這些挑戰,開發者越來越關注生成式 AI 和檢索增強生成(Retrieval-Augmented Generation, RAG)技術。

RAG (Retrieval-Augmented Generation) 是什麼?

檢索增強生成(RAG,Retrieval-Augmented Generation)是一種對大型語言模型輸出優化的流程,將 LLM 與來自其他資料源的後端資料檢索相結合的架構模式。這種方法透過先檢索企業內部或外部的相關資料,然後結合 LLM 的生成能力,提供更加準確和具體的回應。由自然語言處理科學家 Patrick Lewis 等於 2020 年提出。最原始 RAG 的流程工作其原理主要分為兩大階段:檢索和生成技術,其核心概念是在生成回應前,從外部資料庫中檢索相關資訊,再與原本要詢問 LLM 的問題結合,一併提供給 LLM,使其能夠依據檢索的資料生成更準確、具體的回應。

目前 RAG 使用的不只是傳統的資料庫,也有向量資料庫(vector database)。在資料處理的過程中,將可以提供給大型語言模型做參考的文字、圖片、聲音、影片等非結構化資料切分成小區塊,並透過嵌入(Embedding)技術將資料轉換為向量,存放於向量資料庫中,當大型語言模型回答問題時,可以找出與提示詞最相關的資料,作為 LLM 回應的參考。

IBM 的語言技術總監 Luis Lastras 用 open book 比喻 RAG 與 Fine-tuning 的差異:「使用RAG系統時,你要求模型從資料庫中檢索內容,而不僅依靠 Fine-tuning 的記憶回答問題。」

 Retrieval-Augmented Generation, RAG 流程圖

Retrieval-Augmented Generation, RAG 流程圖

在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。

然而,資料清理在這個過程中顯得至關重要。若企業未能妥善管理和清洗數據,將會陷入“劣質數據,誤導結果”(Garbage in, Garbage out, GIGO)的困境。也就是說,用不準確或無效的數據訓練模型,最終的預測和決策結果同樣會是錯誤的。

即便擁有乾淨的數據,在運用 LLM 時仍會遇到一些限制。首先,LLM 的知識僅限於訓練數據範圍,對於特定領域的專業知識和最新資訊可能不夠全面。當模型缺乏相關上下文或使用過時的數據時,可能會產生“幻覺”現象,即生成不準確或錯誤的回應。為了克服這些挑戰,開發者越來越關注生成式 AI 和檢索增強生成(Retrieval-Augmented Generation, RAG)技術。

RAG (Retrieval-Augmented Generation) 需要做哪些資料處理?

RAG 結合了搜尋系統和生成語言模型的優勢,但能夠充分發揮優勢的前提是搜尋系統要能爲大型語言模型提供精準的相關結果,提供不準確或錯誤的搜尋結果反而會使大型語言模型回答出更離譜的答案。優秀的搜尋系統往往需要精細且可靠的資料前處理,以目前搜尋系統主流使用的向量資料庫來說,資料前處理有以下三大步驟:

  1. 檔案文字提取文字提取包含了各種來源、檔案格式(word, pdf, 圖片, 影片, 網頁等等)的資料,且不僅僅是擷取文件中的文字,如何保留文件中有意義的表格、圖片與流程圖等等的非文字資訊才是關鍵。
  2. 文字資訊切檔大型語言模型都有輸入文字的上限,在過去,為了避免無法提供完整文件內容給大型語言模型的問題我們會將提取出來的檔案文字做切檔。隨著語言模型的更新,可以一次性輸入的文字也大幅提升,例如 Gemini 1.5 Pro 可以一次接受 128k token 的輸入(粗略估計大概 5 集哈利波特的內容),但我們很難控制大型語言模型在長文本中關注的重點(就像是正在開書考試的學生,如果抓錯課本的重點仍然會回答不好),且每次呼叫大型語言都提供超長提示詞會導致費用高昂,因此文字資訊切檔仍有其必要性。
  3. 文字轉向量文字轉向量是將資料儲存進向量資料庫前的最後一步,Google text embedding 可以依照不同應用任務(文本搜尋、分類、分群等等),最佳化文字轉向量的結果,完整保留文字中的語意資訊,且支援多國語系。

總結來說,搜尋系統的資料前處理環環相扣,每一個步驟處理不好都會影響下一步驟的產出,最終導致 RAG 的效果大打折扣。

Vertex AI Agent Builder - 輕鬆建立企業級 RAG 系統的秘密武器

如前言所述,大型語言模型(LLM)基於廣泛的公開數據進行訓練。然而,僅依賴這些數據的模式和經驗,LLM 缺乏真正的理解能力,這導致其在處理企業內部數據時常出現領域知識不足、事實性問題及幻覺現象。此外,如果模型無法不斷學習,便無法跟上知識的更新速度。

企業可以使用 RAG 技術,將內部的產品數據、技術文檔或客戶服務記錄整合進來。在 RAG 技術中,關鍵在於如何確保語意空間的精確性,以及如何使擷取的資訊與 LLM 生成的內容協調一致。這包括比對查詢和文件的語意空間,以確保擷取器能夠提供最相關和最有用的資訊,從而幫助 LLM 生成自然流暢的文字。

Vertex AI 的 Agent Builder 能夠大幅簡化許多複雜的步驟,例如資料解析(Parsing)、嵌入(Embedding)和索引(Indexing)等。這讓使用者只需專注於管理自己的資料,準備好企業知識,其餘的編碼工作由 Agent Builder 來完成。不論所處的產業,RAG 技術都具有廣泛的適用性。

透過使用 Vertex AI Agent Builder,企業能夠輕鬆建立並維護一個強大的 RAG 系統,確保其 AI 應用在處理內部數據時具備高效性和準確性,從而提升整體競爭力。

cacaFly 雲端智能中心專注於協助企業建立核心知識庫。企業在使用知識庫時,常常面臨用戶提問不易理解,導致無法準確找到相應回覆的資料。針對這一挑戰,cacaFly 提出了一個解決方案——透過 AI 先行解析公司內部資料,將用戶問題優化成更易於查詢的形式。

這一技術被 cacaFly 稱為 Enhancer 技術,大大提升了生成式 AI 在 RAG(檢索增強生成)方面的效果,成功使正確率提升至 60%。

企業 AI 知識庫的範例

企業 AI 知識庫的範例

AI 轉型的關鍵:不只是工程師,第一線人員同樣重要

在當前快速變遷的商業環境中,AI 技術的應用變得越來越重要。尤其是 RAG(檢索增強生成)技術,能顯著提升大型語言模型(LLM)的效能。這項技術不僅能減少模型的幻覺現象,還能增強回應的事實性和專業性,對於需要處理大量專業數據並提供個性化服務的企業尤為重要。RAG 技術彌補了 LLM 的不足,更好地滿足企業的特定需求,使企業在 AI 時代中保持競爭優勢。

然而,當企業希望導入 AI 或進行模型訓練時,資料的品質是影響成效的關鍵因素之一。我們經常與各產業領域的需求方討論資料欄位的意義和代表的內容,因為第一線人員最了解這些資料。如果資料定義不夠清晰,工程師訓練 AI 的效果往往不理想,這並非完全是工程師的責任。許多人往往忽略這一點,實際上,資料的品質和定義在其中扮演了至關重要的角色。

這意味著,AI 轉型不僅僅是工程師的責任,第一線人員同樣肩負重任。他們對資料的深入理解和精確定義,直接影響到 AI 技術的應用效果。因此,在推動 AI 轉型的過程中,我們需要加強第一線人員與工程師之間的合作,確保資料的質量和準確性,才能真正發揮 AI 的潛力,為企業帶來競爭優勢。





avatar-img
50會員
4.6K內容數
滾石文化旗下的《廣告雜誌》創刊於1991年,從世界觀點出發,收錄最具前瞻性的廣告構思,以及國內外的行銷經典案例,以獨特的風格,不斷續寫新的篇章,豐富讀者的視野。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
廣告雜誌 的其他內容
東南亞和印度對零售媒體的投資意願正在攀升,對於正處於 RMN 早期階段的亞洲市場來說,現在可謂在亞洲佈局 RMN 的黃金機會。本週我們將與您分享亞洲市場的 RMN 現況、Pentaleap 推出的模組化零售媒體平台和為何需要一個數位優先的企業文化,讓您深入了解零售媒體的發展趨勢
從傳統零售到新零售,為什麼我們會需要門市零售媒體(In-Store Retail Media)?
人氣全創作唱跳男團U:NUS與甫出道的師妹 — 新生代雙人唱作組合KAXA(Kaį、Lexa),攜手為全新職場輕喜劇《X!又是星期一》量身打造主題曲〈不怕星期一〉。日前U:NUS在台中舉行七夕限定場演唱會時,KAXA驚喜現身並與師兄帶來新歌首唱,立馬讓歌迷印象深刻直呼:「這首歌真的是上班族的寫照!」
徐懷鈺最新抒情單曲〈小事情〉甫於8月曝光各大平台,上線後廣受好評,更衝上KKBOX即時榜冠軍!
中華民國腦性麻痺協會和臺北流行音樂中心(簡稱北流)首度跨界合作『跟著腦麻一起流動!』音樂教育計畫,運用由北流開發的線上免費音樂創作工具「北流雲取樣機」,提供給腦性麻痺朋友音樂課程使用!
是什麼力量推動日新月異的科技業?先進複雜的演算法背後,是每年數以萬計的優秀畢業生,懷抱著嶄新的想法與熱忱,投身科技新創或大企業,眾菁英用一行行程式碼,打造出令世人心馳神往的矽谷。然而美國近期一份調查顯示,科技巨頭不再是畢業生的職涯首選;當科技業失去未來世代的支持,是否也將影響整體產業地位與競爭力?
東南亞和印度對零售媒體的投資意願正在攀升,對於正處於 RMN 早期階段的亞洲市場來說,現在可謂在亞洲佈局 RMN 的黃金機會。本週我們將與您分享亞洲市場的 RMN 現況、Pentaleap 推出的模組化零售媒體平台和為何需要一個數位優先的企業文化,讓您深入了解零售媒體的發展趨勢
從傳統零售到新零售,為什麼我們會需要門市零售媒體(In-Store Retail Media)?
人氣全創作唱跳男團U:NUS與甫出道的師妹 — 新生代雙人唱作組合KAXA(Kaį、Lexa),攜手為全新職場輕喜劇《X!又是星期一》量身打造主題曲〈不怕星期一〉。日前U:NUS在台中舉行七夕限定場演唱會時,KAXA驚喜現身並與師兄帶來新歌首唱,立馬讓歌迷印象深刻直呼:「這首歌真的是上班族的寫照!」
徐懷鈺最新抒情單曲〈小事情〉甫於8月曝光各大平台,上線後廣受好評,更衝上KKBOX即時榜冠軍!
中華民國腦性麻痺協會和臺北流行音樂中心(簡稱北流)首度跨界合作『跟著腦麻一起流動!』音樂教育計畫,運用由北流開發的線上免費音樂創作工具「北流雲取樣機」,提供給腦性麻痺朋友音樂課程使用!
是什麼力量推動日新月異的科技業?先進複雜的演算法背後,是每年數以萬計的優秀畢業生,懷抱著嶄新的想法與熱忱,投身科技新創或大企業,眾菁英用一行行程式碼,打造出令世人心馳神往的矽谷。然而美國近期一份調查顯示,科技巨頭不再是畢業生的職涯首選;當科技業失去未來世代的支持,是否也將影響整體產業地位與競爭力?
你可能也想看
Google News 追蹤
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
產品經理想做 AI 產品要懂哪些基本名詞?這篇整理我過往參與 AI 自傳生成時,和 NLP 工程師有討論到的概念,AI 應用目前還尚未普及,未來我會再陸續整理不同功能或產業需要知道的 AI 基礎知識。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
產品經理想做 AI 產品要懂哪些基本名詞?這篇整理我過往參與 AI 自傳生成時,和 NLP 工程師有討論到的概念,AI 應用目前還尚未普及,未來我會再陸續整理不同功能或產業需要知道的 AI 基礎知識。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。