行業資訊
行業資訊
利用算法人為生成符合真實生活的情況,合成數據在多場景中應用
在人工智能領域,合成數據產業正逐漸成為關注的焦點。合成數據,即通過算法生成的模擬數據,可以用于訓練、測試和驗證AI模型,而無需依賴真實生活的數據集。這種數據具有一些顯著的優勢,比如能夠保護隱私、減少對真實數據采集的依賴,以及在某些情況下提供更多樣化的訓練數據。
據咨詢公司Gartner預測,到2024年,60%用于AI開發和分析的數據將會是合成數據;到2030年合成數據將徹底取代真實數據,成為AI模型所使用數據的主要來源。截至2022年,國外合成數據企業數量已經突破100家,市場規模正在逐步增長,預計2027年將達到11.5億美元。合成數據得益于高質量、高效率和低成本,將是人工智能發展的重要支撐,更是數據要素市場“增量提質”不可或缺的有效手段。
合成數據產業發展迅速,已在金融、醫療、零售、工業等領域落地
合成數據作為真實數據的替代品,是利用算法人為生成出符合真實生活情況的數據,可以在數學或統計學上反映真實數據的屬性。合成數據目前已應用在人工智能模型訓練開發和仿真驗證中,并在金融、醫療、零售、工業諸多產業領域中落地。由于合成數據是人為生成的,具有成本低廉和隱私保護優勢,將解決真實數據應用過程中的痛點問題,如真實數據短缺、數據采集耗時費力、數據標注量大成本高和真實數據隱私泄露風險等。
合成數據的生成技術包括基于物理仿真、基于統計模型、基于機器學習等方式,生成式AI技術的進步將快速推動合成數據的產業發展。在合成數據的生產和應用過程中,數據質量的評估和對模型影響評估至關重要,此外還包括數據的管理、隱私保護、工具平臺和開放共享諸多方面。
國外各大主流科技公司如英偉達、微軟、亞馬遜等瞄準合成數據領域,布局各類工具平臺,為各種應用提供服務。合成數據目前已在自動駕駛、電商零售、醫療診斷等多行業開始應用,成為AI技術普及和提升的核心要素。
合成數據有望在自動駕駛等幾大場景中發揮作用
在生成式人工智能時代,大模型表現與訓練數據質量息息相關。高質量數據模型訓練和應用過程中有著不可替代的重要性。合成數據或成為新路徑。合成數據是通過算法和數學模型創建的數據。通過建模真實數據的分布,然后在該分布上進行采樣,創建出新數據集,能夠讓合成數據模擬出真實數據中的統計模式和關系。在大模型訓練中,合成數據能夠發揮補充或替代真實數據的作用。
據媒體報道,OpenAI、Anthropic、DeepMind等公司都曾表態將探索在訓練中引入合成數據的可能性。
數字中國研究院(福建)副院長鄔群勇認為,合成數據可以提高模型訓練的效率。一方面,合成數據可以根據特定的需求進行設計,比真實數據集更廣泛,可確保滿足特定的數據質量標準。另一方面,這類數據可以快速生成,幾乎不需要人類標注,且不需要進行繁瑣的數據清洗和預處理工作,可提高數據獲取效率。
合成數據生成過程可能存在偏差或噪聲,有觀點認為數據的質量和真實性無法完全模擬客觀世界。但在鄔群勇看來,部分噪聲數據對模型訓練來說是必需的,有助于提高模型的魯棒性。
對于飽受質疑的隱私安全顧慮,在第七屆數字中國建設峰會上發布的《大模型訓練數據白皮書》提到,合成數據可以替代個人特征數據,有助于用戶隱私保護,解決數據獲取合規性的問題。當前,類似 “猜你喜歡”功能的實現往往需要大量用戶數據的參與。大模型理解力逐漸提高的當下,一方面,可以用合成數據替代用戶數據訓練模型;另一方面,用戶的需求也可以通過與模型的自然語言交流被系統理解。整個過程在提升推薦匹配度的同時,還可以降低推薦模型對個人特征數據的依賴。
在可見的未來,合成數據將有望在幾大場景發揮作用。首先,合成數據可應用于多模態數據的生成。利用模擬器生成的多模態場景數據還廣泛應用于具身智能機器人、自動駕駛、AIforScience等場景的訓練。
其次是高價值領域知識的生成。合成數據能通過對現有數據的深加工,將之前不能被用于訓練的數據轉化為可用。例如工業制造領域,利用合成數據,可以把生產、制造等工藝流程相關的原始數據,結合行業知識圖譜,轉化為可供大模型學習的工業語料,以緩解行業語料短缺的問題。
但是,合成數據應用的過程中還存在一些問題,一是合成數據的生產與應用流程尚未規范,二是合成數據的質量評估問題尚待解決。目前處于合成數據發展的初期,各大企業在合成數據的生產和應用上經驗不足,依照真實數據的生產應用經驗進行調整,缺少完備的合成數據生產流程規范與即開即用的工具。此外,合成的數據同樣會出現質量問題,目前還缺少對于合成數據質量評估的維度和方法,來保障合成數據的質量。