從多模態數據集構建到外語拓展,設計並精煉最適合大規模AI模型學習的數據。
預訓練 & 持續預訓練
基礎數據
這是作為所有模型基礎的核心原物料。我們透過Flitto Arcade Crowd平臺,提供以99.8%準確率橫跨90多種語言、多模態和不同領域收集、精煉和驗證的大規模語料庫。
0+
0.0%
30K hrs
我們提供基於全球173個國家、1400萬用戶的平台所生成的文本、語音和圖像資料集。透過將真實的語言數據、可擴展的合成數據以及專家驗證(Human-in-the-loop)相結合,我們支援大規模多語種及多模態AI模型的訓練。
語音數據
多語種語料庫數據
多輪對話數據
RLHF數據
(人類反饋強化學習)
代碼指令數據
CoT數據
(思維鏈)
OCR數據
(光學字符識別)
多模態數據
基準測試數據
定制數據咨詢
Arcade : Contribute. Validate. Earn.
Flitto Arcade通過結構化任務和校驗任務收集真實語言數據。歡迎參與構建高質量數據集,並通過質量驗證獲取獎勵吧。
Flitto的AI解決方案備受全球企業及數百萬用戶的青睞,支持實時多語種溝通。