浪潮雲申請大模型訓練數據自然語言類型標註專利,解決大規模數據處理時標註效率和準確性問題

金融界2025年7月28日消息,國家知識產權局信息顯示,浪潮雲信息技術股份公司申請一項名爲“大模型訓練數據的自然語言類型標註方法、裝置、設備及介質”的專利,公開號CN120372359A,申請日期爲2025年04月。

專利摘要顯示,本申請公開了大模型訓練數據的自然語言類型標註方法、裝置、設備及介質,涉及自然語言處理技術領域,包括:利用Spark的目標應用編程接口對待標註訓練數據進行預處理,以將得到的處理後數據保存至本地;基於所述目標應用編程接口從本地讀取所述處理後數據,並對所述處理後數據進行分片,以將得到的分片後數據分發至Spark集羣中的各個節點;通過所述各個節點上的FastText模型並行對所述分片後數據進行語言檢測,以得到相應的初步標註結果,並利用所述Spark對所述初步標註結果進行優化,以得到優化後的目標標註結果。

天眼查資料顯示,浪潮雲信息技術股份公司,成立於2015年,位於濟南市,是一家以從事軟件和信息技術服務業爲主的企業。企業註冊資本36214.8272萬人民幣。通過天眼查大數據分析,浪潮雲信息技術股份公司共對外投資了90家企業,參與招投標項目2808次,財產線索方面有商標信息22條,專利信息3652條,此外企業還擁有行政許可11個。

本文源自:金融界

作者:情報員