<style id="7i3y3"></style>

      <sub id="7i3y3"><i id="7i3y3"></i></sub>

        午夜精品一区二区三区成人,中文字幕av一区二区,亚洲AVAV天堂AV在线网阿V,肥臀浪妇太爽了快点再快点,国产网友愉拍精品视频手机,国产精品无码a∨麻豆,久久中文字幕一区二区,a级国产乱理伦片在线观看al
        中國自動化學(xué)會專家咨詢工作委員會指定宣傳媒體
        新聞詳情

        中國工業(yè)互聯(lián)網(wǎng)研究院發(fā)布面向制造業(yè)場景的人工智能語料數(shù)據(jù)質(zhì)量評估體系

        http://www.kblhh.cn 2025-04-08 10:43 來源:能源工業(yè)互聯(lián)網(wǎng)聯(lián)合創(chuàng)新中心

        高質(zhì)量數(shù)據(jù)是提升模型應(yīng)用效能、增強模型泛化能力、保障模型穩(wěn)定可信的關(guān)鍵基礎(chǔ),是發(fā)展以大模型為代表的人工智能技術(shù)的重要支撐。為加速新質(zhì)生產(chǎn)力賦能新型工業(yè)化,推動人工智能大模型技術(shù)進步,更好地發(fā)揮數(shù)據(jù)要素價值,中國工業(yè)互聯(lián)網(wǎng)研究院聯(lián)合香港科技大學(xué),在進行深入調(diào)研和充分交流的基礎(chǔ)上,共同構(gòu)建面向制造業(yè)場景的人工智能語料數(shù)據(jù)質(zhì)量評估體系。

        (一)評價體系

        針對工業(yè)語料的特點,在通用數(shù)據(jù)質(zhì)量評價標準的6個指標的基礎(chǔ)上(GB/T 36344-2018),提出專業(yè)性、通用性、稠密性、均衡性、安全合規(guī)性、全面性、可回溯性、可解釋性等8個工業(yè)語料指標,形成面向工業(yè)語料的質(zhì)量評價體系。

        專業(yè)性等新增工業(yè)語料測評方法如下:專業(yè)性指數(shù)據(jù)蘊含面向特定工業(yè)行業(yè)領(lǐng)域的有效信息,可用于解決專業(yè)領(lǐng)域問題,具體表現(xiàn)為數(shù)據(jù)內(nèi)容與所在領(lǐng)域的知識體系和業(yè)務(wù)流程高度匹配,具備清晰、準確、深入的行業(yè)專業(yè)知識特征。測試中,專業(yè)性分采用百分制,基于采樣數(shù)據(jù)是否為行業(yè)專業(yè)語料的比例進行計算,核心目的是評估預(yù)料中非相關(guān)性數(shù)據(jù)的比例。

        通用性指數(shù)據(jù)具有跨部門、跨企業(yè)、跨場景的廣泛適用性,能夠為不同業(yè)務(wù)決策提供有效支撐,具有較強的可遷移性。測試中,將通用性分為三個等級:企業(yè)級,集團級和行業(yè)級、通用級。企業(yè)級為企業(yè)自制數(shù)據(jù)和語料,僅適用特定單一企業(yè),如自制設(shè)備操作手冊等;集團級適用于企業(yè)集團內(nèi)部或具有緊密合作關(guān)系的關(guān)聯(lián)企業(yè),但不具備全行業(yè)范圍內(nèi)的通用性;行業(yè)級為通用數(shù)據(jù),適用于行業(yè)內(nèi)通用的設(shè)備和工藝,如行業(yè)工業(yè)知識等;通用級為跨行業(yè)通用語料,如熱力學(xué)、傳熱學(xué)、電磁學(xué)等跨行業(yè)語料。

        稠密性指數(shù)據(jù)內(nèi)容高度集中且重復(fù)率低,數(shù)據(jù)記錄的條目密度和信息價值密度較高,單位數(shù)據(jù)所含的信息量豐富且多樣化。測試中,基于隨機采樣后數(shù)據(jù)詞嵌入的余弦相似度計算,根據(jù)相似度估算數(shù)據(jù)的重復(fù)比率。

        均衡性指數(shù)據(jù)采集在時間、空間、類別等各個維度上分布均勻,不存在明顯偏差或不平衡現(xiàn)象。數(shù)據(jù)的均衡性確保了模型訓(xùn)練和評估過程中數(shù)據(jù)覆蓋全面、客觀,避免因數(shù)據(jù)偏斜而導(dǎo)致的決策失誤或預(yù)測偏差,提高模型泛化性能和決策結(jié)果的可靠性。測試中重點對數(shù)據(jù)的采集時間、設(shè)備來源等進行考察。

        安全合規(guī)性指數(shù)據(jù)中應(yīng)避免涉及危化品制造、毒品制作工藝、違規(guī)操作指導(dǎo)、個人企業(yè)隱私等敏感、危險、隱私信息,對于工業(yè)領(lǐng)域,應(yīng)明確界定敏感內(nèi)容邊界,對可能存在安全隱患的數(shù)據(jù)進行及時標注和嚴格管控。安全合規(guī)性的要求可防止因數(shù)據(jù)安全問題引發(fā)的事故或違法風險。

        全面性指測試內(nèi)容覆蓋是否全面,對于面向行業(yè)的通用類知識語料數(shù)據(jù),全面性指是否可覆蓋該行業(yè)學(xué)科知識和生產(chǎn)制造各環(huán)節(jié)。對于面向特定場景的數(shù)據(jù)集,暫不進行全面性測試。測試中,采用百分制,對數(shù)據(jù)覆蓋的全面性進行評估。

        可回溯性指是否包含數(shù)據(jù)的來源,數(shù)據(jù)是否能夠追溯到其來源、生成過程、以及任何中間轉(zhuǎn)換步驟。對于問題診斷、數(shù)據(jù)審計和合規(guī)性至關(guān)重要。測試中,檢查數(shù)據(jù)是否標注來源、轉(zhuǎn)換等。

        可解釋性指數(shù)據(jù)是否易于被用戶理解和準確解釋,體現(xiàn)為數(shù)據(jù)的含義、數(shù)字、單位是否清晰明確,便于用戶直觀把握數(shù)據(jù)所表達的信息和價值。具備良好可解釋性的數(shù)據(jù)應(yīng)具備明確的定義、規(guī)范的表示方法,以確保數(shù)據(jù)使用者能夠快速準確地理解數(shù)據(jù)的內(nèi)涵與邊界,從而避免因數(shù)據(jù)模糊或歧義帶來的誤解或決策偏差。測試中,通過專家對采樣數(shù)據(jù)進行理解,評價其可解釋性,每條語料使用是否表述清楚進行評價,然后采用百分制進行匯總評分。面向制造業(yè)場景的人工智能語料數(shù)據(jù)質(zhì)量評估體系是一套全面覆蓋數(shù)據(jù)集指標體系、評測工具及評測實施方案的綜合性測評體系,目的是通過科學(xué)、系統(tǒng)的方法,對數(shù)據(jù)集的質(zhì)量進行客觀、公正的評測,確保數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,為大模型研發(fā)提供可靠的數(shù)據(jù)集支持。促進數(shù)據(jù)要素的流通和利用,推動技術(shù)創(chuàng)新和服務(wù)升級,共同應(yīng)對大模型時代對數(shù)據(jù)集質(zhì)量的挑戰(zhàn)。

        (二)工作計劃

        下一步,中國工業(yè)互聯(lián)網(wǎng)研究院結(jié)合人工智能技術(shù)發(fā)展趨勢和行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)需求持續(xù)完善人工智能數(shù)據(jù)集評估體系,開展數(shù)據(jù)集測評,誠邀各位行業(yè)專家共同參與。

        版權(quán)所有 工控網(wǎng) Copyright?2026 Gkong.com, All Rights Reserved
        主站蜘蛛池模板: 久久国产精品夜色| 自偷自拍亚洲综合精品| 日本女优在线观看一区二区三区| 日韩精品自拍偷拍一区二区| 人人妻人人澡人人爽| 国产内射性高湖| 永久免费AV无码网站大全| 92自拍偷拍精品视频| 亚洲熟女精品一区二区| 精品国产91久久综合| 国内极度色诱视频网站| 日韩爱爱视频| 日本久久一区二区三区高清 | 国产精品天干天干在线观看澳门| 久视频久免费视频久免费| 国产精品福利社| 91蜜臀国产自产在线观看| 国产一区二区精品久久凹凸| 成全影院电视剧在线观看| 成人嫩草研究院久久久精品| 成人免费无遮挡在线播放| 国产精品毛片一区二区| 欧美孕妇乳喷奶水在线观看 | 神马久久亚洲一区 二区| 亚洲最大在线精品| 久久久久青草线蕉亚洲| 天堂影院一区二区三区四区| 国产精品久久久国产盗摄| 中文字幕成人精品久久不卡| 国产亚洲精品综合一区| 伊人成伊人成综合网222| 天天摸夜夜添狠狠添高潮出免费| 亚洲香蕉网久久综合影视 | 人妻偷拍一区二区三区| 国产精品一区二区久久不卡| 婷婷五月综合丁香在线| 中文字幕无码免费久久99| 久久夜色精品国产欧美乱极品| XXXXXHD亚洲日本HD| 国产亚洲精品欧洲在线视频| 天天做天天爱夜夜爽导航|