<nobr id="zkazv"></nobr>

      午夜精品一区二区三区成人,中文字幕av一区二区,亚洲AVAV天堂AV在线网阿V,肥臀浪妇太爽了快点再快点,国产网友愉拍精品视频手机,国产精品无码a∨麻豆,久久中文字幕一区二区,a级国产乱理伦片在线观看al
      中國自動化學(xué)會專家咨詢工作委員會指定宣傳媒體
      新聞詳情

      中國工業(yè)互聯(lián)網(wǎng)研究院發(fā)布面向制造業(yè)場景的人工智能語料數(shù)據(jù)質(zhì)量評估體系

      http://www.kblhh.cn 2025-04-08 10:43 來源:能源工業(yè)互聯(lián)網(wǎng)聯(lián)合創(chuàng)新中心

      高質(zhì)量數(shù)據(jù)是提升模型應(yīng)用效能、增強(qiáng)模型泛化能力、保障模型穩(wěn)定可信的關(guān)鍵基礎(chǔ),是發(fā)展以大模型為代表的人工智能技術(shù)的重要支撐。為加速新質(zhì)生產(chǎn)力賦能新型工業(yè)化,推動人工智能大模型技術(shù)進(jìn)步,更好地發(fā)揮數(shù)據(jù)要素價值,中國工業(yè)互聯(lián)網(wǎng)研究院聯(lián)合香港科技大學(xué),在進(jìn)行深入調(diào)研和充分交流的基礎(chǔ)上,共同構(gòu)建面向制造業(yè)場景的人工智能語料數(shù)據(jù)質(zhì)量評估體系。

      (一)評價體系

      針對工業(yè)語料的特點,在通用數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn)的6個指標(biāo)的基礎(chǔ)上(GB/T 36344-2018),提出專業(yè)性、通用性、稠密性、均衡性、安全合規(guī)性、全面性、可回溯性、可解釋性等8個工業(yè)語料指標(biāo),形成面向工業(yè)語料的質(zhì)量評價體系。

      專業(yè)性等新增工業(yè)語料測評方法如下:專業(yè)性指數(shù)據(jù)蘊含面向特定工業(yè)行業(yè)領(lǐng)域的有效信息,可用于解決專業(yè)領(lǐng)域問題,具體表現(xiàn)為數(shù)據(jù)內(nèi)容與所在領(lǐng)域的知識體系和業(yè)務(wù)流程高度匹配,具備清晰、準(zhǔn)確、深入的行業(yè)專業(yè)知識特征。測試中,專業(yè)性分采用百分制,基于采樣數(shù)據(jù)是否為行業(yè)專業(yè)語料的比例進(jìn)行計算,核心目的是評估預(yù)料中非相關(guān)性數(shù)據(jù)的比例。

      通用性指數(shù)據(jù)具有跨部門、跨企業(yè)、跨場景的廣泛適用性,能夠為不同業(yè)務(wù)決策提供有效支撐,具有較強(qiáng)的可遷移性。測試中,將通用性分為三個等級:企業(yè)級,集團(tuán)級和行業(yè)級、通用級。企業(yè)級為企業(yè)自制數(shù)據(jù)和語料,僅適用特定單一企業(yè),如自制設(shè)備操作手冊等;集團(tuán)級適用于企業(yè)集團(tuán)內(nèi)部或具有緊密合作關(guān)系的關(guān)聯(lián)企業(yè),但不具備全行業(yè)范圍內(nèi)的通用性;行業(yè)級為通用數(shù)據(jù),適用于行業(yè)內(nèi)通用的設(shè)備和工藝,如行業(yè)工業(yè)知識等;通用級為跨行業(yè)通用語料,如熱力學(xué)、傳熱學(xué)、電磁學(xué)等跨行業(yè)語料。

      稠密性指數(shù)據(jù)內(nèi)容高度集中且重復(fù)率低,數(shù)據(jù)記錄的條目密度和信息價值密度較高,單位數(shù)據(jù)所含的信息量豐富且多樣化。測試中,基于隨機(jī)采樣后數(shù)據(jù)詞嵌入的余弦相似度計算,根據(jù)相似度估算數(shù)據(jù)的重復(fù)比率。

      均衡性指數(shù)據(jù)采集在時間、空間、類別等各個維度上分布均勻,不存在明顯偏差或不平衡現(xiàn)象。數(shù)據(jù)的均衡性確保了模型訓(xùn)練和評估過程中數(shù)據(jù)覆蓋全面、客觀,避免因數(shù)據(jù)偏斜而導(dǎo)致的決策失誤或預(yù)測偏差,提高模型泛化性能和決策結(jié)果的可靠性。測試中重點對數(shù)據(jù)的采集時間、設(shè)備來源等進(jìn)行考察。

      安全合規(guī)性指數(shù)據(jù)中應(yīng)避免涉及?;分圃?、毒品制作工藝、違規(guī)操作指導(dǎo)、個人企業(yè)隱私等敏感、危險、隱私信息,對于工業(yè)領(lǐng)域,應(yīng)明確界定敏感內(nèi)容邊界,對可能存在安全隱患的數(shù)據(jù)進(jìn)行及時標(biāo)注和嚴(yán)格管控。安全合規(guī)性的要求可防止因數(shù)據(jù)安全問題引發(fā)的事故或違法風(fēng)險。

      全面性指測試內(nèi)容覆蓋是否全面,對于面向行業(yè)的通用類知識語料數(shù)據(jù),全面性指是否可覆蓋該行業(yè)學(xué)科知識和生產(chǎn)制造各環(huán)節(jié)。對于面向特定場景的數(shù)據(jù)集,暫不進(jìn)行全面性測試。測試中,采用百分制,對數(shù)據(jù)覆蓋的全面性進(jìn)行評估。

      可回溯性指是否包含數(shù)據(jù)的來源,數(shù)據(jù)是否能夠追溯到其來源、生成過程、以及任何中間轉(zhuǎn)換步驟。對于問題診斷、數(shù)據(jù)審計和合規(guī)性至關(guān)重要。測試中,檢查數(shù)據(jù)是否標(biāo)注來源、轉(zhuǎn)換等。

      可解釋性指數(shù)據(jù)是否易于被用戶理解和準(zhǔn)確解釋,體現(xiàn)為數(shù)據(jù)的含義、數(shù)字、單位是否清晰明確,便于用戶直觀把握數(shù)據(jù)所表達(dá)的信息和價值。具備良好可解釋性的數(shù)據(jù)應(yīng)具備明確的定義、規(guī)范的表示方法,以確保數(shù)據(jù)使用者能夠快速準(zhǔn)確地理解數(shù)據(jù)的內(nèi)涵與邊界,從而避免因數(shù)據(jù)模糊或歧義帶來的誤解或決策偏差。測試中,通過專家對采樣數(shù)據(jù)進(jìn)行理解,評價其可解釋性,每條語料使用是否表述清楚進(jìn)行評價,然后采用百分制進(jìn)行匯總評分。面向制造業(yè)場景的人工智能語料數(shù)據(jù)質(zhì)量評估體系是一套全面覆蓋數(shù)據(jù)集指標(biāo)體系、評測工具及評測實施方案的綜合性測評體系,目的是通過科學(xué)、系統(tǒng)的方法,對數(shù)據(jù)集的質(zhì)量進(jìn)行客觀、公正的評測,確保數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,為大模型研發(fā)提供可靠的數(shù)據(jù)集支持。促進(jìn)數(shù)據(jù)要素的流通和利用,推動技術(shù)創(chuàng)新和服務(wù)升級,共同應(yīng)對大模型時代對數(shù)據(jù)集質(zhì)量的挑戰(zhàn)。

      (二)工作計劃

      下一步,中國工業(yè)互聯(lián)網(wǎng)研究院結(jié)合人工智能技術(shù)發(fā)展趨勢和行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)需求持續(xù)完善人工智能數(shù)據(jù)集評估體系,開展數(shù)據(jù)集測評,誠邀各位行業(yè)專家共同參與。

      版權(quán)所有 工控網(wǎng) Copyright?2025 Gkong.com, All Rights Reserved
      主站蜘蛛池模板: 国产午夜精品理论大片| 99热精品毛片全部国产无缓冲 | 中文字幕日韩精品有码| 天堂在线精品亚洲综合网| 国产成人综合亚洲精品国产| 天天躁日日躁狠狠躁2018| 亚洲综合精品第一页| 亚洲精品无码久久一线| 亚洲欧美成人a∨观看| 亚洲av无码专区在线亚| 亚洲天堂成人一区二区三区| 婷婷久久香蕉五月综合加勒比| 狠狠做五月深爱婷婷伊人| 人妻无码中文字幕| 亚洲国产av一区二区| 老司机免费的精品视频| 欧美乱妇高清无乱码免费| 亚洲欧洲日产国产av无码| 亚洲一区中文字幕第十页| 色欲国产精品一区成人精品| 免费国产黄线在线观看| 色欲综合久久中文字幕网| 午夜精品福利一区二区三| 成人免费A级毛片无码片2022| 国产精品久久久一区二区三区| 99久久国产一区二区三区| 国产亚洲色视频在线| 国产v综合v亚洲欧美大天堂| 人妻av中文字幕无码专区| 国产真实精品久久二三区| 蜜臀久久精品亚洲一区| 中文字幕无码专区一VA亚洲V专| 91偷自国产一区二区三区| 国产中文字幕精品免费| 亚洲最大福利视频网| 国产精品综合一区二区三区 | 久久精品国产91精品亚洲| 国产午夜亚洲精品国产成人| 97精品尹人久久大香线蕉| 久久精品夜色噜噜亚洲av| 92精品国产自产在线观看481页|