欧美 国产 日本-欧美 国产 日韩 第一页-欧美 日产 国产精品-欧美 日韩 国产 在线-极品福利视频-极品成人

首頁 > 知識技能 > 知識技能 > OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

發布時間:2024-09-16 16:27:04來源: 13041198719

OpenAI 發布 o1-mini:更經濟高效的推理模型

OpenAI 推出 o1-mini,一款專注于 STEM 領域的經濟高效推理模型。o1-mini 在數學和編碼方面表現出色,接近 OpenAI o1 的水平,同時成本更低,速度更快。

一、o1-mini 簡介

  • OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,尤其擅長數學和編碼。
  • o1-mini 在 AIME 和 Codeforces 等評估基準測試中接近 OpenAI o1 的性能。
  • o1-mini 比 OpenAI o1-preview 便宜 80%,并且延遲更低,速率限制更高。

二、o1-mini 的優勢

  • STEM 領域推理能力強 :o1-mini 經過專門優化,在 STEM 領域表現出色,尤其在數學和編碼方面。
  • 成本效益高 :o1-mini 比大型語言模型更小,因此運行成本更低,更適合實際應用。
  • 速度更快 :o1-mini 的響應速度比大型語言模型更快,例如在單詞推理問題上比 GPT-4o 快 3-5 倍。

三、o1-mini 的性能表現

領域

基準測試

o1-mini

o1-preview

o1

GPT-4o

數學

AIME

70.0%

44.6%

74.4%

-

編碼

Codeforces Elo

1650

1258

1673

-

STEM

GPQA (科學)

更高

更低

-

更低

STEM

MATH-500

更高

-

-

更低

 

MMLU

-

-

-

更高

  • o1-mini 在 AIME 數學競賽中取得了 70.0% 的成績,與 o1 (74.4%) 相當,并優于 o1-preview (44.6%)。
  • o1-mini 在 Codeforces 編碼競賽中獲得了 1650 Elo 的評分,與 o1 (1673) 相當,并高于 o1-preview (1258)。
  • 在一些需要推理能力的學術基準測試中,例如 GPQA (科學) 和 MATH-500,o1-mini 的表現優于 GPT-4o。
  • 在人類偏好評估中,o1-mini 在需要推理能力的領域優于 GPT-4o,但在語言類領域則不如 GPT-4o。

四、o1-mini 的安全性

  • o1-mini 采用與 o1-preview 相同的對齊和安全技術進行訓練。
  • 在內部版本的 StrongREJECT 數據集上,o1-mini 的越獄魯棒性比 GPT-4o 高 59%。

指標

GPT-4o

o1-mini

對有害提示的拒絕率(標準)

0.99

0.99

對有害提示的安全完成率(挑戰:越獄和邊緣案例)

0.714

0.932

對良性邊緣案例的合規性(“不過度拒絕”)

0.91

0.923

Goodness@0.1 StrongREJECT 越獄評估

0.22

0.83

人工來源的越獄評估

0.77

0.95

五、o1-mini 的局限性

  • o1-mini 在非 STEM 主題(如日期、傳記和冷知識)方面的知識儲備有限。

六、未來展望

  • OpenAI 將在未來版本中改進 o1-mini 在非 STEM 領域的知識儲備。
  • OpenAI 還將嘗試將 o1-mini 擴展到其他模態和 STEM 以外的專業領域。

OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,在數學和編碼方面表現出色。o1-mini 比大型語言模型更經濟、更快,是需要推理能力但對世界知識要求不高的應用的理想選擇。

來源:

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

LibreOffice 24.8.1 發布,注重隱私保護的辦公套件

2024 年 9 月 12 日 – LibreOffice 24.8.1 發布! 這是 LibreOffice 24.8 系列的第一個次要版本 ,適用于 Windows(Intel、AMD 和 ARM)、macOS(Apple 和 Intel)和 Linux。

主要特點

  • 注重隱私: LibreOffice 24.8 系列專為注重隱私的辦公套件用戶而優化,他們希望完全控制自己共享的信息。LibreOffice 確保用戶能夠決定是否以及與誰共享他們創建的內容。
  • 功能豐富: LibreOffice 提供了一系列界面選項,以適應不同的用戶習慣,從傳統到現代,并通過優化桌 面上的可用空間,最大限度地利用不同的屏幕尺寸,只需點擊一兩次即可實現最多的功能。
  • 完全互操作性: LibreOffice 基于 LibreOffice 技術引擎,可提供更好的用戶體驗,并生成基于兩種可用 ISO 標準的相同且完全可互操作的文檔:開放文檔格式 (ODT、ODS 和 ODP) 和專有的 Microsoft OOXML (DOCX、XLSX 和 PPTX)。
  • 企業級支持: TDF 強烈推薦生態系統合作伙伴提供的 LibreOffice Enterprise 系列應用程序,適用于桌面、移動和云,具有廣泛的專用增值功能和其他優勢,例如 SLA。

知識技能更多>>

寧德時代參投新公司,哪吒汽車轉經銷商,極氪007GT等新車型來襲 預計2026年發布 新款保時捷Cayenne Coupe諜照曝光 豐田皇冠威爾法墨金版上市,91.9萬起售,配置升級能否打動你? 2025款奧迪Q2L降價上市,配置微調,售價17.18-21萬元 智能網聯與快速充電技術齊亮相2025武漢新能源汽車技術及充電樁展會揭示新能源車新趨勢 領克900首發:SPA Evo架構旗艦SUV,能否撼動大型SUV市場? 法拉第未來FX首款原型車諜照曝光,網友:魏牌高山換了個模具? 搭載高通驍龍數字底盤 零跑B10或售13萬起 等等再出手 四款國產SUV來襲 比亞迪唐L、領克900領銜 推薦奢享版 2025款名爵MG7購車指南 大眾牽手小鵬,合力打造超20000個自營充電終端 嵐圖汽車首發LFC超級后驅技術,既防眩暈,又抗甩尾! 這三款車企車型為何遇冷? 增長29%!蘇州金龍2024年銷售額超百億 從燃油到新能源,這個品牌為何從沒有能力天花板? 2025誰是下一家盈利的新勢力汽車車企? 730馬力!Brabus爆改AMG CLC 63 SE 零百加速3.3秒 速騰換殼 捷達VA7量產下線 預售12萬元起 22.48萬起 北京BJ40魔核電驅版開啟預售 配增程系統/綜合續航1200km 彰顯中國品牌實力 比亞迪海豹拿下日本年度風云車大獎 降價6000美元 2025款美版豐田bZ4X上市 配置小幅升級 有望明年上半年上市 奧迪Q6L e-tron投產 A6 e-tron隨后跟進 2.9秒破百 BRABUS爆改AMG GT 63 Coupe 動力大幅升級 最高降價8.5萬元 Jeep牧馬人4xe價格調整 49.99萬元起 名爵MG ES5昆明亮相,首批車主交車,最低僅售9.99萬元起! 海馬汽車攜多項專利亮相2024海南國際知識產權交易大會 余承東攜手“四界”領導人亮相央視,揭秘鴻蒙智行背后的故事 當地售價916.9萬起!極石ROX 01正式亮相俄羅斯市場 Momenta獲德國TÜV萊茵ISO 26262 ASIL D功能安全產品認證 蓋世汽車榮獲“AUTOSAR中國中心年度特別貢獻獎”
主站蜘蛛池模板: 久久这里只有精品1 | 免费视频片在线观看 | 国产自在自线午夜精品视频在 | 四虎影视院 | 亚色中文 | 国产成人精品精品欧美 | 日本h在线 | 久久伊人免费视频 | 国产成人亚洲精品2020 | 亚洲欧美日韩精品久久亚洲区色播 | 国产高清在线精品一区二区三区 | 国产三级日本三级日产三 | xx毛片| 欧美城天堂网 | 成人三级在线观看 | 91av成年影院在线播放 | 欧美性猛| 欧美视频久久 | 在线观看一区二区三区视频 | 99视频有精品视频免费观看 | 国产欧美性综合视频性刺激 | 国产欧美久久久另类精品 | 国产成人综合视频 | 久久精品免费全国观看国产 | 91成人高清在线播放 | 婷婷六月综合 | 亚州黄色| 国产91精品系列在线观看 | 亚洲国产综合精品 | 手机看片福利永久 | 我不卡老子影院午夜伦我不卡四虎 | 欧美在线一区二区三区精品 | 国产免费久久精品 | 四虎1515hh海外永久免费 | 三级网址在线播放 | 亚洲国产视频网 | 亚洲国产一级a毛片 | 精品99久久 | 夜趣第一宅男福社区国产 | 美女一级免费毛片 | 久久综合性 |