当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
golang为什么要内置map?
为什么个人需要公网ip?
为什么无人机(攻击2)不能以编队飞行的形式接受检阅?
扫黑风暴为什么他们费老大劲杀这么多人不如直接把督导组干掉?
Web后端开发,用Python还是Go呢?
什么是 5G 固定无线接入(FWA)?
中本聪为什么不出来?如果现身,会发生什么?
女生真正的完美身材是什么样子?
前后楼怎么共享宽带?
生活中怎样的美女才能被称为「大」美女?
为什么感觉腾讯的风评越来越好了?
评价一下Proxmox VE与ESXi的优劣?
systemd吞并了什么?
女性为什么不普遍跟男性那样只留个几毫米或2-3厘米短发,女性不觉得长发麻烦吗?
小米su7ultra碳纤维件是否溢价严重?
为什么韩国的热辣舞团无法征服中国的男性市场??
中国的下一代驱逐舰是9000t级通驱还是055改型?
如何看待「苏超」赞助商1个月增加超200%,达到中超2倍?
DeepSeek R1-0528 发布! 你觉得新R1 手感如何?哪些点得到了提升?
换过电池的苹果手机内部发现被加装了一个部件,有大佬知道这是干什么的吗?
为什么章若楠和杨超越长得很像,男人却更喜欢章若楠,认为有女人味,而觉得杨超越像小女孩?
如何评价《一人之下》第721(764)话?
为什么央视不再报道洛杉矶***了?
字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
postgres集群的选择?
老公想要买2万左右的相机,我该同意吗?
听说有些国军军纪比日寇还差是真的吗?
如何看待Ollama基于Go语言开发而不是别的编程语言?
广东怀集水灾后一家超市疑似被哄抢,这种行为在灾难面前的道德和法律问题如何看待?
Rust、Go、Zig、Dart、C3、C++、C,仓颉、moonbit、凹语言哪个语言更有未来?