当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
为什么中国很少有人使用linux?
男医生在给年轻靓丽的女性检查时会是什么心态?
Golang 为何没孕育出一个具有社区统治力的框架?
超级喜欢穿短裙正常吗?
为什么不趁以色列美国与伊朗打的火热的时机收复台湾呢?
如何评价DuckDB?
如何评价林志玲?
如何评价“寡姐”斯嘉丽·约翰逊的身材?
网传厦门某国企研发部门要求每日考察后端 400 行,前端 1000 行代码量,如属实,这个考核合理吗?
有人说24GB和48GB内存容量是新一代电脑平台最均衡的方案,真的是这样吗?电脑内存应该如何选?
如何评价「尖叫」这种饮料?
你的低成本爱好是什么?
有没有什么软件是适合老师出题考试用的?
你为什么放弃了wsl?
只是突然很好奇,已经造出了三艘航母,为何不能按照这样的模板,批量建造航母呢?
Mac 发展那么多年结果只能剪***吗?
Golang中有必要实现Async/Await吗?
只能选一个,你选谁?
为什么买了Switch后,却发现它并没有那么好玩?
字节大量使用新语言,包括go,rust等,为什么阿里一直都抱着j***a不松手?
以军要求以全境民众进避难所,伊朗称初步估计本轮袭击使用了 30 枚导弹,以防空系统还能坚持多久?
有没有一个特别好用的Linux系统?
golang 与rust 在服务器程序领域相比较,各有什么优劣势?
你见过最人性化的设计是什么?
有什么适合多人玩的我的世界模组或整合包?
年纪轻轻为什么会得腰肌劳损?
到底是时代选择了Nvidia,还是Nvidia选择了时代?
你为什么对kotlin失去好感?