两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
如果美国介入伊以冲突,那么中美俄三个大国目前就只有中国处于和平状态,中国的和平是从天上掉下来的吗?
QQ 音乐客户端新增广告引起用户吐槽,你对此有哪些评价?
13/14代 i7 i9 处理器大规模缩肛为什么没有在老化测试时发现?
三只羊是不是被人做局了?
如何评价网传鸿蒙 PC 成功裸机启动 Windows ARM?
5070ti什么时候才能回归正常价格?
今天在用剪映剪***被一个会Premiere的同学看到了,嘲笑我用剪映,Pr剪辑真的比剪映好吗,好在哪?
为什么香港的人均寿命全球第一?
为什么游戏中,中国跟欧洲的时延这么大,是否是海底光缆距离过长的原因?
阿里云服务器续费价格好贵,想换一家云服务厂商,该怎么选择?
游泳给你带来哪些改变?
KVM显示器有哪些?
Electron 做游戏客户端的潜力有多大?
为什么个人需要公网ip?
不是都说6月美债要爆吗 怎么没消息了?
有哪些BI工具惊艳了你?
你捡过最大的漏是什么?
RUST的WEB开发真的能用于生产吗?
35岁以上的人都去做什么工作了呢?
有没有好看的个人博客的设计?
为什么说J***a21的虚拟线程不再有阻塞的问题?
为什么外包的名声这么差?
冬天也要穿胸罩吗?
为什么 Go 语言的 Error Handling 被某些人认为是一个败笔?
mac安装homebrew失败怎么办?
全国各地现理发店倒闭潮,没有电商冲击,理发店为什么自己能干黄?
《红色警戒2》里为什么防空导弹不如防空炮?
有哪些新生代没见过或者无法理解的 Red Hat Linux 9 时代的事情?
笨、傻、蠢有什么区别?
人常说女人味,到底是个什么味?