chatgpt为什么那么强大(听说数学对于chatGPT来说是噩梦)
chatgpt为什么那么强大(听说数学对于chatGPT来说是噩梦)讯飞星火讯飞星火通义千问讯飞星火讯飞星火
老周还是哪个专家说的,忘了,说数学对于chatGPT来说是弱项,我也不知道弱到了什么程度,本来还想着让AI来辅导儿子做作业呢,听了这话赶紧跑去测试了一下。下面直接看测试结果,本轮经受测试的一共有6款AI:
360智脑
360智脑
通义千问
通义千问
讯飞星火
讯飞星火
讯飞星火
讯飞星火
讯飞星火
以上三个通通出错,我们再来看看大名鼎鼎的chatGPT:
GPT3.5
GPT3.5
照样算错了。
然后我在问题里加了一句:让它确定正确再发给我。
结果错的更离谱。
我们再看看算对的两个优等生:
文心一言
Claude
下面换个简单点的数学题:
讯飞星火
通义千问
依然错误。
360智脑
这次360智脑回答正确了,但是你看它的最后一句话,需要继续加班……,不愧是大厂,‘加班’这个词用的那么顺溜,关键这是小学三年级的数学题,小朋友要是这样回答,不知老师是什么感想?
下面看看GPT3.5:
GPT3.5
这次GPT回答正确了。
我们再看看两次都回答正确的优等生的答案:
文心一言
Claude
文心一言依然回答正确,表现得很不错。
PS:手机上的文心一言可以用语音跟它沟通,用它来辅导孩子是个不错的选择。
如果各位有详细看看Claude的回答就会发现,在人性化方面,在对问题的理解、回答的条理性以及结合‘三年级’这个前置条件下的回答语境方面,都是表现最优的,完全不输于专业的数学老师,所以网传的chatGPT的平替,Claude要卷死chatGPT这些说法不是没有道理的。
而且Claude是下载到电脑上使用的,交流的问题可以长久保留,今天没完成的明天可以继续,不像其它chatBOT 停留超过多少时间,网页就自动刷新了,这一点非常不友好,噢,对了,在这方面,讯飞星火表现的也不错,可以停留很长很长时间。
虽然讯飞星火数学表现的不好,但在其它方面表现的很好,很多问题的回答要优于文心一言、通义千问。
在测试的这几个产品中,通义千问在各方面的表现都可以用不及格来形容,很奇怪,阿里的实力按道理来说不应该这样,但不知为什么。
现在AI的军备竞赛已经如此火热了,而且AI的进化是无止境的,每周都会有进步,这才是最卷的地方。
一步慢,步步慢,国内虽然起步晚,但不是没有追上的可能性。
讯飞星火的口号是:10月份中文超过chatGPT 英文相当。
恩,非常希望讯飞星火能成功,国产牛逼,国人也有面子不是?
所以,希望讯飞不要只盯着chatGPT 把Claude的人性化也学一学,好不好?