标签:测试
马斯克“超级高铁”梦碎美国!明星创业公司公告倒闭,成立10年一单没接
梦晨 丰色 发自 凹非寺量子位 | 公众号 QbitAI很突然,“超级高铁”明星公司Hyperloop One宣布即将倒闭,解雇了大部分员工,12月31日彻底结束。 一时间马斯克又...
自己发基准自己第一,Anyscale行为惹社区吐槽
机器之心报道 编辑:蛋酱前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。 第二天就收获 AI 社区的大量吐槽,原因是排行...
CMU权威对比Gemini,GPT-3和Mistral8×7B!GPT-3.5依旧拿捏Gemini,开源模型差距依然不小
新智元报道编辑:山令alan 【新智元导读】谷歌发布Gemini以后,一直宣称Gemini Pro要优于GPT-3.5,而CMU的研究人员通过自己实测,给大家来了一个客观中立第三...
显卡之争!英伟达和AMD下场互掐!GPU霸主地位是否能保?
夕小瑶科技说 原创作者 | 王二狗大家好,我是二狗。 英伟达和AMD这两家芯片巨头掐起来啦! 事情的起因是,两周前AMD董事会主席兼CEO苏姿丰在一场活动中发布了...
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
机器之心报道 机器之心编辑部谷歌的 Gemini 到底几斤几两?和 OpenAI 的 GPT 模型相比表现如何?CMU 这篇论文测明白了。前段时间,谷歌发布了对标 OpenAI GPT...
ChatGPT变懒原因:正在给自己放寒假!已被网友测出🧐
西风 发自 凹非寺量子位 | 公众号 QbitAIChatGPT近期偷懒严重,有了一种听起来很离谱的解释:模仿人类,自己给自己放寒假了~有测试为证,网友@Rob Lynch用GT...
华为余承东怒怼懂车帝,「坑人」的冬测有什么猫腻?
雪地里的真相懂车帝这个冬测价格确实让人震惊,相对来说,手机圈的 DxO 简直是过家家。今天凌晨,博主@小蒜苗长 抛出了一张疑似懂车帝冬测的商业合作权益截图...
一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用
梦晨 发自 凹非寺量子位 | 公众号 QbitAI各家大模型纷纷卷起上下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。然鹅一项极限测试却发现...
谷歌 Gemini 与 GPT-4 哪家强?
来源:数据观综合(转载请注明来源)编辑:蒲蒲美国时间12月6日,谷歌正式发布了 Gemini 大模型。按照谷歌的说法, Gemini 可以像人类一样理解世界,处理代码...
优等生归来,谷歌最强大模型Gemini能否打败GPT4?|甲子光年
谷歌在技术前瞻性上领先,OpenAI更专注于产品的打磨。作者|苏霍伊编辑|王博'沉寂'已久的谷歌终于放大招了。美国当地时间12月6日,谷歌发布多模态大模型Ge...
朱松纯教授团队提出通用人工智能测试评级的标准与平台Tong Test
//人类正在迈入智能时代,其区别于信息时代的显著特征是大量通用智能体的出现,而通用人工智能作为引领和推动智能时代发展的核心科技,是目前及未来国际人工...
最新Claude 200K严重「虚标」?大神壕掷1016美元实测,90K后性能急剧下降
新智元报道编辑:润 好困【新智元导读】月初刚测了GPT-4 Turbo上下文真实实力的大神Greg Kamradt又盯上了Anthropic刚更新的Claude 2.1。他自己花了1016刀测完...
GPT-4不会图形推理?“放水”后准确率依然只有33%
克雷西 发自 凹非寺量子位 | 公众号 QbitAIGPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有3...
GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了
机器之心报道机器之心编辑部GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。最近,一篇题为《On the...
AI「cosplay」关键在人设!复旦、人大等发布大五人格+MBTI测试:特质还原率达82.8%,拒绝OOC
新智元报道编辑:LRS【新智元导读】良好的人设还原度是AI角色扮演的关键,研究人员对大五人格的NEO-FFI问卷和MBTI的16Personalities进行了改写,利用LLM将其...