如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？

通义千问2.5正式发布！1100亿参数开源模型超越Llama 3，通义APP免费开放全栈能力

发表于前天 09:17

重点是个人用户免费！免费！免费！实际使用体验没感觉比gpt4.0差

发表于前天 09:31

一、阿里云正式发布通义千问2.5
自2023年4月发布以来，通义千问在人工智能领域取得了显著进展，其2.5版本在多个关键性能指标上实现了显著提升。根据，2.5版本在理解能力、逻辑推理、指令遵循和代码能力上分别提升了9%、16%、19%和10%，尤其在中文语境下的表现超越了GPT-4，这在OpenCompass基准测试中得到了证实。这一进步标志着通义千问在自然语言处理领域的技术实力得到了进一步的巩固和提升。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-1.jpg

在开源领域，通义的贡献同样值得关注。如所述，1100亿参数的开源模型Qwen1.5-110B在多个基准测评中超越了Meta的Llama-3-70B模型，并在HuggingFace的OpenLLMLeaderboard排行榜上位列榜首，这不仅展示了通义开源系列的强大竞争力，也为全球的中小企业和开发者提供了加速技术追赶和行业落地的机会。
通义千问的多模态和专有能力模型同样在业界中具有显著的影响力。根据，视觉理解模型Qwen-VL-Max在多模态标准测试中超越了GeminiUltra和GPT-4V，并已在多家企业中得到应用。此外，CodeQwen1.5-7B作为HuggingFace的BigCode模型榜单中的领先者，支撑着国内用户规模第一的智能编码助手通义灵码。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-2.jpg

通义千问的快速发展，得益于其在多模态和专业领域的深耕。如所述，阿里达摩院深耕多模态预训练，并探索通用统一大模型，通过统一学习范式，实现了模态表示、任务表示、模型结构的统一，使得单一模型能够处理多种任务，并达到国际领先水平。
在企业级应用方面，通义千问通过阿里云服务于超过9万家企业，并通过钉钉服务于超过220万家企业，其应用领域广泛，涵盖了PC、手机、汽车、航空等多个行业。如所述，知名企业如小米旗下的“小爱同学”、微博、众安保险和完美世界游戏等也宣布与通义大模型合作，将大模型技术应用于各自的业务领域。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-3.jpg

为了进一步推动大模型的应用落地，阿里云推出了一站式大模型应用开发平台——阿里云百炼。如所述，基于百炼，开发者可以在5分钟内开发一款大模型应用，几小时即可“炼”出一个企业专属模型，这一平台集成了国内主流优质大模型，并提供了丰富的预置应用模板和模型选型参考榜单。
在安全方面，阿里云为所有模型提供基础安全套件，确保用户无需任何操作，就能将安全能力集成和部署到自行开发的模型和应用程序中。如所述，央视网、朗新科技、亚信科技等早期用户已在阿里云百炼上开发了专属模型和应用，显著提升了业务效率和客户满意度。
阿里云的人工智能平台PAI也已全面升级，采用HPN 7.0新一代AI集群网络架构，支持高达10万卡量级的集群可扩展规模，超大规模训练线性拓展效率达到96%，超过业界水平。如所述，这一升级为大模型训练任务带来了算力资源的节省，并提升了性能。
二、聚焦开源大模型
开源大模型对于推动人工智能技术的普及和创新具有重要意义。通义作为大模型开源的积极推动者，自去年8月宣布加入开源行列以来，已经沿着“全模态、全尺寸”的开源路线，推出了多款开源模型，其下载量已超过700万次。这一行动显著降低了AI开发者和中小企业在大模型训练和迭代上的高昂成本，赋予了开发者更多的自主权，并加速了大模型的应用落地。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-4.jpg

通义推出的大语言模型参数规模覆盖了从5亿到1100亿，满足了不同场景和设备的需求。小尺寸模型如0.5B、1.8B、4B、7B、14B等，便于在移动设备和个人电脑等端侧部署，而大尺寸模型如72B、110B则适用于企业级和科研级应用。此外，通义还提供了中等尺寸的32B模型，旨在性能、效率和内存占用之间找到平衡点。通义的这些模型，包括视觉理解模型Qwen-VL、音频理解模型Qwen-Audio、代码模型CodeQwen1.5-7B和混合专家模型Qwen1.5-MoE，均已开源，进一步丰富了AI技术的应用场景和可能性。
在性能方面，通义72B和110B模型曾登顶Open LLM Leaderboard榜首，显示出其在大模型领域的领先地位。在LMSYS Org推出的Chatbot Arena基准测试平台上，通义72B模型在全球“盲测”结果中多次进入Top 10，这不仅证明了通义大模型的技术实力，也创造了国产大模型的先例。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-5.jpg

阿里云CTO周靖人强调了开发者反馈和开源社区生态支持对通义大模型技术进步的重要作用。通义大模型的开源策略得到了开发者社区的积极响应，每有新的开源动作，都会受到开发者的高度关注和生态伙伴的第一时间支持。这种良好的互动和反馈机制，为通义大模型的持续优化和技术迭代提供了强有力的支持。
通义的开源实践不仅推动了大模型技术的普及，也为AI领域带来了创新的活力。通过开源，通义大模型正在帮助全球开发者和企业解锁新的应用场景，推动AI技术的快速发展。未来，通义大模型预计将继续其开源策略，进一步促进AI技术的民主化和创新。
三、百炼平台的全面升级
阿里云百炼平台的全面升级标志着企业级AI应用开发迈入了一个新的阶段。升级后的百炼平台2.0版本，通过引入更多的模型并兼容LlamaIndex等开源框架，显著提升了易用性和开放性。这一升级不仅简化了大模型的集成和应用开发过程，而且通过提供企业级检索增强（RAG）服务，进一步强化了大模型在企业级应用中的作用。企业现在可以通过编写少量代码，快速搭建起强大的RAG应用，这在提升数据处理能力和智能决策支持方面具有重要意义。
百炼平台的升级，特别强调了对大型企业和成熟开发者需求的支持。根据阿里云CTO周靖人的介绍，企业应用大模型的三种主要范式得到了充分考虑和支持：直接使用大模型、对大模型进行微调和持续训练、基于模型开发应用。这些范式反映了企业在不同发展阶段对AI能力的不同需求，百炼平台通过构建模型中心和应用中心，提供了丰富的模型资源和工具箱，以满足这些需求。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-6.jpg

在数据管理和模型训练方面，百炼平台提供了全链路服务，使用户能够按需调用算力资源，而无需深入了解底层架构的复杂性。这一服务的可视化特性，以及自动评测模型质量的能力，进一步提高了模型开发和训练的效率和可靠性。
此外，百炼平台的开放性体现在其对各种数据源的兼容性上。企业可以自由地从本地或云端导入SQL、PDF、Excel、PPT等格式的数据，这种灵活性使得AI应用能够无缝嵌入企业的现有业务系统中。百炼平台的这种开放性和自由度，为企业提供了更大的自主性和创新空间。
百炼平台的另一个亮点是对RAG应用的支持。通过Assistant API开发模式，企业可以轻松创建知识库，并实现知识检索增强。这不仅提升了大模型的智能水平，而且通过多智能体协作和对话记忆等高级功能，进一步增强了人机交互的自然性和效率。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-7.jpg

阿里云百炼平台的升级，得到了市场的积极响应。自发布以来，已服务了一汽、微博、完美世界、朗新集团、央视网、蓝凌科技等多个行业的领先企业。例如，一汽红旗利用百炼平台的分析能力，打造了专属的BI智能体，管理人员能够便捷地获取销售额图表及分析，这体现了百炼平台在实际应用中的巨大潜力。
阿里云百炼平台的升级，为企业提供了一个更加强大、灵活且开放的AI应用开发环境。通过全面支持大模型的应用开发和持续训练，百炼平台正在帮助企业快速实现AI技术的应用，推动企业数字化转型和智能化升级。随着更多的企业开始利用这一平台，预计百炼将在促进AI技术创新和产业生态繁荣方面发挥更大的作用。
四、通义灵码智能编码助手
通义灵码作为阿里云推出的智能编码助手，自发布以来，凭借其强大的功能和广泛的编程语言支持，迅速成为国内用户规模领先的智能编程工具。该工具基于通义千问代码模型CodeQwen1.5研发，该模型以其出色的代码生成能力、长序列建模能力、代码修改能力和SQL能力著称，并在4月份登顶Big Code模型排行榜。
通义灵码的推出，不仅极大地提升了开发者的编码效率，而且通过其智能推荐系统，每日推荐代码超过3000万次，被采纳的代码行数超过亿行，显著提高了研发工作的质量和速度。该工具支持Java、Python、Go、JavaScript、TypeScript、C/C++、C#等200多种编程语言，能够辅助完成写代码、读代码、查Bug、优化代码等一系列编码任务。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-8.jpg

为了更好地服务于企业用户，通义灵码推出了企业版，包括标准版和专属版。标准版提供“开箱即用”的体验，允许企业接入私域知识，进行私域知识问答，使得AI推荐的代码更加符合企业规范。专属版则在标准版的基础上，增加了公共云上专属实例部署、企业私有模型训练、独立企业账号系统等服务，以满足大中型企业对定制模型和算力节约的需求。
通义灵码企业版的推出，得到了市场的积极响应。阿里云和中华财险等企业已成为首批企业版客户。阿里云内部已全面切换至通义灵码企业专属版，26%的新增业务代码由通义灵码编写，研发效率提升了10%。中华财险也有60%的技术人员开始使用通义灵码，1/4的编码任务由其完成，研发问答准确率达到90%。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-9.jpg

此外，通义灵码的安全性和隐私保护措施也得到了用户的肯定。在使用大模型进行代码补全时，用户的上下文信息不会被存储或用于其他任何目的，所有生成的内容均由人工智能模型生成，确保了数据的安全性和隐私性。
通义灵码智能编码助手通过其高效的代码生成和问题解决能力，以及对企业用户需求的深刻理解，已经成为国内智能编程领域的领先产品。随着企业版的推出和不断优化，通义灵码有望进一步推动企业研发效率的提升，加速编程工作的智能化进程。
五、打造通义大模型
通义大模型作为阿里云旗下的一款重要产品，正迅速成为中国企业界的热门选择。根据2024年5月9日的数据，通义大模型已经服务超过9万家企业，并且其开源模型的累计下载量突破了700万次。这一成就标志着通义大模型在多个行业中的广泛应用和认可。
在具体应用层面，通义大模型不仅在PC、手机等传统技术领域得到应用，还成功渗透到汽车、航空、天文等高端技术领域，显示出其强大的多行业适应性和技术实力。特别是在天文观测领域，中国科学院国家天文台人工智能组基于通义千问开发了“星语3.0”，这标志着大模型技术在科学研究中的重要突破。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-10.jpg

此外，通义大模型在矿山安全领域的应用也值得关注。陕煤建新煤矿等采用通义大模型支持的风险识别系统，展现了大模型技术在提升传统产业安全水平方面的潜力。
阿里云的开放战略进一步推动了通义大模型的商业化进程。通过与不同行业的领军企业合作，通义大模型正在不断扩展其在社交媒体、保险、游戏等多个领域的应用场景。例如，小米旗下的“小爱同学”与通义大模型的合作，就是多模态AI技术在智能设备上应用的一个典型案例。
阿里云在推动大模型技术发展的同时，也注重构建开放的AI生态。通过开源自研模型、提供算力平台和模型服务，阿里云致力于帮助更多企业和开发者利用大模型技术，推动AI技术的创新和产业升级。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？-11.jpg

在技术层面，通义大模型采用了先进的架构设计，实现了模态表示、任务表示、模型结构的统一，使其能够处理包括语言、图像、语音、视频在内的30多种跨模态任务。这种统一学习范式和模块化设计，不仅提升了模型的性能，也为其在不同行业中的应用提供了灵活性和可扩展性。
阿里云的通义大模型还展现了其在多模态任务中的卓越性能。例如，在视觉语言任务中，M6-OFA统一多模态模型实现了SOTA性能，并在多个数据集上取得优异成绩。这些技术成果为通义大模型在各领域的应用提供了坚实的技术支撑。
通义大模型凭借其广泛的行业应用、强大的技术实力和阿里云的开放战略，正在成为推动中国企业智能化转型的重要力量。随着更多企业和开发者的加入，通义大模型有望在未来发挥更大的潜力，推动AI技术的进一步发展和应用。

发表于前天 09:46

感觉chatgpt的护城河没有了。
现在国产几个开源的，都很强。有可能实际使用性能就差1%左右，如果使用多个AI，可以使用多个智能体Agents实现选择答案。吴恩达说使用智能体的功能可能超过GPT-4到达GPT-5，如果调用API的token成本下降特别低，未来可以使用充分利用智能体，那么Chatgpt真的一点优势都没有了。
除非发布GPT-5，但成本肯定不会低，如果成本太高，会导致使用起来根本得不到普及，所以未来OpenAI技术优势可能真的没有了。
长上下文+低成本调用+开源，如果再加上选择专业性AI，再加上智能体之类，会导致OpenAI的护城河真的没有了。

发表于前天 09:55

非常一般，在数学计算中，我使用了deekseek以及通义2.5进行对比（比较长，建议滑快点）
我使用复利模型作为测试，请看结果
首先展示我的第一个问题：
以年利率8%计算24元复利经过24年，为什么有人得出近30万亿的结论，请分析并计算(截图太长，我直接复制结果，有兴趣的小伙伴可以自行验证)
deekseek回答：
首先，我们需要理解复利的计算公式。复利是指在每个计息周期结束后，将利息加入本金，下一个计息周期的利息将基于新的本金（即原始本金加上已产生的利息）来计算。复利的计算公式如下：
[ A = P \times (1 + r)^n ]
其中：

( A ) 是最终的本金加利息总额。
( P ) 是初始本金。
( r ) 是年利率（以小数表示）。
( n ) 是复利的年数。

现在我们来计算24元以年利率8%复利24年的情况：
[ A = 24 \times (1 + 0.08)^{24} ]
[ A = 24 \times (1.08)^{24} ]
[ A \approx 24 \times 6.34117 ]
[ A \approx 152.18808 ]
所以，24元以年利率8%复利24年后，总额大约是152.19元。
如果有人得出近30万亿的结论，那么这个计算肯定是错误的。可能的错误原因包括：

计算错误：可能是计算过程中出现了错误，比如误将利率或年数输入错误，或者计算器使用不当。
误解复利：可能是对复利的概念理解有误，比如错误地认为复利是指数级增长，而不是基于固定利率的复利计算。
数据输入错误：可能是将本金、利率或年数输入错误，导致计算结果出现巨大偏差。

总之，24元以年利率8%复利24年后的总额不可能达到30万亿，正确的计算结果应该是大约152.19元。如果需要进一步的计算或解释，请提供更多的信息。
通义2.5的回答：
其中：

�A 是未来值，即最终的总金额，
�P 是本金（初始投资），
�r 是年利率（以小数形式表示），
�n 是时间（年）。

根据题目，我们有：

P=24 元，
年利率r=8%=0.08，
时间 n=24 年。

代入公式得：
A=24(1+0.08)24
计算这个表达式的值：
A=24×(1.08)24
使用计算器计算得：
A≈24×9.6298
A≈231.1152
所以，按照8%的年利率，24元经过24年后，大约会增长到231.12元，远远达不到近30万亿的数额。
关于有人得出近30万亿的结论，这很可能是因为在计算过程中出现了极大的误差，比如误将利率、时间或本金的数值输入错误，或者在计算过程中使用了不正确的数学操作。以正常的复利计算方式，基于给定的条件，结果是不可能接近30万亿的。
结论：
deepseek：152.19
通义2.5：231.12
第二个问题：我输入错误了，改成367年
deepseek：
如果我们将复利的年数从24年改为367年，那么计算公式仍然是一样的，但是年数(n)变大了。我们再次使用复利计算公式来计算24元以年利率8%复利367年的情况：
[ A = 24 \times (1 + 0.08)^{367} ]
[ A = 24 \times (1.08)^{367} ]
[ A \approx 24 \times 1.94 \times 10^{28} ]
[ A \approx 4.66 \times 10^{29} ]
所以，24元以年利率8%复利367年后，总额大约是4.66乘以10的29次方元。这个数字非常巨大，接近30万亿（30乘以10的12次方），但仍然不是30万亿。
请注意，这个计算结果是一个理论上的数值，实际上在现实世界中，很少有投资能够持续367年，而且通常会有通货膨胀、货币价值变化等因素影响实际的购买力。此外，年利率8%是一个相对较高的利率，长期保持这样的高利率在现实中是非常罕见的。
如果需要更精确的计算，可以使用计算器或计算机软件来执行这个计算。如果还有其他疑问或需要进一步的解释，请随时提问。
通义2.5：
答案1：好的，让我们根据修正后的时间重新计算。现在时间n=367 年，其他条件不变：
A=24(1+0.08)367
进行计算：
A≈24×(1.08)367
使用计算器得到的结果是：
A≈24×2.810269257644778×1038
A≈6.744646218347468×1039
这意味着，按照8%的年利率，24元经过367年后，将会增长到大约674京464兆6462亿1834万7468元，这是一个极其巨大的数字，但仍然远低于30万亿（30万亿即是30,000,000,000,000元，即3×10^13元）。这里的计算结果显示了一个天文数字级别的增长，但直接与“近30万亿”对比，仍不符，实际上远超出了这个数量级。因此，即使是基于修正后的时间，先前提及的“近30万亿”的结论也是基于一个显著的误解或计算错误。
答案2：好的，让我们用正确的数据重新计算。如果以24元为本金，按照8%的年利率，经过367年计算复利，我们可以再次使用复利公式：
A=P(1+r)n
这次代入的数值是：

P=24 元，
年利率r=8%=0.08，
时间 n=367 年。

计算得：
A=24(1+0.08)367
A=24×(1.08)367
使用计算器进行准确计算，因为这个数字很大，直接手工计算可能不精确：
A≈24×2.947384843364484×1038
A≈707.372368×1038
A≈7.07372368×1040
这意味着，24元以8%的年利率经过367年后，确实会增长到一个非常巨大的数字，大约是7.07×10407.07×1040元，也就是707,372,368亿，远远超过了最初提到的“近30万亿”。这个计算展示了复利随时间增长的强大力量，但请注意实际数值与之前口头提及的“近30万亿”有显著差异，实际计算结果要大得多。
结论：通义2.5明显出现了计算失灵，但两个Ai都出现了不同的错误
其实前面操作过很多次，通义出现计算崩溃的场景有很多，比如年限改为362后计算8%的复利，再让他计算6%时，会出现崩溃
如此看，通义追上gpt4turbo，从计算来看无疑是自吹自擂，甚至有些不如deepseek
但是水平都远远超过gpt3.5
不过不好评价两家好坏，好歹便宜
千问大模型的话还是已经被这两款超越了

发表于前天 10:09

1100亿参数，我没记错的话gpt4应该是1.7万亿参数

发表于昨天 08:47

关于通义千问2.5正式发布，其1100亿参数的开源模型被号称超越Llama 3，且与GPT-4在多项能力上竞争，这是一个令人振奋的消息。对于这样的进展，我们应当以审慎乐观的态度看待。 在实际应用中，通义千问2.5模型的性能需要通过真实场景下的测试来验证。尽管参数规模的增加通常意味着模型性能的提升，但实际效果还需依赖于具体的任务、数据集和实验设置。目前通义APP已免费开放全栈能力，建议用户自行体验并给出反馈。 总体而言，通义千问2.5的发布无疑加剧了AI领域的竞争，期待其在实际应用中的表现，同时也期待更多关于AI技术的创新和发展。

发表于昨天 08:48

关于通义千问2.5正式发布，其1100亿参数的开源模型宣称超越Llama 3，多项能力赶超GPT-4，我们可以从以下几个专业且通俗易懂的角度来看待这一问题： 1. 技术进步：从参数数量和模型更新来看，通义千问2.5在技术上有显著的进步，这表明AI语言模型领域持续快速发展。 2. 实际应用表现：要全面评估模型的实际表现，还需要看其在各种实际场景中的表现，包括准确性、响应速度、用户体验等。 3. 竞争格局：目前AI语言模型领域的竞争非常激烈，各家公司都在努力提升自家的模型性能。 4. 通义APP的更新：通义千问2.5的发布以及通义APP免费开放全栈能力，为用户提供了更多的选择和便利，有助于推动AI技术的发展和应用普及。 总体来说，通义千问2.5的发布是一个值得关注的技术进展，但要全面评估其性能还需要进一步观察和测试。

发表于昨天 08:53

关于通义千问2.5正式发布，其1100亿参数的开源模型宣称超越Llama 3，多项能力赶超GPT-4，我认为这是一次非常具有竞争力的技术突破。从参数规模上来看，这是一个相当大规模的模型，这意味着它在处理语言任务时可能会有更高的效率和准确性。然而，关于其性能表现还需要在实际应用中进一步验证和评估。此外，对于实际使用情况如何，需要参考其在实际应用场景中的表现和用户体验。总体而言，这是一个值得关注的技术进展，并且在未来可能会对人工智能领域的发展产生积极的影响。通义千问发布通义APP也值得尝试。

如何看待发布通义千问2.5，1100亿参数模型号称超越Llama3且多项能力赶超GPT-4，实际怎样？

本周热门