🤖

Runway + Midjourney提示词工程:让AI理解你的创意意图

Runway和Midjourney是当前最强大的AI创作工具组合,分别统治着AI视频和AI图像领域。Runway擅长视频生成、实时视频编辑和动态遮罩,Midjourney擅长高质量图像生成和艺术风格创作。掌握提示词工程Prompt Engineering是释放这两个工具全部潜力的关键。本文分享经过验证的提示词技巧,帮助你提升3倍创作效率。核心技巧包括:使用具体的视觉描述词如cinematic li...

🎨

OpenAI发布GPT-5预览版,多模态能力大幅提升

OpenAI在2026年5月的最新发布会上展示了GPT-5的预览版本,这是继GPT-4之后最大的技术飞跃。新模型在图像理解、视频生成和代码编写方面均有显著提升,真正实现了原生多模态架构。据内部测试数据,GPT-5在MATH数学推理基准上准确率达到92%,在HumanEval代码生成任务上达到89%,均创下新纪录。多模态能力方面,GPT-5可以同时理解图像、音频和视频输入,并生成连贯的多模态输出,无...

🎬

Google Gemini 2.5 Pro正式发布,支持200万token上下文

Google宣布Gemini 2.5 Pro全面开放,最大亮点是支持200万token的超长上下文窗口,约相当于150万汉字或3000页标准文档。这一突破使得Gemini 2.5 Pro可以一次性处理整本书籍、完整的代码仓库、长达数小时的视频会议记录,甚至一整年的财务报告。在基准测试中,Gemini 2.5 Pro在MMLU-Pro上得分87.3%,在HumanEval代码生成上达85.7%,在G...

💻

Anthropic Claude 4推出计算机使用功能,可自主操作电脑

Anthropic发布Claude 4重大更新,最令人瞩目的新增功能是Computer Use计算机使用,使AI可以像人类一样查看屏幕、移动鼠标、点击按钮和输入文字。该功能基于Claude 3.5 Sonnet模型,通过实时截图理解屏幕内容,然后使用虚拟鼠标和键盘进行精确操作。应用场景极其广泛,包括自动化软件测试、批量数据录入、复杂表单填写、网页内容抓取等重复性任务。在OSWorld基准测试中,C...

📝

Midjourney V7发布:视频生成+实时画布功能

Midjourney正式发布V7版本,这是该公司从图像生成工具向综合创作平台转型的关键一步。V7首次加入视频生成功能,支持最长30秒的高质量AI视频,分辨率为1080p,帧率24fps,画质接近专业视频制作水平。同时推出革命性的实时画布功能,用户可以通过简单的笔刷涂鸦来引导AI生成图像,实时看到生成结果并动态调整,就像和AI一起绘画。V7版本在图像质量上有显著提升,在FID Fréchet Inc...

🚀

字节跳动发布豆包大模型Pro版,中文理解能力登顶

字节跳动正式发布豆包大模型Pro版本,在C-Eval、CMMLU、C3-Eval等中文评测基准上全面取得第一,超过GPT-4o、Claude 3.5和文心一言4.0。新模型支持128K上下文窗口,并针对中文互联网内容、社交媒体表达习惯和文化背景进行了深度优化。豆包Pro在代码生成、数学推理、知识问答、创意写作等任务上均有显著提升,其中HumanEval代码生成准确率达82.3%,高考数学得分率91...

🤖

Meta发布Llama 4系列:405B参数+多模态原生架构

Meta开源Llama 4系列大模型,包含8B、70B和405B三个版本,这是开源社区迄今为止最强大的模型。405B版本采用全新MoE混合专家架构,每次前向传播只激活约100B参数,在保证性能的同时大幅降低推理成本。训练数据量达15万亿token,涵盖文本、图像和视频,支持多模态输入图像+文本+音频。在基准测试中,Llama 4 405B在MMLU上得分89.7%,在HumanEval上达92.3...

🎨

xAI Grok 3上线:实时联网+深度推理双模式

埃隆·马斯克旗下xAI正式发布Grok 3,这是目前最具争议的AI模型之一。Grok 3具备两大核心能力:实时联网搜索和深度思考模式。实时联网功能使得Grok 3可以获取最新资讯,回答时效性问题时无需依赖训练数据的截止日期,这在新闻、股市和体育赛事等场景中具有独特优势。深度思考模式允许模型进行多步推理和自检,在复杂数学和逻辑问题上表现突出。在数学竞赛AIME 2026上得分95.7%,在代码竞赛C...

🎬

Stability AI发布Stable Diffusion 4.0:视频生成突破60秒

Stability AI开源Stable Diffusion 4.0,这是视频生成领域的里程碑式突破。新版本视频生成时长首次突破60秒,画质达到1080p高清标准,支持25fps和60fps两种帧率,运动连贯性和画面稳定性均有质的飞跃。SD 4.0采用创新的扩散Transformer架构,在UCF-101视频生成基准上FVD得分仅28.7,大幅领先Runway Gen-2的45.2和Pika 1....

💻

中国AI芯片新突破:华为昇腾910C性能提升3倍

华为发布昇腾910C AI处理器,这是国产AI芯片的又一重大突破。910C采用全新达芬奇架构3.0,FP16算力提升至800 TFLOPS,INT8算力达1600 TOPS,比上一代910B提升整整3倍。该芯片全面适配PyTorch 2.5、TensorFlow 2.17和MindSpore 3.0,开发者可以无缝迁移现有代码。在Llama 3 405B微调任务中,昇腾910C集群1024张卡的训...

📝

AI编程工具Cursor融资5亿美元,估值达40亿

AI编程助手Cursor完成5亿美元C轮融资,由Andreessen Horowitz领投,Sequoia Capital和Thrive Capital跟投,估值达40亿美元,成为AI编程赛道最耀眼的独角兽。Cursor月活开发者已突破500万,支持VS Code、JetBrains全系列IDE和Vim/Neovim编辑器。新版本最令人兴奋的功能是全网搜索——AI可以同时搜索你的本地代码库、Git...

🚀

Adobe Firefly 3.0:一键生成可编辑矢量图

Adobe发布Firefly 3.0,这是创意工作者最期待的AI更新之一。最大亮点是新增矢量图形生成功能——用户只需用文字描述,AI就能直接输出Illustrator可编辑的SVG矢量文件,包含完整的图层、路径和颜色信息,设计师可以像编辑普通矢量图一样进行二次创作。同时推出品牌一致性功能,企业可以上传品牌手册包含Logo、色彩规范、字体要求和视觉风格指南,AI生成的所有内容会自动遵循这些规范,确保...