blog | 第4页 | up导航

Agent TARS – 字节跳动开源的多模态 AI Agent 框架

Agent TARS是一款开源的多模态AI代理，它能够通过视觉解析网页内容，还适合于深度研究、操作系统功能，能够处理复杂的工作流程，通过 Agent 框架执行复杂任务，可以进行全面的规划和执行，收集...

资讯

4天前

0610

算了么 – AI算力共享平台，自动检测闲时算力智能调度

随着人工智能算力应用的蓬勃发展，算力应用出现了在短时间内高密度的算力消耗需求，算力资源的短缺成为行业普遍面临的挑战。作为支撑人工智能算法运行和数据处理的基础设施，算力正成为人工智能技术应用落地的刚需...

资讯

4天前

0580

izdaxAi – 多功能AI应用，支持智能问答、写作辅助、绘画创作等功能

在人工智能与教育深度融合的新时代，新疆碧利雅电子科技公司推出了多功能人工智能应用izdaxAi 。集成了智能问答、写作辅助、学习工具、绘画创作、语音助手和多语言输入法等功能。用户可以通过语音或文字与 ...

资讯

4天前

0410

SpatialLM – 群核科技开源的空间理解多模态模型

SpatialLM 是群核科技开源的空间理解多模态模型，该模型仅通过一段视频即可生成物理正确的3D场景布局，赋予机器人和智能系统类似人类的空间认知能力。SpatialLM突破了传统大语言模型对物理世界...

资讯

4天前

0460

GPT-4o mini TTS – OpenAI 推出的文本转语音模型，体验不同语境情感

OpenAI新推出的文本转语音模型“gpt-4o‑mini‑tts”不仅能产生细腻、自然的语音，且比上一代更容易“指导”，也就是说开发者可用自然语言指令指定说话风格。支持将文本内容转换为自然流畅语音的...

资讯

4天前

0420

福棠·百川 – 百川智能携手北京儿童等推出的儿科大模型

福棠·百川是是国家儿童医学中心、首都医科大学附属北京儿童医院联合百川智能、小儿方健康共同发布的全球首个儿科大模型。“福棠·百川”儿科大模型可提供儿科诊疗及儿童健康保健AI服务。它拥有儿童常见病及疑难病...

资讯

4天前

0230

Tesseract – 开源的光学字符识别工具，支持多种语言文字识别

Tesseract是一个开源的OCR（光学字符识别）引擎，用于从图像中提取文本。Google 赞助开发的高精度免费的应用，能够处理多种语言的文本识别，适用于扫描文档的数字化、自动化表单填写等任务。支持...

资讯

4天前

0440

gpt-4o-transcribe – OpenAI 推出的创新语音转文本模型

OpenAI 新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练，能更好地捕获语音细微差别，减少误识别，大幅提升转录可靠性。GPT-4o-transcrib...

资讯

4天前

0440

Kimi招聘助手 – 月之暗面推出的飞书字段捷径AI工具，几秒出答案

月之暗面（Moonshot AI）旗下的 Kimi，是一款主打超长文本处理的 AI 助手，Kimi的浏览器插件功能强大且实用。它不仅能智能识别网页内容，还能提供一键式的操作，无论是搜索、翻译还是其他操...

资讯

4天前

0460

HuggingSnap – Hugging Face 推出的 AI 助手，无需联网识别视觉内容

随着人工智能技术的发展，香港大学数据智能实验室推出了一款开源的 AI-Researcher 系统，以 Claude-3.5-sonnet 作为核心，兼容 DeepSeek、HuggingFace 等主...

资讯 # 人工智能

5天前

0500

加载更多