AI编程

1. 前端

三个比较火的前端AI编程工具:V0, Lovable,bolt.new

名称 描述 链接
V0 最早的前端AI编程,但效果最差 https://v0.dev/
Lovable UI设计不催 https://lovable.dev/
bolt.new 功能理解/UI设计最优 https://bolt.new/

MCP

序号 名称 作用 时间
1 mcpdoc langchain的MCP工具,用于cursor访问langchain文档 4/14
2 Minimax 使用Minimax的图像生成和TTS功能 4/11

1. langchain的MCP:mcpdoc

通过解析llms.txt文件提取相关信息,解决信息过载/不完整/不准确的问题,帮AI助手理解复杂的框架文档。

场景是我们期望在cursor等工具中使用langchain类似的框架编写代码,但cursorLLMlangchain并不了解,不会达到很好的效果。那么利用mcpdoc,较为精准的找到用户问题相关的langchain文档,LLM获取了正确文档后,对用户解答或者编写代码。

工具

1
2
3
4
5
6
7
8
9
10
11
工具一:list_doc_sources
作用:列出所有可用的文档源
这是工作流程中的第一个工具,它会返回文档源的 URLs 或本地文件路径
不需要任何输入参数
工具二:fetch_docs
作用:获取并解析指定 URL 的文档内容
需要提供 url 参数
它可以:
先获取 llms.txt 文件内容
分析文件中列出的 URLs
获取与用户问题相关的特定文档页面

langchain提供的一个llms.txt(谷歌翻译版):

可以看到一个链接、此链接的详细说明。

image-20250414151649301

应用场景的思考

这个还是很有用的,之前如果用cursor用langchain编写代码,应该是有很大问题,比如:版本旧、不知道细节特性等。

对于这种新兴框架、新兴技术、LLM没有训练过的技术知识,很有用。如:langchain这种新兴框架文档、公司内部技术框架文档

2. Minimax

使用Minimax的图像生成和TTS功能,提供一段主题让大模型生成包含图片的讲解播客/动画等。

仓库:https://github.com/PsychArch/minimax-mcp-tools

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 添加Minimax Key
{
"mcpServers": {
"minimax-mcp-tools": {
"command": "npx",
"args": [
"minimax-mcp-tools"
],
"env": {
"MINIMAX_API_KEY": "your-minimax-api-key",
"MINIMAX_GROUP_ID": "your-minimax-group-id"
}
}
}
}

测试Prompt:

1
2
3
4
5
6
7
8
9
请使用minimax生成图片和音频。
请生成一个关于西红柿炒蛋的播客,内容包括完整的制作流程,适合家庭和儿童参与,强调健康饮食和烹饪乐趣【具体要求如下】:
文字内容: 播客内容不少于500字,语言简洁易懂,适合家庭成员共同收听,包含西红柿炒蛋的历史、营养价值以及制作步骤,最后要有健康饮食的启示。
切菜过程: 详细描述切西红柿和鸡蛋的步骤,强调安全和技巧,适合儿童学习。
炒菜过程: 讲解炒菜的技巧,包括火候掌握、调味品的使用等,鼓励家庭成员一起参与。
互动环节: 设计一个互动环节,鼓励听众分享他们的西红柿炒蛋故事或变种食谱,增加参与感。
音频生成: 将完整播客内容生成清晰、温暖的语音版本,语速适中,适合家庭收听。
HTML页面输出: 将播客文本、相关插图和音频整合为一个美观的HTML页面:页面配色温暖(如浅红、米白等),图文并茂,图像插在相关文字段落附近,页面底部附带“播放音频”按钮,支持语音播放,适配手机端阅读体验。
【输出格式】: HTML页面源代码,所有使用的图像链接(如有生成),语音文件链接或播放控件的嵌入代码。

测试效果:使用生成的图片,并在下方支持声音播放。

智能体(1)

名称 作用 时间
Genspark LLM+工具(文本、图片、视频) 4/8

1. Genspark

时间:4/8

结合LLM+80多个工具集,官方视频很惊艳

网站:https://www.genspark.ai/

功能包含:

  • 智能体(旅游、咨询等调用工具+LLM):测试了旅游,效果没有那么好,而且会优先搜索国外的内容。
  • 图片处理:看着是比较常见的图片场景:背景消除、橡皮擦、扩展、去模糊等。
  • 视频生成:测试了一个生成炒菜的视频,最终效果很差。会先优化提示词,将其拆飞为多个视频的提示词,并描述细节,但最终只生成了一个视频,并且效果差。(有可能是账号配额问题?)
  • 深度研究

生成视频时,会分析用户提示词并且重构提示词,添加很多细节,这一点很不错。但是最终生成的视频效果挺一般。

image-20250410101440109

文档提取(1)

1. SmolDocling

全文档OCR的多模态视觉语言模型,具有256M参数,支持复杂文档的全面OCR:布局、代码、公式、图表识别。

模型:https://huggingface.co/ds4sd/SmolDocling-256M-preview

实测:
测试了三个文件,其中两个是左右布局的文档,另一个是竖向表格文档。

  1. 第一张图片只识别了左侧文本,右侧没有识别。可能右侧有小图片的原因。
  2. 第二张文本中间有公式,识别的较好。
  3. 第三张识别不出来,他左侧是一张竖着的表格图片,可能是表格的影响。

总的来说,如果是常规的PDF、普通图表等文档,用这个是不错的。
如果是复杂的就用MinerU,使用多个模型进行应用处理。




总访问
发表了 19 篇文章 🔸 总计 43.8k 字