AI编程
1. 前端
三个比较火的前端AI编程工具:V0, Lovable,bolt.new
名称 | 描述 | 链接 |
---|---|---|
V0 | 最早的前端AI编程,但效果最差 | https://v0.dev/ |
Lovable | UI设计不催 | https://lovable.dev/ |
bolt.new | 功能理解/UI设计最优 | https://bolt.new/ |
MCP
序号 | 名称 | 作用 | 时间 |
---|---|---|---|
1 | mcpdoc | langchain的MCP工具,用于cursor访问langchain文档 | 4/14 |
2 | Minimax | 使用Minimax的图像生成和TTS功能 | 4/11 |
1. langchain的MCP:mcpdoc
通过解析llms.txt文件提取相关信息,解决信息过载/不完整/不准确的问题,帮AI助手理解复杂的框架文档。
场景是我们期望在cursor
等工具中使用langchain
类似的框架编写代码,但cursor
的LLM
对langchain
并不了解,不会达到很好的效果。那么利用mcpdoc
,较为精准的找到用户问题相关的langchain
文档,LLM获取了正确文档后,对用户解答或者编写代码。
工具:
1 | 工具一:list_doc_sources |
langchain提供的一个llms.txt(谷歌翻译版):
可以看到一个链接、此链接的详细说明。
应用场景的思考
这个还是很有用的,之前如果用cursor用langchain编写代码,应该是有很大问题,比如:版本旧、不知道细节特性等。
对于这种新兴框架、新兴技术、LLM没有训练过的技术知识,很有用。如:langchain这种新兴框架文档、公司内部技术框架文档
2. Minimax
使用Minimax的图像生成和TTS功能,提供一段主题让大模型生成包含图片的讲解播客/动画等。
仓库:https://github.com/PsychArch/minimax-mcp-tools
1 | # 添加Minimax Key |
测试Prompt:
1 | 请使用minimax生成图片和音频。 |
测试效果:使用生成的图片,并在下方支持声音播放。



智能体(1)
名称 | 作用 | 时间 |
---|---|---|
Genspark | LLM+工具(文本、图片、视频) | 4/8 |
1. Genspark
时间:4/8
结合LLM+80多个工具集,官方视频很惊艳。
功能包含:
- 智能体(旅游、咨询等调用工具+LLM):测试了旅游,效果没有那么好,而且会优先搜索国外的内容。
- 图片处理:看着是比较常见的图片场景:背景消除、橡皮擦、扩展、去模糊等。
- 视频生成:测试了一个生成炒菜的视频,最终效果很差。会先优化提示词,将其拆飞为多个视频的提示词,并描述细节,但最终只生成了一个视频,并且效果差。(有可能是账号配额问题?)
- 深度研究
生成视频时,会分析用户提示词并且重构提示词,添加很多细节,这一点很不错。但是最终生成的视频效果挺一般。
文档提取(1)
1. SmolDocling
全文档OCR的多模态视觉语言模型,具有256M参数,支持复杂文档的全面OCR:布局、代码、公式、图表识别。
模型:https://huggingface.co/ds4sd/SmolDocling-256M-preview
实测:
测试了三个文件,其中两个是左右布局的文档,另一个是竖向表格文档。
- 第一张图片只识别了左侧文本,右侧没有识别。可能右侧有小图片的原因。
- 第二张文本中间有公式,识别的较好。
- 第三张识别不出来,他左侧是一张竖着的表格图片,可能是表格的影响。
总的来说,如果是常规的PDF、普通图表等文档,用这个是不错的。
如果是复杂的就用MinerU,使用多个模型进行应用处理。