Hyacehila - Personal Portfolio

Text2Image or Video Pipeline

文生图目前来看，实现一个标准的生成pipeline需要先用快速模式区分风格进行抽卡，在4-10张多样性图片中挑选以后，开始使用更高质量的模式进行多轮次的迭代微调以获得更好的生成效果。

文生视频建议从语言约束变视觉约束，考虑先使用文生图实现足够质量的关键帧，然后再交付视频生成。从而保证生成的一致性和连贯性。

很显然以上的工作流需要重构，市面上一定存在一些解决方案来帮助我们处理抽卡质量的问题减少用户进行多轮提示的成本。减少人工的提示撰写工作，让语言模型自己参与生成过程的优化，实际上现在的API和Model就自带相关优化，但是可能不能适配用户的使用场景。除了生成以外，还需要思考他和创作的Pipeline如何打通，让模型直接到产品交付。目前来看只能先放到传统工作流中，原本的游戏开发环节太多了。

还是LLM rubric and LLM as Judge 的评判，然后feedback作为evals或者直接feedback进入生成流程进行优化。对于纯粹的LLM as rubric。feedback 和 benchmark 就已经没有区别了。

直接生图去发小红书降低内容创作成本？对于小红书这个图文平台来看是非常现实的。

This site is open source. Improve this page.