发布时间:2025-03-03 浏览次数:18次
GENAI简介
生成式 AI,即生成式人工智能(Generative Artificial Intelligence),是人工智能领域中的一个重要分支,它是基于深度学习等先进技术发展起来的一种能够自主生成新的数据样本的智能系统。
在功能表现上,生成式 AI具有强大的生成能力。它可以生成多种类型的数据,如文本、图像、音频、视频等。在文本生成方面,它能够撰写文章、故事、诗歌、代码等,生成的文本在语法和语义上通常具有较高的连贯性和合理性。在图像生成领域,它可以根据给定的描述或条件,创作出逼真的自然图像、艺术画作等。在音频生成方面,能够合成语音、音乐等不同类型的声音。在视频生成领域,也能够生成具有一定情节和内容的视频片段。
生成式 AI在诸多领域都有广泛的应用。在创意领域,能够为艺术家、设计师等提供灵感,辅助创作。在教育领域,可以根据教学内容和学生的学习情况,生成个性化的学习资料和辅导内容。在医疗领域,能够生成虚拟的医疗影像数据,辅助医生进行诊断训练等。在娱乐领域,可用于生成虚拟角色、创作游戏剧情等。
然而,我们也需要认识到生成式 AI存在一些挑战和问题。比如可能会生成一些虚假或有害的信息,存在数据隐私和安全问题,以及在一些复杂任务中生成的结果可能存在质量不稳定等情况。
总之,生成式 AI是人工智能领域中一项具有重要意义和广阔应用前景的技术,但我们在使用和研究它的过程中,需要充分认识到其优势和不足,以实现合理、安全、有效的应用和发展。
AI工具
AI对话
1、豆包AI助手
字节跳动出品的AI对话助手,提供智能对话问答服务。提供包括但不限于知识问答、生活服务、娱乐休闲等多种功能的智能服务。通过简单的语音或文字指令即可获得所需服务,操作简便。全面服务,便捷操作。支持AI划词功能,用户在任何应用程序中选中文本,即可通过快捷键快速调出豆包的AI搜索、翻译、解释、总结等功能。
https://www.doubao.com/chat/?channel=cnblogs&source=hw_db_cnbannera
2、deepseek
该工具不仅能在通用知识问答、文本创作和学习辅助等领域表现出色,还特别擅长代码生成和数学问题解决。它采用了多头潜在注意力(MLA)和专家混合架构(MoE)等先进技术,使其能够在较低算力条件下达到接近顶级AI模型的能力,从而打破了传统认为高计算成本是高质量AI输出的前提的认知。
3、文心一言
百度推出的基于文心大模型的AI对话产品,支持对话互动、问题回答和创作协助。基于ERNIE 3.0多模态模型,擅长长文本生成(如小说、剧本),支持文言文、网络用语等风格切换,中文语境理解能力突出。适合营销文案、创意写作,实时调整叙事风格,结合百度搜索大数据优化生成逻辑。
4、通义千问
阿里巴巴的AI聊天工具,提供知识问答服务,支持创意文案、办公助理等功能。深度整合钉钉生态,支持私有化部署与行业知识库定制,具备中英双语实时互译生成能力。金融、法律领域应用广泛,企业级服务适配度高。
https://tongyi.aliyun.com/qianwen/
5、天工AI
昆仑万维出品的AI聊天工具,支持搜索、写作、文档分析等多功能。其功能包括:支持全网AI搜索,提供实时、高质量且无广告的搜索结果;具备写作辅助功能,可自动生成文案并给出修改建议;拥有强大的文档分析与处理能力,能快速解读大型文档;同时,还提供AI绘画与设计功能,满足用户的创意需求。此外,天工AI还支持PPT制作、个性化设置等,致力于为用户提供最前沿的AI技术与服务。
6、KiMi
由月之暗面科技有限公司开发的AI聊天工具,支持长文本处理和多语言对话。基于大语言模型(LLM)技术,专注于长文本处理和智能搜索,为用户提供高效的信息处理和内容生成服务。支持高达200万汉字的超长文本输入和上下文处理,能够快速总结、分析和解读长文档。支持长文本处理、智能搜索、高效阅读、资料整理、辅助创作等功能。
7、智谱清言
清华大学出品的AI聊天工具,提供专业的知识问答服务。集文本生成、图片生成、音视频生成、深度推理等多种功能于一体,是一个智能创作系统。它基于深度学习技术,可以实现文章自动生成、智能改写、关键词提取等功能。
https://chatglm.cn/main/guest?lang=zh
8、讯飞星火
科大讯飞的AI聊天工具,提供语音交互服务,支持文字和语音的自然对话。实现“语音输入→文本生成→PPT制作→演讲演示”全链路打通,适配讯飞硬件设备。
编程与开发辅助
9、小浣熊AI助手
商汤科技推出的AI助手,包含代码助手、办公助手等功能。其中代码小浣熊具备代码补全、代码翻译、代码重构、代码纠错、代码问答、测试用例生成等功能。
https://xiaohuanxiong.com/code
10、豆包MarsCode
豆包 MarsCode编程助手是豆包旗下的 AI编程助手,提供以智能代码补全为代表的 AI功能,支持主流编程语言及 IDE。
11、通义灵码
支持多种主流编程语言,能根据上下文生成行级 /函数级代码、单元测试、代码注释等;有研发智能问答功能,可基于海量文档答疑解惑;能与主流编程工具良好兼容。
https://lingma.aliyun.com/?utm_content=se_1020199554
学术科研辅助
12、知学术AIPaperGPT
基于大型语言模型,能够自动生成论文的各类内容,如开题报告、毕业论文等;提供结构完整、逻辑性强的论文大纲;生成的文献均来自真实数据库,确保文献的真实性和可靠性。
13、千笔AIPaperPass
提供AI论文写作辅助,快速生成论文大纲和内容。
https://www.aipaperpass.com/?pic=qbzq
14、Effidit
腾讯 AI Lab研发的智能创作助手支持通用版和学术版两个版本,智能创作助手提供智能纠错、文本补全、文本改写、文本扩写、词语推荐、句子推荐与生成等功能,帮助您轻松完成中英文写作,提高写作效率。专注公文写作与学术论文场景,提升结构化表达效率。
15、包阅AI
包阅AI是一款高效的智能阅读助手,专为提升文档处理和内容阅读效率而设计。该AI阅读助手支持PDF、Word、PPT等多种格式,能够即时提炼文档要点,自动生成摘要和大纲。无论是学术论文、法律文件还是商业报告和财务,包阅AI都能提供深入的内容分析和快速的信息提取。
由阿里巴巴推出,在中文理解和处理方面表现出色,用户可从多种艺术风格和图像风格中选择,生成图像质量高、细节丰富,操作界面简洁直观、用户友好度高,且可与阿里其他产品和服务无缝整合。
https://tongyi.aliyun.com/wanxiang/
字节跳动推出的一站式AI创作平台,支持免费AI生成图片、音乐和视频、提供图片编辑工具、智能画布以及多语言优化等功能,帮助用户轻松创作个性化内容。
https://jimeng.jianying.com/ai-tool/home/?utm_medium=baiduads&utm_source=pinzhuan&utm_campaign=title
文心一格是百度推出的图像生成工具,支持多种风格(如国风、油画、水彩、动漫等)的高清画作生成。其模型性能稳定,适合设计师、艺术家以及需要高质量配图的内容创作者。中文支持友好,操作简单,且提供免费体验额度。
可灵AI由快手推出,是一款功能强大的AI视频生成工具,支持文本生成视频、图像生成视频、视频续写等多种功能。其生成速度快,最长可生成3分钟高清视频,细节处理能力出色,适合短视频创作者和广告策划人员。
20、智谱清影
智谱清影基于智谱AI自主研发的高效视频生成大模型,支持多种风格(如卡通、电影感等)的视频生成。用户只需输入文字描述即可快速生成高质量视频片段,适用于个人创作和专业领域。
https://chatglm.cn/video?lang=zh
腾讯智影集成了多项AI技术,支持智能剪辑、语音识别、自动字幕等功能,还提供数字人、文本配音和文章转视频功能。
22、Vidu
Vidu由清华大学联合北京生数科技开发,支持一键生成高清视频,具备长时长、高一致性特点。用户可以通过文字描述或上传图片生成长达32秒的高清视频,分辨率可达1080p,特别适合需要稳定输出的创作者。
其他AI工具
对话式工具
1、ChatGPT
ChatGPT是由OpenAI开发的先进人工智能聊天机器人,它能够与用户进行流畅的对话,回答各种问题,甚至协助完成写作、编程等任务。最新版本为ChatGPT-4o,不仅提升了对话能力,还增加了AI绘画等新功能。
Bing Chat是微软基于Bing搜索引擎推出的一款对话式AI工具。
3、Claude
Claude是由Anthropic公司开发的下一代AI助手。提供Claude和Claude Instant两个版本,满足不同需求。
4、Grok
Grok由马斯克创办的AI公司xAI开发的AI聊天机器人,支持多轮对话和生成有趣、有用的回复。
学术工具
5、Elicit
Elicit利用大型语言模型(LLMs)来制作答案,帮助用户找到可用于其论文的文献,适合需要快速获取文献摘要和对比信息的研究者。
6、Lumina
Lumina是一款完全免费的AI学术搜索引擎,支持24种语言,搜索结果相关性平均比谷歌学术高出5倍,适合对搜索结果相关性有高要求的研究者,特别是需要快速筛选和访问PDF格式学术论文的用户。
Research Rabbit是一款功能强大的科研文献检索和管理工具,通过智能摘要、可视化分析、文献管理和引用管理等功能,帮助研究人员提高文献查找、阅读、理解和管理的效率。无论是对于初学者还是资深研究人员来说,Research Rabbit都是一个不可或缺的科研助手。
8、scite
scite使用LLM来梳理引文情况,它消除了ChatGPT因编造不存在的参考文献而饱受诟病的弊端,通过与学术出版商合作,scite可以访问数百万篇学术文章的全文。
图像、视频处理与生成
9、MidJourney
是一款功能强大的图像生成工具,以其高质量和多样化的艺术风格而闻名。用户只需输入简单的文本描述即可生成精美的图片,适合设计师、艺术家以及内容创作者。它通过 Discord平台运行,社区活跃,用户可以轻松获取灵感并与他人交流创作经验。
10、DALL·E 3
OpenAI推出的最新版本图像生成模型,能够根据文本描述生成高度逼真的图片。其生成效果细腻且多样化,支持多种分辨率和风格选择。适合需要高质量视觉内容的专业人士,如广告设计师、插画师等。此外,DALL·E 3还具备一定的场景理解能力,能更好地满足复杂需求。
11、Stable Diffusion
是一个开源的图像生成模型,用户可以通过 DreamStudio网站或本地部署使用。它支持丰富的艺术风格,并允许用户对生成过程进行精细控制。由于其开源特性,开发者可以自由调整和扩展模型功能,适合技术爱好者和专业开发者。
AI使用技巧
1、什么是提示工程(prompt engineering)
提示是一种文本输入,它指导大语言模型生成文本输出。提示工程是指设计有效的提示,以从LLM(大语言模型)中诱发出高质量且相关的输出。
关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。
2、提示工程的基本原则
(1) 明确的指令
确保模型能够准确且高效完成任务,需要给予其充分的指导和信息。具体明确的指令应包括以下内容:
具体目标:指定任务的具体目标,比如“概括一篇论文”。
成果格式:规定任务成果的具体格式,比如“用不超过5个字的分类点”。
遵守规则:列出执行任务时必须遵守的规则,比如“不要提供不存在的文献”。
背景信息:提供任务的背景信息,比如“这篇论文在心理学研究范畴内”。
(2) 将复杂任务分解为子任务
提示工程是一种设计有效输入以使LLM执行各种任务的技术。有时,单个 prompt无法处理过于复杂或含糊的任务,将其分解为更简单的子任务,由不同的 prompt分别解决会更加有效。
例如文本摘要情境下,这个任务可以分解为以下子任务:
从文本中提取主要点或关键词。
以连贯流畅的方式重写主要点或关键词。
将摘要缩减到所需的长度或格式。
例如代码生成情境下,这个任务可以分解为以下子任务:
为代码选择一种编程语言(如 Python、Java、C++等)和一个框架或库(如 TensorFlow、PyTorch、React 等)。
根据用户输入或规范生成代码的函数名、参数列表和返回值。
生成实现代码逻辑和功能的函数体。
添加注释和文档以解释代码及其使用方法。
(3) 要求解释
LLM的设计方式是预测下一个标记基于前面的标记,而不会回顾其生成过程。这可能导致模型向用户输出错误的内容,却以非常令人信服的方式呈现。因此,在提示中指定要求LLM为其答案提供一些反思和解释,可能会促使模型纠正其行为。
例如,如果我们发现模型在解决数学问题时总是采用错误的策略,我们就可以在元提示层面直接指导模型采用正确的方法。
(4) 生成多个输出,然后让模型选择最佳的一个
正如我们在上一节所看到的,LLM是根据之前的标记来预测下一个标记,而不会回顾它们的生成过程。如果生成的某个标记是错误的(换句话说,如果模型运气不佳),LLM将继续生成错误的标记,从而导致输出错误的内容。
克服这一局限性的一种方法是扩大选择正确标记的概率空间。与其只生成一个响应,我们可以提示模型生成多个响应,然后选择最符合用户查询的那个。这把任务拆分成了两个子任务给我们的LLM:
生成多个响应以回答用户的查询;
比较这些响应并选择最佳的一个,根据我们在元提示中指定的某些标准。
(5) 在提示末尾重复指令
LLM往往不会平等地处理元提示中的所有部分,给予它们相同的权重或重要性。事实上,在微软软件工程师约翰·斯图尔特(John Stewart)的博客文章“复杂摘录的大语言模型提示工程”中,他通过安排提示部分得出了一些有趣的结果。具体来说,经过几次实验,他发现将主要指令在提示的末尾重复可以帮助模型克服其内在的近期偏差。
近期偏差 (Recency bias)
近期偏差是指LLM倾向于更多地重视出现在提示末尾的信息,而忽略或忘记较早出现的信息。例如,如果提示是两个人之间的长时间对话,模型可能只关注最后几条信息,而忽略之前的对话。
通过提示工程技术克服近期偏差的一种方法是在提示的末尾重复指令或任务的主要目标。例如,假设我们想要模型输出AI代理和用户之间整个聊天历史的情感。
提示工程进阶技术
(1)少样本学习策略(Few-shot approach)
在一篇名为《语言模型是少样本学习者》的论文中,研究者们证明了GPT-3能够在没有经过任何微调的情况下,经过少样本学习在许多自然语言处理任务上展现出强大的性能。
比如,如果我们想要让模型为我们创作一首新的五言绝句,我们可能希望这个创作能够符合特定风格。虽然我们可以用文字直接向模型解释这个概念,但提供一些相似诗歌的示例可能更为有效。
在魏等人的论文《通过思维链路提示引发LLM中的推理》中,思维链路(CoT)是一种通过中间推理步骤来启用复杂推理能力的技术。它还鼓励模型解释其推理过程,从而避免仅凭事实给出错误的回应(如我们之前所看到的)。
使用CoT,我们提示模型生成中间推理步骤。
参考:
https://arxiv.org/pdf/2005.14165
https://arxiv.org/abs/2210.03629
https://arxiv.org/abs/2201.11903
https://wap.sciencenet.cn/mobile.php?type=detail&cat=F&id=523502&mobile=1
2023年9月20日,由中国科学技术信息研究所、Elsevier、Springer Nature、Wiley共同编制,为学术写作中GenAI的使用提供了基本的框架和具体的操作指南。
https://www.istic.ac.cn/html/1/227/243/245/1701698014446298352.html
《科研诚信规范手册》
2023年12月11日,由国家自然科学基金委员会发布,对科研全流程中使用GenAI时需要遵守的原则和规范做出了具体的规定。
https://www.nsfc.gov.cn/publish/portal0/tab442/info91294.htm
如果在学术写作中使用了GenAI,可以使用GenAI检测工具来检查自己的成果是否符合相关机构对学术成果中GenAI使用的限制与要求。
以下是常见的部分GenAI检测工具:
1、知网AIGC检测服务
中国知网AIGC检测是一种针对疑似AI生成内容的检测服务,旨在确保学术内容的真实性和原创性。该服务通过先进的算法和技术,识别出论文或其他学术文献中可能由AI生成的段落和句子,从而帮助学术界维护纯净和公正。
2、维普AIGC检测
通过维普特定算法检测出的文本中由人工智能生成内容所占的比例数值。它是衡量一篇文章在多大程度上依赖人工智能创作的重要指标。维普AIGC检测系统依赖于一套复杂且先进的算法模型,能够精准地识别出文本的特征差异,从而有效揪出借助人工智能进行学术不端的行为。
http://vpcs.cqvip.com/%7Binsert_element_1_%7D
3、腾讯 “朱雀” AI大模型检测系统
由腾讯混元安全团队的朱雀实验室研发,包括AI生成图片检测系统和AI生成文本检测系统两款工具。该系统旨在帮助人们辨别图片和文章是否由AI生成。
https://matrix.tencent.com/ai-detect/ai_gen_txt
4、Scribbr
使用先进的算法,能够识别文本中的模式、重复词汇和语法结构,从而判断内容是否为AI生成。操作简单,无需登录即可使用。应用于学术论文审核、内容创作审核、企业文档检查等。
5、Originality
提供AI检测、抄袭检查、事实验证和可读性分析,帮助作者和企业创建真实、值得信赖的内容。设计人性化,用户可以粘贴文本进行检查,并会突出显示可能由AI生成或抄袭的文本。
基于AI的抄袭和内容检测工具,帮助用户在互联网上发现和防止内容被盗用。支持多种语言和文件格式,可以扫描互联网上的数十亿个网页和数据库。
7、ZeroGPT
一款能够识别人工智能生成文本的工具,提供文章AI率检测。不仅能够检测出文本的AI参与度,还能生成全面的检验报告,显示每个段落的“AI率”。