Muji's homepage


Acquiring the Puzzle Pieces of World Exploration
  • NoteBook LM 好玩在哪里

    人人可用的学习点播平台

    By Muji
    作为日常都要听播客的用户,之前就有使用体验 notebookLM,作为自己不想用眼睛看文章,但又想了解大致内容,提供新视角的听力资源补充。 碰巧近期看完 Google IO 2025后发现 notebook LM 现在支持中文语言输出,而且也新发了移动端app,就想着正好和新推出的 Orange 橘子哥的 AI 播客产品 ListenHub 使用体验结合起来一起聊下使用感受。 [Read More]
  • 大模型tts语音合成模型怎么选?

    By Muji
    Post thumbnail
    Post thumbnail
    在人工智能领域,语音合成技术(Text-to-Speech,简称 TTS)一直是研究的热点方向之一。早期的TTS主要应用于特定场景下的语音播报,比如火车站的到站通知、气象预报等。虽然可以完成基本的文本到语音的转换,但合成的语音往往机械、生硬,缺乏自然度和表现力。随着技术的进步,TTS 在智能客服、数字人播报、有声读物、导航系统等领域得到广泛应用,极大地改善了人机交互体验。 现在随着大模型应用场景越来越多样,大家除文本外其他模态的需求也越来越多。就语音合成的要求也越来越多样,比如伴随着LLM 流式输出,语音如何更低延迟的输出,比如如何用几秒的短音频复刻一个相似度极高的合成声音,比如在不同的应用场景的下语音合成的情感表现度能否根据文本语义更契合等等 [Read More]
    Tags:
  • 对话框发出的一个请求,模型要回答需要哪些步骤

    为什么同一个模型能同时处理多个请求

    By Muji
    Post thumbnail
    Post thumbnail
    缘起新人培训时候的一位同学,在培训会上问了一个问题:模型训练好推理时都是固定的,为什么同一个模型在调用时候同时段可以处理不一样的问题,输出不同的答案?同时和朋友吃饭的时候,他也正好在问大模型是怎么根据不同人输入的文字生成不同回答的。 [Read More]
    Tags: