GenAI

Generative AI

生成式人工智慧職缺

AI 教材
AIGC 教材
GenAI-projects 教材

範例程式： git clone https://github.com/rkuo2000/GenAI

1. Text-to-Image

Image Creators

Bing-Create tutorial

Midjourney

Leonardo.ai

civitai

SeaArt.ai

TensorArt

<img width="50%" height="50%" src="https://github.com/rkuo2000/GenAI/raw/main/assets/Tensor.Art_Flux_girl.png"

OpenArt.ai

goenhance.ai

fluxpro.ai

SD 3.5

ComfyUI Now Supports Stable Diffusion 3.5!

ComfyUI

本地部署Flux.1 最強文生圖大模型！ Comfyui 一鍵安裝，簡單又方便

Flux1-dev-fp8 model files

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
mv ~/Downloads/flux1-dev-fp8.safetensors ~/ComfyUI/models/unet/
mv ~/Downloads/t5xxl_fp8_e4m3fn.safetensors ~/ComfyUI/models/clip/
mv ~/Downloads/clip_l.safetensors ~/ComfyUI/models/clip/
mv ~/Downloads/ae.safetensors ~/ComfyUI/models/vae/
python main.py

open Browser at http:127.0.0.1:8188
drag flux_dev_fp8_example.png to browser window to generate the work-flow chart

edit text in CLIP Text Encode (Positive Prompt)
- 美圖產生提示詞
click Queue Prompt to generate image

examples:

pretty Asian woman was holding the flowers in her hands, Korean Model, real photo style, full body shot.

One girl, long hair, model, white background, white shirt, khaki Capri pants, khaki loafers, sitting on a stool, lazy pose, slightly tilting head, smiling, Asian beauty, loose-ting clothes, inting clothes , slightly raised foot, half-body shot, Canon R5 camera style, blurred background, indoor, natural light, some sunlight shining on the face，9 : 16.

建築設計提示詞

A modern office building design with 6 floors. The design language of the building is organic volume, curve design elements, natural leave or flower symbols.

WebUI

Stable Diffusion WebUI

AI繪畫(Stable Diffusion),在WebUI Forge和ComfyUI使用

Download WebUI-Forge
Decompress 7z x webui_forge_cu124_torch24.7z
Rename mv webui_forge_cu124_torch24 WebUI-Forge
Run ./webui.sh

Krita

安裝與 ComfyUI 工作流匯入（建築景觀與室內設計應用)

FLUX.1[dev]模型在Krita完美整合

2. Text-to-3D

gTranslate + SDXL-Lightning + TripoSR + Blender

Image-to-3D

Zero123+++

TripoSR

Kaggle: https://www.kaggle.com/code/rkuo2000/triposr

Depth Pro

Code: https://github.com/apple/ml-depth-pro Kaggle: https://www.kaggle.com/code/rkuo2000/depth-pro

3. Text-to-Video

Tune-A-Video

Open-VCLIP

Dynamic Scene Transformer (DyST)

Text-to-Motion-Retrieval

Stable Video Diffusion

SV4D
SV4D was trained to generate 40 frames (5 video frames x 8 camera views) at 576x576 resolution

Runway Gen3

Gen-3 Alpha Prompting Guide

Imagine.Art

<img width="50%" height="50%" src="https://github.com/rkuo2000/GenAI/raw/main/assets/ImagineArt_flying_cat_wearing_superman_suit.png"

RenderNet AI

SORA

Meta MovieGen

4. Text-to-Avatar

GAN 教材

MuskTalk

ComfyUI-MuseTalk
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/b2a879c2-e23a-4d39-911d-51f0343218e4 controls preload></video>

artflow.ai

Charactor Builder

5. Text-to-Song

Suno 教學

Tuneform

Specterr

Vizzy

ChatGPT(作詞) + SunoAI(作曲) + RVC WebUI (轉換人聲)

RVC-WebUI開源專案教學

RVC WebUI

Generative Speech

python gTTS.py "How are you" en : generate gTTS.mp3
python gT2T.py "How are you" fr : deep-translator
python gSpeak.py "How are you" fr : deep-translator, gTTS & Mpg123

6. Text-to-Speech

Parler TTS: python parler.py
Bark TTA: python bark_en.py, python bark_cn.py
Coqui TTS: python coqui_en.py, python coqui_zh.py
text-to-speech: python text_to_speech.py
gTTS: python gTTS.py "你好?" zh
gTranslate: python gTranslate.py

7. Audio-to-Text (ASR)

webkitSpeechRecognition

Blog: 語音辨識API

asr.html

Google Speech Demo

Whisper

local ASR+LLM Server running on GPU

run server on local PC (with GPU): python whisper_llm_server.py
Generate audio file: python ../gTTS.py "Hello, how are you?" en
Post Audio to Server: python post_audio.py

8. Text-to-Text (LLMs)

Large Language Models 教材
Prompt Engineering 教材

git clone https://github.com/rkuo2000/GenAI
cd GenAI/Text-to-Text

python gpt4free.py (gpt-3.5-turbo)
python gpt4all_prompting.py
python LLM_prompting.py
colab_LLM_prompting.ipynb (on Colab T4)

local LLM Server & Client

python llm_server.py (on GPU)
python post_text.py (on PC)

Colab running LLM Server

colab_pyNgrok_LLM_server (on Colab T4)
post-text client (on PC)

Colab running ASR+LLM Server

Open colab to run pyngrok_Whisper_LLM_Server.ipynb on Colab T4
Generate audio file: python ../gTTS.py "Hello, how are you?" en
Post Audio to Server: python post_audio.py

Ollama

ollama library

ollama list
ollama run llama3.2

ollama chat/generate

python ollama_chat.py
python ollama_stream.py (print text in streaming mode)
python ollama_curl.py

ollama speak

python ollama_speak.py (ollama generated text, gTTS to speech, then mpg123 to speak)
python ollama_speak_t2t.py (ollama generated text, gTTS to speech, deep-translator to zh-TW, mpg123 to speak)