OmniHuman-1: चीन आज कल AI की RACE में FULLFOM में आ गया वहाँ से एक से बढ़कर एक टक्कर देने वाली आर्टिफिशियल इंटेलिजेंस निकल के आ रही है पहले चीन की DeepSeekR1 ने तहलका मचाया और अब OmniHuman-1 भी चर्चा में है क्योंकि यह मात्र एक single image के द्वारा motion video बना देता है आज हम जानेंगे OmniHuman-1 क्या है कैसे काम करता है आपके लिए क्यों फायदेमंद है |
OmniHuman-1 क्या है ? (what is OmniHuman-1)
OmniHuman-1 चीन की कंपनी bytedance के द्वारा बनाया गया है | एक End to end multimodality ह्यूमन वीडियो जेनरेशन फ्रेमवर्क है | केवल मात्र एक इंसान की छवि और मूवमेंट के संकेतों जैसे कि (Audio, केवल VIDEO यह दोनों का संयोजन भी के आधार पर एक ह्यूमन वीडियो GENRATE कर सकता )और वो VIDEO इतनी Realistic है इतनी High quality है की आप चौंक जाएंगे |
OmniHuman-1 एक Diffusion transform आधारित model पेश करता है जो Multi condition training and data scale करता है |
OmniHuman-1 की विशेषताएँ
- इसको दो प्रकार की ट्रेनिंग दी गई है Mult condition training and data scalp
- यह कई प्रकार के मनुष्य संकेतों का समर्थन करता है जैसे Foceclose up, Portrait photo, half body, या full बॉडी , Body movement.
- बात करना, गाना गाना or कार्टून बनाना |
- मनुष्य की भावना क्या है किस तरीके से बात कर रहा है फोर्स की बॉडी का pose क्या है वो अपने तरीके से मैनेज कर लेता है |
- या कई सारे इनपुट का प्रयोग करता है या आप छोटा सा इनपुट देखकर इससे हाई क्वालिटी वीडियो बनवा सकते हैं जैसे (ऑडियो ,विडीओ, या mixed signal)
OmniHuman-1 कैसे काम करता है ?
- शुरु वात :
- इस समय पे वीडियो जनरेट करने के कई सारे मॉडल इंटरनेट पर उपलब्ध हो गए लेकिन ये मॉडल सिर चेहरे वाली वीडियो पर काम करते है |
- कई मॉडल अभी भी पूरी तरीके से मॉडल को बनाने में विफल रहे हैं या एनिमेशन तक ही बना पाए जैसा कि सीधे बात करना voice clear न होना फुल बॉडी में ही बनाना |
- इन सब समस्याओं का समाधान लेकर आया है हैंOmniHuman-1 जो सिर्फ एक इमेज से या ऑडियो से और pose से इसको इस तरीके से ट्रेन किया गया है किया सारी समस्याओं को हल करके एक रियल स्टिक वीडियो बना देता है जिसको पहचानना मुश्किल है |
2. मॉडल बनाने का तरीका (method):
मॉडल बनाने का ढांचा(Architecture):
- OmniHuman-1 मॉडल एक सिस्टम है जब टेक्स्ट ऑडियो और pose तीनों तरह की जानकारी को एक साथ लेता है और वीडियो बना देता है |
- यह एक डिफ्यूजन ट्रांसफार्मर का उपयोग करता है जो video के हर फ्रेम में धीरे -धीरे सुधार करते है असली वीडियो जैसा तैयार करता है |
ट्रेनिंग की रणनीति (Training strategy):

- इसको ट्रेन करने के लिए सबसे पहले इसके अंदर टैक्स और इमेज से वीडियो बनाने को सिखाया गया |
- इसके बाद इसके अंदर ऑडियो को जोड़कर वीडियो जनरेट करना सिखाया गया है |
- और तीसरे शरीर की स्थिति को जोड़ दिया गया उसके feelings के साथ कई 1000 घंटों की video के माध्यम से इसको ट्रेन किया गया |
- और इस प्रक्रिया में कंपनी ने ध्यान दिया है कि एक मजबूत सिग्नल जिसको pose बताया गया है जिसको कम बार तथा जो कमजोर सिग्नल होते है जैसे टेस्ट और ऑडियो को ज्यादा बार दिखाया जाए जिससे मॉडल संतुलित रहें |
इनफेरेंस (Inference):
- जब वीडियो बनाने का समय आता है तो मॉडर्न तीनों सिग्नल करोड़ों का एक साथ इस्तेमाल करता है |
- अगर सिर्फ इसको ऑडियो दिया जाए तो भी यह वीडियो के चेहरे और हावभाव को अच्छी तरीके से पहचानता है |
- इसके अंदर हर तरह की तकनीक शामिल हैं जो वीडियो को हिस्से को देश से lisping और शरीर का हिलना को सही बनाने में मदद करती है |
3. प्रयोग और परिणाम (Experiments and result) :
डाटा सेट :
- लगभग 18 हजार घंटे का वीडियो डाटा इस्तेमाल किया गया है इसके प्रशिक्षण के लिए |
- इसका डाटा विभिन्न स्रोतों से लिया गया है जैसे -celebV -HQ, RAVDESS आदि से |
तुलना :
- OmniHuman-1 नई अन्य मौजूद मॉडल (Cyber host, Loopy, sad talker )से बेहतर वीडियो बनाए हैं |
- वीडियो की गुणवत्ता लिप्सिंग और शरीर के हाव- भाव व अन्य मॉडल से ये बिल्कुल रियल लगता है |
- इसको अलग -अलग ट्रेनिंग RATIO ऑडियो खोज आज़ाद तथा सभी तरह के मिश्रण के रूप में PERFECT है |
OmniHuman-1 के उदाहरण
- बातचीत (TALKING):

बात करते समय ये वीडियो मैं ध्यान रखता है इंसान के स्थिति कैसी है उसके हावभाव और LIPSYNC और उसी फील्ड के साथ जिंस FEEL में उसको इनपुट मिला है यह अपनी तकनीकी से चेहरे के feeling और Audio को मैच करता है |
2. विविधता (diversity):
जब बात आती है विविधता की तो ओमनी ह्यूमन कार्टून या आर्टिफिशियल ऑब्जेक्ट जैसे एनीमल चैलेंजिंग pose या उनके हिलने ढूंढने तथा कैरेक्टर को मैच करने के लिए भी आसानी से पकड़ लेता है |
3. आधे शरीर और हाथ ( halfbody with hand):
एक और बड़ा उदाहरण है जहाँ पे अगर कोई फोटो आधे शरीर वाली है जिसमें हाथ दिख रहे हैं और इंसान बात कर रहा है उसने इमेज में भी यह ऑडियो आप को फिट करके एक वीडियो तैयार कर देता है|
4.चित्र (portrait):
यह पोर्ट्रेट फोटो में भी आसानी से फिट हो जाता है या उसी के विडीओ aspect ratio के हिसाब से train किया गया है और रिजल्ट काफी चौंकाने वाले आए हैं |
5. गाना (singing):
OmniHuman-1 यह म्यूजिक के स्टाइल को भी सपोर्ट करता है यह कई प्रकार की शरीर स्थित को उस गाने की rhythm के हिसाब से अलग -अलग मशीन में अलग म्यूजिक पर याद रखता है और उसी हिसाब से वीडियो बना देता है |
OmniHuman-1 का उपयोग कैसे करें ?
यह भी बीटा टेस्टिंग में इसलिए यह पब्लिक के लिए available नहीं है लेकिन मैं इसका प्रोसेस आप लोगों को बता देता हूँ किया किस तरीके से होने वाला है |
- सबसे पहले इनकी की वेबसाइट पर जाना होगा और लॉग इन करना लॉग इन करने के बाद हम किसी एक सिंगल फोटो को लेंगे और उसके अंदर अपलोड कर देंगे या फोटो किसी की हो सकती है या किसी कार्टून की यह किसी सिलेब्रिटीज की हो सकती है जहाँ पे हो या बात कर रहे हैं या फिर गाना गा रहे हैं कुछ भी |
- फिर यह technology multimodality motion conditioning किस सिस्टम को प्रोसेसर करने के लिए भेजेगी तो फिर वो उसको इमेज को जो आप ऑडियो देंगे उस हिसाब से उसको रिदम में मैच करेगा |
- जब प्रोसेसर कंप्लीट होगा उसके बाद इमेज के हावभाव और ऑडियो के हिसाब से वीडियो को हाई क्वालिटी में जेनरेट कर के दे देगा |
निष्कर्ष:
OmniHuman-1 एक ऐसा नया मॉडल है जो एक सिंगल इमेज से टैक्स और इमेज को ये ऑडियो का इस्तेमाल करके सुंदर और वास्तविक वीडियो बनाता है | पिया विभिन्न प्रकार के इनपुट जैसे चेहरे का अभाव आधा शरीर पूरा शरीर और ऑडियो के हिसाब से वीडियो को अच्छा बनाता है अधिक जानकारी के लिए > https://omnihuman-lab.github.io/
अक्सर पूछे जाने वाले सवाल (FAQ)
Q1. OmniHuman क्या है ?
OmniHuman एक ai मॉडल है जो एकमात्र तस्वीर ऑडियो आप के आधार पर वह लोगों के चेहरे के आधार पर एक वास्तविक वीडियो बना देता है |
Q2.OmniHuma कैसे काम करता है?
OmniHuman Diffusion Transformer technology इस पर आधारित है
यह सबसे पहले एक तस्वीर को इनपुट करना होता है उसके बाद इसमें ऑडियो दे सकते हैं माफिया शरीर के पोज को देखता है उसके हावभाव को समझता है और फिर इन सब को COMBINED करके एक वीडियो तैयार करता है |
३.OmniHuman किस प्रकार के वीडियो बना सकता है?
- बात करते हुए इंसान के चेहरे का एनिमेशन |
- गाना गाने वाले इनसान उनका वीडियो बना सकता है |
- कार्टून वीडियो बना सकता है |
Q4.क्या OmniHuman-1 free है ?
अभी सिर्फ रिसर्च में है और पब्लिक के लिए उपलब्ध नहीं है लेकिन आने वाले समय में यह फ्री और paid सर्विस में लॉन्च हो सकता है |
Q5.OmniHuman-1 के फायदे क्या है ?
इसके द्वारा आप एंटरटेनमेंट की कैटेगरी में ai जनरेटेड विडियोज बना सकते है |
शिक्षा में इसका प्रयोग पढ़ने के लिए भी हो सकता है |