OmniHuman-1 क्या है ? कैसे काम करता है , चीन का यह Modol मचा देगा तबाही !

OmniHuman-1: चीन आज कल AI की RACE में FULLFOM में आ गया वहाँ से एक से बढ़कर एक टक्कर देने वाली आर्टिफिशियल इंटेलिजेंस निकल के आ रही है पहले चीन की DeepSeekR1 ने तहलका मचाया और अब OmniHuman-1 भी चर्चा में है क्योंकि यह मात्र एक single image के द्वारा motion video बना देता है आज हम जानेंगे OmniHuman-1 क्या है कैसे काम करता है आपके लिए क्यों फायदेमंद है |

Table of Contents

OmniHuman-1 क्या है ? (what is OmniHuman-1)

OmniHuman-1 चीन की कंपनी bytedance के द्वारा बनाया गया है | एक End to end multimodality ह्यूमन वीडियो जेनरेशन फ्रेमवर्क है | केवल मात्र एक इंसान की छवि और मूवमेंट के संकेतों जैसे कि (Audio, केवल VIDEO यह दोनों का संयोजन भी के आधार पर एक ह्यूमन वीडियो GENRATE कर सकता )और वो VIDEO इतनी Realistic है इतनी High quality है की आप चौंक जाएंगे |

OmniHuman-1 एक Diffusion transform आधारित model पेश करता है जो Multi condition training and data scale करता है |

OmniHuman-1 की विशेषताएँ

इसको दो प्रकार की ट्रेनिंग दी गई है Mult condition training and data scalp
यह कई प्रकार के मनुष्य संकेतों का समर्थन करता है जैसे Foceclose up, Portrait photo, half body, या full बॉडी , Body movement.
बात करना, गाना गाना or कार्टून बनाना |
मनुष्य की भावना क्या है किस तरीके से बात कर रहा है फोर्स की बॉडी का pose क्या है वो अपने तरीके से मैनेज कर लेता है |
या कई सारे इनपुट का प्रयोग करता है या आप छोटा सा इनपुट देखकर इससे हाई क्वालिटी वीडियो बनवा सकते हैं जैसे (ऑडियो ,विडीओ, या mixed signal)

OmniHuman-1 कैसे काम करता है ?

शुरु वात :

इस समय पे वीडियो जनरेट करने के कई सारे मॉडल इंटरनेट पर उपलब्ध हो गए लेकिन ये मॉडल सिर चेहरे वाली वीडियो पर काम करते है |
कई मॉडल अभी भी पूरी तरीके से मॉडल को बनाने में विफल रहे हैं या एनिमेशन तक ही बना पाए जैसा कि सीधे बात करना voice clear न होना फुल बॉडी में ही बनाना |
इन सब समस्याओं का समाधान लेकर आया है हैंOmniHuman-1 जो सिर्फ एक इमेज से या ऑडियो से और pose से इसको इस तरीके से ट्रेन किया गया है किया सारी समस्याओं को हल करके एक रियल स्टिक वीडियो बना देता है जिसको पहचानना मुश्किल है |

2. मॉडल बनाने का तरीका (method):

मॉडल बनाने का ढांचा(Architecture):

OmniHuman-1 मॉडल एक सिस्टम है जब टेक्स्ट ऑडियो और pose तीनों तरह की जानकारी को एक साथ लेता है और वीडियो बना देता है |
यह एक डिफ्यूजन ट्रांसफार्मर का उपयोग करता है जो video के हर फ्रेम में धीरे -धीरे सुधार करते है असली वीडियो जैसा तैयार करता है |

ट्रेनिंग की रणनीति (Training strategy):

इसको ट्रेन करने के लिए सबसे पहले इसके अंदर टैक्स और इमेज से वीडियो बनाने को सिखाया गया |
इसके बाद इसके अंदर ऑडियो को जोड़कर वीडियो जनरेट करना सिखाया गया है |
और तीसरे शरीर की स्थिति को जोड़ दिया गया उसके feelings के साथ कई 1000 घंटों की video के माध्यम से इसको ट्रेन किया गया |
और इस प्रक्रिया में कंपनी ने ध्यान दिया है कि एक मजबूत सिग्नल जिसको pose बताया गया है जिसको कम बार तथा जो कमजोर सिग्नल होते है जैसे टेस्ट और ऑडियो को ज्यादा बार दिखाया जाए जिससे मॉडल संतुलित रहें |

इनफेरेंस (Inference):

जब वीडियो बनाने का समय आता है तो मॉडर्न तीनों सिग्नल करोड़ों का एक साथ इस्तेमाल करता है |
अगर सिर्फ इसको ऑडियो दिया जाए तो भी यह वीडियो के चेहरे और हावभाव को अच्छी तरीके से पहचानता है |
इसके अंदर हर तरह की तकनीक शामिल हैं जो वीडियो को हिस्से को देश से lisping और शरीर का हिलना को सही बनाने में मदद करती है |

3. प्रयोग और परिणाम (Experiments and result) :

डाटा सेट :

लगभग 18 हजार घंटे का वीडियो डाटा इस्तेमाल किया गया है इसके प्रशिक्षण के लिए |
इसका डाटा विभिन्न स्रोतों से लिया गया है जैसे -celebV -HQ, RAVDESS आदि से |

तुलना :

OmniHuman-1 नई अन्य मौजूद मॉडल (Cyber host, Loopy, sad talker )से बेहतर वीडियो बनाए हैं |
वीडियो की गुणवत्ता लिप्सिंग और शरीर के हाव- भाव व अन्य मॉडल से ये बिल्कुल रियल लगता है |
इसको अलग -अलग ट्रेनिंग RATIO ऑडियो खोज आज़ाद तथा सभी तरह के मिश्रण के रूप में PERFECT है |

OmniHuman-1 के उदाहरण

बातचीत (TALKING):

बात करते समय ये वीडियो मैं ध्यान रखता है इंसान के स्थिति कैसी है उसके हावभाव और LIPSYNC और उसी फील्ड के साथ जिंस FEEL में उसको इनपुट मिला है यह अपनी तकनीकी से चेहरे के feeling और Audio को मैच करता है |

2. विविधता (diversity):

जब बात आती है विविधता की तो ओमनी ह्यूमन कार्टून या आर्टिफिशियल ऑब्जेक्ट जैसे एनीमल चैलेंजिंग pose या उनके हिलने ढूंढने तथा कैरेक्टर को मैच करने के लिए भी आसानी से पकड़ लेता है |

3. आधे शरीर और हाथ ( halfbody with hand):

एक और बड़ा उदाहरण है जहाँ पे अगर कोई फोटो आधे शरीर वाली है जिसमें हाथ दिख रहे हैं और इंसान बात कर रहा है उसने इमेज में भी यह ऑडियो आप को फिट करके एक वीडियो तैयार कर देता है|

4.चित्र (portrait):

यह पोर्ट्रेट फोटो में भी आसानी से फिट हो जाता है या उसी के विडीओ aspect ratio के हिसाब से train किया गया है और रिजल्ट काफी चौंकाने वाले आए हैं |

5. गाना (singing):

OmniHuman-1 यह म्यूजिक के स्टाइल को भी सपोर्ट करता है यह कई प्रकार की शरीर स्थित को उस गाने की rhythm के हिसाब से अलग -अलग मशीन में अलग म्यूजिक पर याद रखता है और उसी हिसाब से वीडियो बना देता है |

OmniHuman-1 का उपयोग कैसे करें ?

यह भी बीटा टेस्टिंग में इसलिए यह पब्लिक के लिए available नहीं है लेकिन मैं इसका प्रोसेस आप लोगों को बता देता हूँ किया किस तरीके से होने वाला है |

सबसे पहले इनकी की वेबसाइट पर जाना होगा और लॉग इन करना लॉग इन करने के बाद हम किसी एक सिंगल फोटो को लेंगे और उसके अंदर अपलोड कर देंगे या फोटो किसी की हो सकती है या किसी कार्टून की यह किसी सिलेब्रिटीज की हो सकती है जहाँ पे हो या बात कर रहे हैं या फिर गाना गा रहे हैं कुछ भी |
फिर यह technology multimodality motion conditioning किस सिस्टम को प्रोसेसर करने के लिए भेजेगी तो फिर वो उसको इमेज को जो आप ऑडियो देंगे उस हिसाब से उसको रिदम में मैच करेगा |
जब प्रोसेसर कंप्लीट होगा उसके बाद इमेज के हावभाव और ऑडियो के हिसाब से वीडियो को हाई क्वालिटी में जेनरेट कर के दे देगा |

निष्कर्ष:

OmniHuman-1 एक ऐसा नया मॉडल है जो एक सिंगल इमेज से टैक्स और इमेज को ये ऑडियो का इस्तेमाल करके सुंदर और वास्तविक वीडियो बनाता है | पिया विभिन्न प्रकार के इनपुट जैसे चेहरे का अभाव आधा शरीर पूरा शरीर और ऑडियो के हिसाब से वीडियो को अच्छा बनाता है अधिक जानकारी के लिए > https://omnihuman-lab.github.io/

अक्सर पूछे जाने वाले सवाल (FAQ)

Q1. OmniHuman क्या है ?

OmniHuman एक ai मॉडल है जो एकमात्र तस्वीर ऑडियो आप के आधार पर वह लोगों के चेहरे के आधार पर एक वास्तविक वीडियो बना देता है |

Q2.OmniHuma कैसे काम करता है?

OmniHuman Diffusion Transformer technology इस पर आधारित है

यह सबसे पहले एक तस्वीर को इनपुट करना होता है उसके बाद इसमें ऑडियो दे सकते हैं माफिया शरीर के पोज को देखता है उसके हावभाव को समझता है और फिर इन सब को COMBINED करके एक वीडियो तैयार करता है |

३.OmniHuman किस प्रकार के वीडियो बना सकता है?

बात करते हुए इंसान के चेहरे का एनिमेशन |
गाना गाने वाले इनसान उनका वीडियो बना सकता है |
कार्टून वीडियो बना सकता है |

Q4.क्या OmniHuman-1 free है ?

अभी सिर्फ रिसर्च में है और पब्लिक के लिए उपलब्ध नहीं है लेकिन आने वाले समय में यह फ्री और paid सर्विस में लॉन्च हो सकता है |

Q5.OmniHuman-1 के फायदे क्या है ?

इसके द्वारा आप एंटरटेनमेंट की कैटेगरी में ai जनरेटेड विडियोज बना सकते है |

शिक्षा में इसका प्रयोग पढ़ने के लिए भी हो सकता है |

OmniHuman-1 क्या है ? कैसे काम करता है , चीन का यह modol मचा देगा तबाही !

OmniHuman-1 क्या है ? (what is OmniHuman-1)

OmniHuman-1 की विशेषताएँ

OmniHuman-1 कैसे काम करता है ?

OmniHuman-1 के उदाहरण

निष्कर्ष:

अक्सर पूछे जाने वाले सवाल (FAQ)

By ANIL KUMAR GAUTAM

Leave a Reply Cancel reply

You Missed

Google Doodle Kya Hai : कला , इतिहास और जानकारी का अनोखा संगम चौंकने वाले तथ्य

Gemma 3 model परिचय केवल एक gpu पर चलेगा आपके लिए क्या फायदेमंद है

Starlink internet in india : एलन मस्क की jio , airtel की डील से बदलेगी भारत की तस्वीर price क्या होगी ?

चीन की manus ai agent क्या है ? यह कैसे काम करता है ? transfome your productvity in 2025

OmniHuman-1 क्या है ? (what is OmniHuman-1)

OmniHuman-1 की विशेषताएँ

OmniHuman-1 कैसे काम करता है ?

OmniHuman-1 के उदाहरण

निष्कर्ष:

अक्सर पूछे जाने वाले सवाल (FAQ)

By ANIL KUMAR GAUTAM

Related Post

Leave a Reply Cancel reply

You Missed